当全球科技巨头竞相押注具身智能这一AI新风口时,中国AI产业的标志性企业商汤科技也吹响了全面进军的号角。
这家曾以计算机视觉技术闻名、位列"AI四小龙"之首的科技企业,在经历大模型时代的转型阵痛后,正试图通过"大模型+机器人"的战略组合实现绝地反击。
图源来自pixabay图库
从密集的资本运作到顶尖人才集结,从技术路线重构到生态联盟搭建,商汤的具身智能布局已远不止于简单的业务拓展,而是一场关乎生死的转型之战。
风口上的战略转身,商汤为何All in具身智能?
日渐拥挤的具身智能赛道,前有蚂蚁集团直接成立子公司“蚂蚁灵波科技”,后有美团密集领投它石智航、星海图,京东连续投资千寻智能、众擎机器人等企业。
海外战场同样硝烟弥漫,谷歌RT-2模型、Figure AI的Helix系统、英伟达的世界模型,均在争夺物理世界交互的制高点。
作为中国AI产业曾经的标杆企业,商汤与旷视、云从、依图并称为"AI四小龙",凭借领先的计算机视觉技术在安防、智慧城市等领域风光无限,2025年登陆港股后,首日市值一度突破1500亿港元。
然而进入大模型时代后,这批以视觉技术见长的AI企业集体开始遭遇发展瓶颈。商汤2024年财报显示,公司全年实现营收37.72亿元,净亏损却高达43.07亿元,亏损额甚至超过营收总额。
同样惨淡的还有云从科技,其2024年营收同比下滑36.7%,净亏损扩大至6.96亿元;而旷视和依图则面临业务收缩,后者甚至关闭了多个城市的办事处,医疗板块几近停摆。
尤其在大模型浪潮下,OpenAI、月之暗面、深度求索等公司凭借语言大模型迅速崛起,而"四小龙"的技术主线仍集中在计算机视觉领域,核心收入依赖安防、交通等政府项目,占比普遍超过70%。
可见,商汤此次战略转型的背景实则是迫于生存压力的背水一战。
从另一角度来看,商汤的入局,也是一场蓄谋已久的“基因延伸”。据悉,其核心团队已初步组建完毕,部分来自其原有的智能驾驶业务,另一些则是计算机视觉专家和机器人领域资深从业者。
而这种人才流动也揭示了行业共性。自动驾驶与具身智能在环境感知、实时建模等底层技术上高度相通。毕竟“车就是四个轮子的机器人”,而智能驾驶的算法、仿真平台在一定程度上,也可以直接迁移至机器人开发。
而且,具身智能(Embodied AI)被视为AI技术“落地化”的关键突破口,其核心在于通过机器人等物理实体实现"感知-理解-决策-执行"的闭环交互。
这一概念在2025年政府工作报告中作为未来产业被首次提及,随即引发资本热潮,仅上半年国内该领域融资就超过200亿元,涉及130起融资事件,远超2024年全年总和。
行业普遍预测,按照马斯克提出的愿景,未来人形机器人将成为工业主力,数量有望超越人类,预计达到100亿台至200亿台,形成“不亚于手机的新终端市场”。
商汤选择此时入局,正是希望借助“大模型+机器人”的复合路径,将自身在视觉识别、多模态感知和大模型训练方面的积累转化为新的增长引擎。
躬身入局的商汤,有自己的“具身智能”方程式
从“看懂世界”的视觉识别,到“思考世界”的多模态大模型,再到即将实现的“动手改造世界”的具身智能系统。商汤科技进军具身智能绝非一时兴起,而是基于其技术积累的渐进式跃迁。
商汤联合创始人王晓刚带领的团队在智能驾驶领域研发的"绝影开悟"系统,已经能够理解物理规律和学习交通规则,而汽车与机器人在本质上都是具身智能体,这为技术迁移提供了可能。
不仅如此,商汤在技术路线上采取了分阶段演进的务实策略。2022年8月,商汤推出家用下棋机器人"元萝卜",首个家庭消费级人工智能产品,并将视觉算法与机械手深度结合,实现了棋子识别与遮挡环境下的精准抓取,初步构建了"视觉-感知-决策"的闭环框架。
这一产品虽然功能单一,却标志着商汤开始尝试突破传统AI的"开环"局限——从坐在云端"思考"世界,到真正与物理世界互动。
2025年4月,商汤发布"日日新SenseNova V6"多模态大模型,采用混合专家架构(MoE),拥有6000亿参数,实现了"长思维链×数理能力×推理能力×全局记忆"的综合提升,特别强化了多模态深度推理能力。
而且,该模型被接入人形机器人"飞燕"接入使用,使其具备全景视界感知、情感交互及心理健康筛查功能,同时还可以进行更自然的思考与表达。
不仅如此,商汤即将发布的具身智能"大脑"平台,代表着其技术整合的新高度。从目前披露的信息看,该平台旨在集成先进的感知、视觉导航及多模态交互能力,为机器人和各类智能终端提供强大赋能。
值得注意的是,商汤的转型布局呈现出鲜明的"三位一体"特征。在资本层面,通过配售新股和分拆业务双向融资;在技术层面,依托大装置算力平台和日日新大模型构建基础能力;在生态层面,则通过战略合作与投资并购快速建立产业联盟。
这种全方位推进的策略既反映了商汤转型的决心,也暗示了其面临的时间压力与竞争态势。如今,具身智能赛道已经进入第二个发展阶段,各个巨头纷纷入场。商汤必须抓住这一波机器人浪潮的红利,否则可能错失逆风翻盘的机会。
巨头云集的具身智能,商汤胜算几何?
目前来看,具身智能赛道虽然前景广阔,但已然成为科技巨头与创业公司同场竞技的残酷红海。商汤的入局面临着来自国内外多维度竞争者的挑战,这些对手在技术路线、资本实力和生态构建方面各有所长。
全球范围内,OpenAI与机器人公司Figure AI合作开发通用机器人,谷歌推出具身智能RT-2模型,英伟达则聚焦世界模型和仿真技术。
国内市场中,华为于2025年6月发布包含“大脑”的CloudRobo具身智能平台;字节跳动Seed团队在7月22日推出通用机器人模型GR-3;智源研究院则更早发布了跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain。
宇树科技UnitreeR1(图源来自财联社)
与此同时,互联网巨头也纷纷加码。京东领投三家机器人企业;美团连续主导了多个机器人相关的项目融资等等。
相较之下,商汤的核心优势在于计算机视觉领域的多年积累、多模态大模型的先发布局以及强大的算力基础设施。视觉信息占人类感知的80%以上,而商汤始终活跃在机器视觉技术前沿,在图像识别、视频分析和环境理解方面具有深厚技术储备。
此外,商汤"日日新"大模型系列在多模态融合方面国内领先,V6版本已实现最长64K思维链、10分钟长视频理解及深度推理等能力,这为具身智能的认知决策提供了坚实基础。
而且,23,000PetaFlops的算力规模则使商汤能够支持大规模仿真训练和复杂模型迭代,这一基础设施优势在短期内难以被超越。
劣势则在于硬件经验缺乏、现金流压力和亏损困局。与特斯拉、华为等拥有成熟硬件供应链的企业相比,商汤在机器人本体设计、运动控制和硬件集成方面几乎从零开始。
虽然通过与傅利叶、松应等企业合作可以部分弥补这一短板,但核心硬件能力的培育仍需要长期投入。在具身智能这一需要长期投入的领域,如何平衡研发投入与盈利预期将成为商汤的重大考验。
而技术路线的不确定性也是商汤不得不面对的压力。当前具身智能领域尚未形成统一的技术标准,VLA模型、"大小脑"架构和世界模型三种路线并行发展,各有优劣。
此外,具身智能的Scaling Law(规模法则)与语言模型有所不同,随着参数增加和数据量扩大,系统性能提升的边际成本可能更高。商汤需要精准把握技术演进方向,避免资源错配。
结语
商汤的具身智能布局,本质是将其计算机视觉霸权从“看懂世界”向“改造世界”的终极跃迁。
面对AI四小龙的集体困境——大模型时代的技术脱节、政府项目依赖,商汤选择以“大模型+机器人”组合发起生死突围。而此役成败,不仅关乎企业存亡,更将重塑中国在全球具身智能竞赛中的位势。
作者:土耳其热气球