人形『机器人』️正迎来一场由大模型与数据驱动的革命。
这份来自国泰海通证券的产业深度研究报告指出,具身智能的核心突破在于实现了从传统『机器人』️“指令执行”到“自主决策”的根本性转变。
『机器人』️不再是被动完成任务的机器,而是能够持续与物理世界交互、具备感知、决策与执行闭环能力的智能体。
而推动这场变革的两大核心要素正是“大模型”与“数据”——前者是引擎,后者是燃料。
在技术路径上,当前主流正从“端到端”向“分层端到端”演进。
端到端大模型试图直接建立“视觉+语言输入”到“动作控制输出”的映射,系统简洁但面临数据需求巨大、泛化性差的难题。
谷歌的RT系列是其代表,尽管在特定场景表现出色,但一旦脱离训练环境,成功率便急剧下滑,且训练成本高达数千万美元💵。
相比之下,分层端到端架构已成为行业共识,它将系统拆分为基础大模型、决策大模型和执行大模型三个层级,兼顾了性能、实用性和可扩展性。
第一层基础大模型负责感知与理解,整合语言和视觉信号,实现对复杂场景的语义解析与空间推理,如Llama 3.2 Vision等多模态模型为此提供了强大支持。
第二层决策大模型负责任务拆解与规划,将“煮咖啡”这样的复杂指令分解为一系列可执行的子任务,并调度下层执行,其技术正从基于『大语言模型』(LLM)的规则拆解,向由强化学习(RL)驱动的自适应规划进化,以应对动态环境中的突发状况。
第三层操作大模型则是硬件执行中枢,将抽象指令转化为精确的关节控制信号,其技术路径也正从依赖精确物理模型的MPC+WBC(模型预测控制+全身控制),转向更灵活、泛化性更强的“RL+仿真”模式。
数据作为“燃料”,其获取方式决定了产业发展的速度与成本。
真实采集数据(如远程操作、动作捕捉)虽然可靠性高,能完整保留物理世界的复杂性和闭环反馈,但面临着成本高昂、规模化困难的瓶颈。
谷歌花费17个月、16名『工程师』才采集13万条厨房数据,凸显了真实数据的稀缺性。
为破解此困局,仿真合成数据成为经济高效的解决方案。
通过虚拟环境可快速批量化生成海量数据,模拟极端场景和长流程任务,极大降低了硬件损耗和人力投入。
然而,仿真数据始终面临“虚实差距”(Sim2Real Gap)的挑战,即虚拟环境的物理参数与现实世界存在偏差,可能导致模型在真实场景失效。
行业领先者普遍采取“真实与合成数据协同应用”的务实策略。
『英伟达』的做法极具代表性:从少量人类示范数据出发,利用Isaac Lab等仿真平台生成指数级增长的合成轨迹。
其GR00T蓝图仅用11小时就生成了相当于9个月人力采集的数据量,将合成数据与真实数据结合后,模型性能提升了40%。
特斯拉则以真实数据为主,通过Xsens动捕系统大规模采集人类动作,并辅以高精度仿真来训练算法应对多样化环境。
而初创公司银河通用则走出了“99%合成+1%真实”的激进路线,认为应先将合成数据的潜力发挥到极致,用极少的真实数据来校准和弥补合成数据的盲区,已在pick&place等任务上高效验证了该范式的可行性,并开源了包含超950万条抓取姿态的大规模合成数据集DexonomySim。
报告最后也提示了三大风险:大模型技术落地可能不及预期,尤其是端到端模型的数据瓶颈;数据供给与质量,特别是Sim2Real Gap的弥合难度;以及『机器人』️在动态环境适应和执行复杂长流程任务方面的能力仍待考验。
总而言之,2025年的人形『机器人』️产业,正处于大模型架构探索与数据生产范式变革的关键交汇点,谁能更好地驾驭“引擎”与“燃料”,谁就有望率先打开通用『机器人』️的商业化大门。
本文由【报告派】研读,输出观点仅作为行业分析!
原文标题:原文标题:2025-09-20-国泰海通证券-国泰海通证券-产业深度:大模型与数据为人形『机器人』️打开脑洞—具身智能产业深度研究(四)
发布时间:2025年
报告出品方:国泰海通
文档页数:27页
以上截图为原文节选内容,输出观点仅作为行业分析,不构成任何投资意见!
精品报告来源:报告派