报告派研读：2025年人形『机器人』️产业深度报告(报告一下) #科技 #人形 #合成 #数据 #『机器人』️ #模型

人形『机器人』️正迎来一场由大模型与数据驱动的革命。

这份来自国泰海通证券的产业深度研究报告指出，具身智能的核心突破在于实现了从传统『机器人』️“指令执行”到“自主决策”的根本性转变。

『机器人』️不再是被动完成任务的机器，而是能够持续与物理世界交互、具备感知、决策与执行闭环能力的智能体。

而推动这场变革的两大核心要素正是“大模型”与“数据”——前者是引擎，后者是燃料。

在技术路径上，当前主流正从“端到端”向“分层端到端”演进。

端到端大模型试图直接建立“视觉+语言输入”到“动作控制输出”的映射，系统简洁但面临数据需求巨大、泛化性差的难题。

谷歌的RT系列是其代表，尽管在特定场景表现出色，但一旦脱离训练环境，成功率便急剧下滑，且训练成本高达数千万美元💵。

相比之下，分层端到端架构已成为行业共识，它将系统拆分为基础大模型、决策大模型和执行大模型三个层级，兼顾了性能、实用性和可扩展性。

第一层基础大模型负责感知与理解，整合语言和视觉信号，实现对复杂场景的语义解析与空间推理，如Llama 3.2 Vision等多模态模型为此提供了强大支持。

第二层决策大模型负责任务拆解与规划，将“煮咖啡”这样的复杂指令分解为一系列可执行的子任务，并调度下层执行，其技术正从基于『大语言模型』（LLM）的规则拆解，向由强化学习（RL）驱动的自适应规划进化，以应对动态环境中的突发状况。

第三层操作大模型则是硬件执行中枢，将抽象指令转化为精确的关节控制信号，其技术路径也正从依赖精确物理模型的MPC+WBC（模型预测控制+全身控制），转向更灵活、泛化性更强的“RL+仿真”模式。

数据作为“燃料”，其获取方式决定了产业发展的速度与成本。

真实采集数据（如远程操作、动作捕捉）虽然可靠性高，能完整保留物理世界的复杂性和闭环反馈，但面临着成本高昂、规模化困难的瓶颈。

谷歌花费17个月、16名『工程师』才采集13万条厨房数据，凸显了真实数据的稀缺性。

为破解此困局，仿真合成数据成为经济高效的解决方案。

通过虚拟环境可快速批量化生成海量数据，模拟极端场景和长流程任务，极大降低了硬件损耗和人力投入。

然而，仿真数据始终面临“虚实差距”（Sim2Real Gap）的挑战，即虚拟环境的物理参数与现实世界存在偏差，可能导致模型在真实场景失效。

行业领先者普遍采取“真实与合成数据协同应用”的务实策略。

『英伟达』的做法极具代表性：从少量人类示范数据出发，利用Isaac Lab等仿真平台生成指数级增长的合成轨迹。

其GR00T蓝图仅用11小时就生成了相当于9个月人力采集的数据量，将合成数据与真实数据结合后，模型性能提升了40%。

特斯拉则以真实数据为主，通过Xsens动捕系统大规模采集人类动作，并辅以高精度仿真来训练算法应对多样化环境。

而初创公司银河通用则走出了“99%合成+1%真实”的激进路线，认为应先将合成数据的潜力发挥到极致，用极少的真实数据来校准和弥补合成数据的盲区，已在pick&place等任务上高效验证了该范式的可行性，并开源了包含超950万条抓取姿态的大规模合成数据集DexonomySim。

报告最后也提示了三大风险：大模型技术落地可能不及预期，尤其是端到端模型的数据瓶颈；数据供给与质量，特别是Sim2Real Gap的弥合难度；以及『机器人』️在动态环境适应和执行复杂长流程任务方面的能力仍待考验。

总而言之，2025年的人形『机器人』️产业，正处于大模型架构探索与数据生产范式变革的关键交汇点，谁能更好地驾驭“引擎”与“燃料”，谁就有望率先打开通用『机器人』️的商业化大门。

本文由【报告派】研读，输出观点仅作为行业分析！

原文标题：原文标题：2025-09-20-国泰海通证券-国泰海通证券-产业深度：大模型与数据为人形『机器人』️打开脑洞—具身智能产业深度研究(四)

发布时间：2025年

报告出品方：国泰海通

文档页数：27页

以上截图为原文节选内容，输出观点仅作为行业分析，不构成任何投资意见！

精品报告来源：报告派

报告派研读：2025年人形『机器人』️产业深度报告(报告一下)