谷歌在具身智能领域的布局以具身智能大模型为技术基座,通过端云协同推理、开源工具链下沉、跨形态硬件泛化适配及渐进式场景验证,构建从感知到执行的协同框架,探索具身智能机器人从单一任务工具向通用具身智能体的演进路径。
谷歌具身智能基础模型领域关键布局(机器觉醒时代制表)
1. 2022年4月,谷歌推出具身智能模型 SayCan
尽管大型语言模型(LLMs)能从海量文本中习得丰富知识,但它们缺乏对物理世界的具象认知,也无法观测自身生成内容对物理过程的实际影响,难以支持在特定具身化实体中进行决策。
这使得其在将高级指令拆解为机器人可执行的低级指令时,不仅可能产生人类眼中荒谬甚至滑稽的错误,更可能在特定物理场景中生成逻辑混乱或存在安全风险的指令解析。
如下图所示:当具备"抓取海绵"、"移动到餐桌"等技能的厨房机器人收到"饮料洒了,能否帮忙清理?"的请求时,语言模型可能给出看似合理却无法执行的方案——例如建议"使用吸尘器清理",但该方案在场景中无吸尘器,或具身智能体不具备操作吸尘器的能力时,会完全失效,因为具身智能体的本体能力范围通常是固定且有限的。
SayCan模型通过预训练技能的价值函数实现语言模型现实落地
1)具身智能模型—— SayCan
通过提示词工程,大型语言模型或许能够将高级指令分解为子任务,但如果脱离机器人自身能力以及机器人与环境当前状态的语境,它就无法完成这种任务的分解。
因此,需要明确将高级指令分解为一系列可用的低级技能。其中,一种方法是精心设计提示词,这是一种引导语言模型产生特定响应结构的技术。提示词工程会在模型的上下文文本(即“提示词”)中提供示例,明确指定任务以及模型需要模仿的响应结构。
然而,这并不足以将输出完全限制在具身智能体可执行的基本技能范围内,实际上,它有时会生成不可执行的动作,或生成的语言格式难以解析为独立步骤。
基于此,2022年4月,谷歌提出SayCan模型,旨在从大型语言模型(LLMs)中提取知识并将其应用到实际物理任务的落地执行中。其中,大型语言模型(Say)提供任务层面的落地能力,用于确定有助于实现高级目标的有效动作;而习得的可供性函数(Can)提供世界层面的落地能力,用于判断计划中哪些动作(或计划)是可执行的。
具体来说,采用强化学习来为各个技能学习价值函数,该函数通过可供性表征物理世界的可行操作空间;随后,再将这些技能的文本标签作为潜在响应,由语言模型对其进行评分。
因此,技能和语言模型相结合进而形成了一种共生关系:技能及其价值函数可充当语言模型的“手和眼”,而语言模型则提供关于如何完成任务的高层级语义知识。
通过预训练技能实现现实世界具身化 —— 这些技能将约束模型仅生成既可行又符合场景的文本动作指令,从而让机器人等具身智能体能够遵循高级文本指令 —— 大语言模型负责提供执行复杂时序扩展指令的流程知识,而技能关联的价值函数则构建起连接知识与物理环境的关键具身化桥梁。
除了让大型语言模型单纯解读指令外,还可以借助它对“单个技能在推进高级指令完成过程中所起作用的可能性” 进行评分 —— 若每个技能都有一个可供性函数(如习得的价值函数),用于量化其从当前状态成功执行的可能性,那么该函数的数值便可用于对技能的可能性进行加权。
通过这种方式,大型语言模型会给出“每个技能对完成指令的贡献概率”,而可供性函数会给出 “每个技能成功执行的概率”—— 将两者结合,就能得到 “每个技能成功完成指令的概率”。
另外,SayCan 还具有可解释性特点:模型不仅输出生成式响应,还会给出多种可能响应的概率分布。下图展示了其核心机制:任务集(定义机器人低级策略可执行的技能)与提示词工程(提供计划示例及人机对话格式约束)共同作用,将大型语言模型(LLM)的输出约束为可执行的技能序列。
SayCan模型执行过程示意图
2)在机器人系统中执行SayCan
a. 语言条件型机器人控制策略
为实例化SayCan框架,需提供一组技能组件,每个组件包含策略模块、价值函数及简短语言描述(例如"拾取易拉罐")。
在谷歌的实施方案中,各独立技能的训练采用两种方法:遵循BC-Z方法的图像行为克隆,或采用MT-Opt的强化学习。
无论技能策略如何获取,均使用基于时序差分备份(TD backups)训练的价值函数作为该技能的功能可供性模型。虽然当前数据收集阶段显示行为克隆策略成功率更高,但强化学习策略提供的价值函数作为关键抽象层,能将控制能力转化为场景语义理解。
为降低多技能训练成本,谷歌分别采用多任务行为克隆与多任务强化学习方案:通过以语言描述为输入条件的多任务策略模型,替代为每个技能单独训练策略和价值函数的传统模式。
为了让策略以语言为条件,谷歌采用了一个预训练的大型句子编码器语言模型。在训练过程中,冻结该语言模型的参数,并使用通过输入每个技能的文本描述生成的嵌入向量。这些文本嵌入向量被用作策略和价值函数的输入,用于指定应执行的技能。
由于用于生成文本嵌入向量的语言模型与用于规划的语言模型不一定相同,因此SayCan 能够灵活运用不同的语言模型 —— 这些模型分别适用于不同的抽象层级,比如有的擅长理解涉及多个技能的规划,有的则更适合细致地表达特定技能。
b. 训练低级技能
谷歌分别采用行为克隆(BC)和强化学习(RL)的策略训练流程,以获得受语言条件约束的策略和价值函数。
行为克隆(BC)策略:谷歌以BC-Z为基础,采用了类似的策略网络架构。该架构的训练中,连续动作组件采用均方误差(MSE)损失函数,离散动作组件采用交叉熵损失函数,且每个动作组件的权重相同。训练过程中使用了标准的图像增强手段(随机调整亮度和对比度)以及随机裁剪。
BC策略中的网络架构
强化学习(RL)策略:谷歌在日常机器人模拟器中使用MT-Opt ,并结合 RetinaGAN 的模拟到现实迁移技术。通过利用模拟演示提供初始成功案例来提升模拟策略的性能,然后通过在线数据收集,持续改进强化学习效果。
RL策略中的网络架构
备注:
1)采用稀疏奖励函数:若语言指令在一个回合结束时被成功执行,奖励值为1.0;否则为0。语言指令的执行成功与否由人工评定 —— 评定者会观看机器人执行技能的视频以及给定的指令。如果三名评定者中有两名认为技能已成功完成,则该回合被标记为正向奖励。
2)策略动作空间包括:末端执行器姿态的六个自由度、夹爪的开合指令、机器人移动基座的x-y 位置和偏航角增量,以及终止动作。
3) SayCan的局限性
尽管SayCan 方法为语言模型与智能体行动能力的结合提供了可行路径,但它仍存在诸多局限性。
首先,该方法继承了大型语言模型(LLMs)的固有局限,尤其体现在对训练数据分布的强依赖上 —— 若训练数据中缺乏特定场景、指令或技能的样本,语言模型可能无法生成合理的技能规划,甚至会输出与实际需求脱节的决策建议。
其次,尽管SayCan 支持用户通过自然语言指令与智能体交互,但其性能的核心瓶颈在于底层技能库的覆盖范围与执行精度:若技能库未包含完成任务所需的关键动作(如特定场景下的抓取姿势、精细操作步骤),即便语言模型规划逻辑严密,智能体也无法将规划转化为有效行动。
此外,当前系统缺乏对技能执行过程的实时反馈与动态调整机制:当个别技能在语言模型评估为“高价值” 的情况下实际执行失效时(如预期抓取物体却未成功),系统难以快速修正执行路径。尽管通过优化语言模型的提示策略可能在一定程度上缓解这一问题,但复杂场景下的鲁棒性仍待提升。
同时,SayCan在复杂任务的长时序规划上存在短板。对于需要多步骤协同的任务(如 “整理桌面并将文件放入抽屉”),语言模型可能难以将自然语言指令分解为连贯的技能序列,容易出现步骤遗漏或逻辑冲突(如先关闭抽屉再试图放入文件),导致任务执行中断。
另外,系统对环境动态变化的适应性较弱。若任务执行过程中环境发生未预期的改变(如物体位置移动、突发障碍物出现),预先规划的技能序列可能不再适用,而语言模型难以基于实时环境反馈快速更新规划,导致智能体陷入“规划 - 执行” 脱节的困境。
最后,安全性校验机制的缺失也是重要局限。语言模型可能推荐存在潜在风险的技能(如抓取易碎品时采用不当力度),但系统缺乏对技能安全性的前置评估,可能引发物体损坏或环境干扰等问题。
2. 2022年5月:谷歌发布通用具身智能体Gato
2022年5月,DeepMind发布通用具身智能体 Gato。它是一个集多模态、多任务、多具身特性于一体的通用智能体,其核心架构采用了包含 11.8 亿参数的Transformer序列模型。
核心设计:
- 继承LLM的Transformer序列建模范式,通过将跨模态数据序列化(图像分块、动作离散化)扩展至物理交互领域;基于广泛的多模态数据训练(涵盖图像、文本、本体状态感知、关节扭矩、按钮操作等),赋予模型对离散/连续观测与动作的泛化处理能力。
- 通过使用一组具有相同权重的单一神经网络,可处理不同具身形态(如机械臂、仿生机器人)的多源传感数据,实现跨场景感知与动作生成。
通用智能体Gato可适配不同具身形态
1)基础模型训练数据
a. 控制任务数据(占比 85.3%):包含游戏交互(如Atari游戏按键序列)、机器人操作(真实机械臂关节力矩、本体状态感知数据)以及导航与规划任务(如Meta-World中的机械臂操控、BabyAI中的3D导航)。这些数据主要来自模拟环境(如MuJoCo、DM Control Suite)和真实机器人平台(如Sawyer机械臂)的轨迹记录,总计覆盖596项任务,占训练数据总量的85.3%。
b. 视觉与语言数据(占比 14.7%):整合了纯文本语料(对话、网页文本)、图像数据(如ImageNet)及图文配对信息(图像描述任务)。此类数据用于支持图像字幕生成、文本对话等能力,但其占比显著低于控制任务。
Gato模型训练所使用数据集
2)模型的训练与部署
a. 训练阶段
来自不同任务和模态的数据被序列化为一个扁平的 Token 序列,分批处理后由 Transformer 神经网络处理。通过掩码机制,损失函数仅应用于目标输出(即文本和各种动作)。
Gato训练阶段示意图
b. 部署阶段
采样的 Tokens 会根据上下文组合成对话回复、图像字幕、按钮操作或其他动作。Gato 使用自回归生成控制策略,预测 t+1 的编码并反解码为动作,与环境交互。
将Gato部署为策略的过程示意图
3)Gato —— 迈向AGI的关键一步
Gato 首次提出 “通才智能体(Generalist Agent)”概念,将 AI研究从“任务特定优化”转向“跨多任务统一建模”。
a. 方法论革新:扩展LLM的“预训练+微调”范式至物理交互场景,通过数据序列化(图像分块、动作离散化等)实现多模态统一处理,首次验证Transformer在低维连续控制任务(如机械臂操作)中的潜力,但未突破其短期记忆瓶颈。例如,Gato在物理任务中依赖专家演示数据,且未解决长期记忆问题(上下文窗口仅1024 tokens)。
b. AGI路径探索:通过参数缩放实验(79M→364M→1.18B)验证模型规模、数据多样性与多任务泛化能力的正相关性,为通用模型研发提供实证依据;但后续研究表明,单纯扩大规模难以提升专业化能力,需结合“通专融合”架构解决任务可持续性问题。
Gato验证并实现了跨模态统一建模,将计算机视觉(CV)、自然语言处理(NLP)和机器人控制等不同模态数据(如图像、文本、传感器信号、关节力矩)通过统一的Transformer 序列模型进行处理。
- 数据序列化:所有模态数据被转化为Token序列(如文本通过SentencePiece编码,图像分割为 16x16 图块,连续状态和动作通过标量离散化),形成统一输入空间;
- 模型参数共享:同一套11.8 亿参数的模型可同时处理视觉识别、语言对话、机器人操作等任务,避免了传统方法为每个任务单独设计模型的冗余;
- 动态决策:模型基于输入序列的上下文自回归地预测下一个Token,该Token可以自动对应到不同的输出模态(如生成文本回复、游戏按键或机械臂控制指令),实现跨模态无缝交互。
总而言之,Gato在跨模态整合、任务通用性上的突破,被学界视为迈向通用人工智能的关键一步。
4)Gato的局限性
有业内相关专家指出,Gato模型的最大价值之一是将强化学习、计算机视觉与自然语言处理三大领域深度融合。尽管技术路径上借鉴了既有框架,但能将图像、文本与机器控制等不同模态数据映射至同一表征空间,并用同一套模型参数实现统一表达,已实属难得。
但是,Gato总体上依然是数据驱动的方式,且并没有在训练分布外的任务上获得较好效果。同时,训练数据总体上偏向游戏和机器人控制任务,采用有监督的离线训练方式,依赖专家数据,未充分利用强化学习的核心机制——奖励信号和在线交互。例如,其机器人控制任务的成功依赖预训练的专家轨迹,而非通过实时奖励优化策略。
这一局限性在后续模型RoboCat中通过自我改进循环(Self-Improvement Loop)得到部分解决。
3. 2022年10月:谷歌发布机器人Transformer模型RT-1
2022 年 10 月,谷歌 DeepMind 发布 RT-1 模型,其训练数据源自 13 台机器人持续 17 个月采集的超 13 万条任务片段。该研究开创性地将Transformer的应用向前推进 —— 将语言和视觉观测到机器人动作的映射视为一个序列建模问题,并利用Transformer学习这一映射。
能否借助多样化的机器人任务数据,训练出统一且强大的多任务骨干模型,使其具备对新任务、操作环境及物体的零样本泛化能力?这一目标面临两大核心挑战:数据集构建与模型设计。谷歌RT-1模型正是针对该命题的突破性探索。在RT-1模型的研究探索中,谷歌DeepMind 研究人员发现:
- 数据模型要实现优质泛化,必须构建兼具规模与广度的数据集,覆盖多样化任务与场景。同时,数据集中的任务需具备强关联性以支撑泛化,使模型能够发现结构相似任务间的内在规律,并通过创新性组合完成新任务。
- 模型架构设计的挑战在于—— 高效的多任务机器人学习需要的高容量模型。
1)RT-1模型工作原理
RT-1执行闭环控制,并以3Hz的频率持续输出动作指令,直至触发"终止"动作或达到预设时间步上限。
首先通过ImageNet预训练的卷积网络EfficientNet处理图像,该网络通过FiLM模块与指令的预训练嵌入向量进行条件调节;随后采用令牌学习器(tokenLearner)生成紧凑令牌集( set of tokens);最终由Transformer对这些令牌执行注意力计算,输出离散化动作令牌(action token)。
RT-1工作流程图
RT-1架构包含以下核心内容:
RT-1架构图
a. EfficientNet网络
RT-1通过将6 幅图像的历史记录输入一个基于ImageNet 预训练的 EfficientNet-B3模型来对其进行令牌化。
该模型接收分辨率为 300×300 的6幅图像作为输入,并从最终的卷积层输出一个形状为 9×9×512 的空间特征图。
为了包含语言指令,研究人员使用预训练的语言嵌入形式,让图像令牌化器以自然语言指令为条件,从而能够在早期提取任务相关的图像特征,并提升 RT-1 的性能。
EfficientNet是一种卷积神经网络(CNN),是高效的 “图像特征提取器”。它好比是提取画面特征的“图像翻译官”,专门用来从图像中提取特征,用于识别物体、分析场景等。
类似人类看照片时自动识别 “物体轮廓”,该卷积网络提前在 ImageNet(大规模图像数据集)上学过识别猫、车、杯子等物体,能从摄像头画面中快速提取所要识别物体的关键特征。
b. FiLM 模块
指令首先通过通用句子编码器(USE)进行嵌入。然后,将该嵌入用作输入,输入到恒等初始化的 FiLM层,这些 FiLM 层被添加到预训练的 EfficientNet 中,以调节图像编码器。
FiLM 模块好比是指令与图像的 “融合滤镜”。指令(比如 “把杯子拿到桌子上”)会先被转换成机器能懂的 “数字密码”(预训练嵌入向量)。FiLM 模块就像一个调节旋钮,用这个 “密码” 去调整图像特征:如果指令是 “拿杯子”,FiLM 会让卷积网络提取的特征更关注 “杯子的位置和把手”,忽略背景中的沙发。
c. TokenLearner(令牌学习器)
加入 TokenLearner后,将从预训练的 FiLM-EfficientNet层输出的 81个视觉令牌二次采样到仅剩8个最终令牌,然后这些令牌被传递到Transformer 层。
TokenLearner可类比成是特征的 “智能摘要工具”。卷积网络处理后的图像特征可能包含数万维数据(比如一张图拆成 1000 个小区域的特征),直接处理像 “读一本厚书”,效率很低。令牌学习器会自动挑选最重要的特征,把海量数据 “压缩” 成几十个关键 “令牌”(Token),类似从书中提取 “杯子、桌子、位置” 等关键词,扔掉无关细节(比如杯子上的花纹)。这样一来,数据量大幅减少,后续模型处理速度就像 “从读整本书变成看目录”,效率飙升。
d. Transformer
每幅图像产生的这8个令牌随后会与历史记录中的其他图像令牌拼接,形成总共 48 个令牌(并添加了位置编码),输入到 RT-1 的 Transformer 骨干网络中。该Transformer 是一个19M参数的,且仅包含解码器的序列模型,具有8个自注意力层,其输出是动作令牌。
Transformer可以看成是基于“关键词”的注意力决策者。Transformer 就像一个经验丰富的 “规划师”,它会分析压缩后的令牌(图像关键词)和指令密码,并最终输出机器人的动作执行指令。
e. 其它
动作令牌化(Action Tokenization)—— 为了对动作进行令牌化,RT-1中的每个动作维度都被离散化为256个bins。
动作维度包括:机械臂运动的七个变量(x, y, z, roll, pitch, yaw, 夹爪开合度)、底盘运动的三个变量(x, y, yaw)以及一个用于在三种模式(控制机械臂、控制底盘和终止任务片段)间切换的离散变量。
对于每个变量,研究人员将目标值映射到这256个bins中的一个,这些bins在每个变量的取值范围内均匀分布。
损失函数 —— 研究人员使用了标准的分类交叉熵目标函数和因果掩码。
推理速度—— 一个需要在真实机器人上实时运行的模型的独特要求之一是快速且稳定的推理速度。研究人员采用了两种技术来加速推理:
- 通过使用TokenLearner,减少由预训练 EfficientNet 模型生成的令牌数量;
- 仅计算这些令牌一次,并在后续存在重叠的推理窗口中复用它们。
这两项技术将模型推理速度分别提升了2.4倍和1.7倍。
2) RT-1局限性
尽管RT-1 在多项关键指标上表现突出:以 97% 成功率执行超 700 条指令,在新任务、物体与环境的泛化能力上超越已发布基线模型;能有效融合模拟环境与异构机器人形态的数据,且在不削弱原任务性能的前提下增强新场景适应性;还可在SayCan框架中完成长达50步的长时程任务 —— 但该模型仍存在一定局限性。
- RT-1 的训练数据虽覆盖大规模操作任务,但主要针对灵巧度要求不高的操作场景;
- RT-1是一种模仿学习方法,继承了该类方法固有的挑战,例如,可能无法超越演示者的性能水平。
- RT-1对新指令的泛化仅限于先前见过的概念组合,尚无法泛化到前所未见的全新动作。
1. 2023年3月:谷歌发布具身多模态视觉语言大模型PaLM-E
2023年3月,谷歌和柏林工业大学的团队正式推出PaLM-E。该模型之所以命名为 PaLM-E,是因为它采用 PaLM作为预训练语言模型,并使其具备了具身能力(Embodied)。
PaLM-E是一个单一的、大型的通用型多模态语言模型,能够将视觉-语言领域的知识迁移到具身推理领域,适用于具身推理任务、视觉-语言任务和语言任务,包括序列化机器人操作规划、视觉问答和图像描述生成等。
该模型可直接整合来自具身智能体传感器模态的连续输入,从而使语言模型本身能够做出更贴近现实的推理,以支持现实世界中的序列化决策。
图像和状态估计等输入会被嵌入到与语言令牌(Language Tokens)相同的潜在嵌入空间中,并由基于 Transformer 的大型语言模型(LLM)的自注意力层以与处理文本相同的方式进行处理。
PaLM-E系统架构
1)PaLM-E模型整体架构
PaLM-E模型的架构由三部分构成:多模态编码器、投影器和仅含解码器的大型语言模型(LLM)。它能在给定前缀或提示的情况下,以自回归方式生成文本补全内容。
其主要架构思路是将连续的具身观察信息(如图像、状态估计或其他传感器模态)注入预训练语言模型的语言嵌入空间。其具体实现方式: 将连续观察信息编码为一系列向量,这些向量的维度与语言标记的嵌入空间维度相同。因此,连续信息以类似于语言令牌的方式被注入语言模型中。
- PaLM-E 的输入: 包括文本和(多个)连续观察数据。与这些观察数据对应的多模态令牌与文本交错排列,形成多模态句子。例如:What happened between <img_1> and <img_2>? where<img_i> represents an embedding of an image. 其中,<img_i>代表图像的嵌入向量。
- PaLM-E 的输出: 是模型通过自回归方式生成的文本,既可以是问题的答案,也可以是PaLM-E 以文本形式生成的、由机器人执行的一系列决策。
为实现模型输出与具身智能体的连接,该研究将其区分为两种具体情况:
a. 如果任务仅通过输出文本即可完成(例如,在具身问答或场景描述任务中),那么模型的输出就直接被视为该任务的解决方案。
b. 如果是解决具身规划或控制任务,它会生成文本以调控低级指令。
具体而言,假设有一些策略能够执行来自某个(小型)词汇表的低级技能,而PaLM-E 生成的有效规划必须由一系列此类技能构成。
但是,PaLM-E 必须根据训练数据和提示信息自行判断可用的技能,且没有其他机制用于约束或过滤其输出。尽管这些策略是受语言调控的,但它们无法解决长时程任务或处理复杂指令。
因此,PaLM-E 被整合到控制环路中,其预测的决策由机器人通过低级策略执行,进而产生新的观察结果 —— 基于这些结果,PaLM-E 可在必要时重新规划。从这个意义上来说,PaLM-E可以被理解为一种高级策略,用于对低级策略进行排序和控制。
2) 不同传感器模态的输入与场景表征
针对不同传感器模态(如状态估计向量、二维图像等),需采用专用编码器进行处理。为此,谷歌提出差异化的编码器架构选择:通过映射函数将对应模态数据对齐至语言嵌入空间。具体研究涵盖以下模态处理方案:
- 状态估计向量:采用多层感知器(MLP)。状态向量(例如来自机器人的向量或对象的状态估计向量)包含这些对象的位姿、大小、颜色等信息。多层感知器(MLP)会将状态向量映射到语言嵌入空间中。
- 二维图像特征:采用视觉 Transformer(ViT)。ViT是一种Transformer架构,能将图像映射为多个标记嵌入向量。研究人员考虑了多种变体,包括 40 亿参数模型的ViT-4B),以及220 亿参数模型 ViT-22B,这两种模型均在图像分类任务上进行过预训练。
- 三维场景表征:采用对象场景表征Transformer(OSRT)。它不依赖于对象的外部知识,而是通过架构中的归纳偏置以无监督方式发现对象。基于 SRT,OSRT 通过新颖的视图合成任务,在领域内数据上学习以三维为中心的神经场景表征。
3)PaLM-E模型训练方法
PaLM-E 以预训练的PaLM 模型(分别为80亿、620亿和5400亿参数的仅含解码器版本)为基础,通过输入编码器向其中注入连续观察数据。
- PaLM-E-12B:80 亿参数LLM与 40 亿参数ViT相结合;
- PaLM-E-84B:620亿参数LLM与220亿参数ViT相结合;
- PaLM-E-562B:5400亿参数LLM与 220 亿参数ViT相结合。
备注:PaLM-E-562B ——尽管它仅在单图像样本上进行过训练,但却具备多种能力,包括零样本多模态思维链(CoT)推理、少样本提示、无需光学字符识别(OCR)的数学推理以及多图像推理。
a. 训练方法1:更新所有组件的参数。然而,若能提供合适的提示,大型语言模型会展现出令人印象深刻的推理能力。
b. 训练方法2:冻结大型语言模型,仅训练输入编码器;在这种情况下,编码器必须生成嵌入向量,使冻结的大型语言模型能基于观察数据,并将具身实体的能力信息传递给大型语言模型。训练此类编码可理解为一种输入条件化的软提示,与常规软提示相关。
c. 训练方法3:跨任务协同训练: 在多种不同数据上对模型进行协同训练。其中,“完整混合数据集”主要包含大规模互联网级别的视觉 - 语言数据,涵盖多种任务。其采样频率设置为:完整混合数据集中仅有 8.9% 是具身数据,且每个具身场景下包含多个任务。
实验结果显示,相较于仅在不同任务上单独训练,在“完整混合数据集” 上进行协同训练的模型,性能提升了一倍以上。
4)研究发现
a. 尽管当前最先进的通用视觉- 语言模型在零样本情况下无法很好地解决具身推理问题,但通过训练,在多模态大型语言模型的训练中融入具身数据,可以训练出一个具备通用性、迁移学习能力且适用于多具身形式的决策智能体 —— 一个既能胜任通用视觉 - 语言任务,又能高效进行具身推理的模型。
b. 相较于单任务训练范式,多任务联合训练显著提升模型综合性能。其核心价值在于跨任务知识迁移能力——该机制大幅提高机器人任务的数据利用效率(例如仅需10%的示范数据即可达到同等成功率),并赋予模型对新物体组合的强泛化能力(单样本泛化成功率提升37%)及开放世界物体的零样本操作能力。
c. 在多模态模型联合训练过程中,研究揭示两种保持PaLM-E语言能力的有效途径:
- 参数冻结策略:锁定大型语言模型(LLM)参数,仅训练输入编码器——此方案显著降低训练成本,成为构建具身语言模型的高效方法。
- 规模化端到端训练:当进行全模型端到端训练时,模型参数量与语言能力保留度呈正相关(例如562B的PaLM-E模型保留540B的PaLM模型96%的语言性能),可有效抑制具身化过程中的灾难性遗忘现象。
基于语言任务的实验结果
备注:通用语言任务实验结果表明——随着模型规模扩大,PaLM-E模型相较于其基础PaLM模型的灾难性遗忘程度显著降低。
2. 2023年6月:谷歌发布通用智能体RoboCat
2023年6月,谷歌DeepMind推出多具身形态、多任务通用智能体RoboCat——一种基于视觉目标条件的决策Transformer,可处理动作标注的视觉经验数据,能够通过自身生成的数据进行训练迭代实现自我改进。
1)对Gato的继承和创新
RoboCat直接沿用Gato的多模态Transformer架构作为基础,将视觉、语言、动作数据统一处理为离散token序列。这一设计被认为是DeepMind在通用智能体Gato的技术路线上的延续。
另外,在Gato基础上,RoboCat针对机器人任务强化了以下能力:
a. 动作输出适配:RoboCat 针对机器人任务的动作头扩展并非简单的维度调整,而是通过动态动作空间映射实现的深度优化。
- 多自由度兼容设计:动作头支持混合动作表示,可同时处理离散动作(如按键)和连续动作(如关节力矩);引入动作头参数共享机制,即不同机械臂的动作头共享底层Transformer 参数,但通过任务特定的适配器(Adapter)实现自由度差异的动态适配。
- 硬件无关的控制接口:通过统一动作语义空间实现跨机械臂迁移。例如,抓取动作在不同机械臂中被抽象为"闭合夹具" 的语义指令,动作头根据当前机械臂的自由度自动生成具体的关节角度序列。另外,引入动作空间正则化技术:在训练阶段,通过对抗训练使动作头输出分布与机械臂物理约束对齐,避免生成超出关节极限的动作。
b. 目标条件策略:RoboCat 的目标图像输入通道并非简单的输入扩展,而是构建了端到端的视觉 - 动作闭环。
- 目标图像的多模态融合:目标图像通过预训练的VQ-GAN 编码器转化为 token 序列,并与当前观测图像 token、动作 token、任务描述 token 共同输入 Transformer;引入目标-观测注意力机制:Transformer 在处理序列时,会动态计算目标图像 token 与当前观测 token 的相关性,优先关注需要调整的区域。
- 闭环控制的实时性优化:采用时序目标对齐技术,将目标图像分解为时间序列token,并与当前动作序列token 进行时序对齐训练;引入失败补偿机制 —— 当动作执行未达到目标时,模型会自动生成补偿动作。
2) 自我改进闭环学习机制
研究实验表明,RoboCat既能零样本泛化到新任务与新形态机器人,也可仅通过100-1000个目标任务样本的微调,快速适配到不同的新任务,包括新机器人具身、未见过的行为、物体和感知变体(光照/视角等感知条件变化),以及从仿真模拟到真实的迁移。
此外,训练后的模型自身可生成数据用于后续训练迭代,从而构建自我改进闭环学习机制 —— 研究人员使用多样化的训练数据集来训练该通用智能体的初始版本,该版本可通过100-1000 次演示数据微调至适配新任务,随后部署到真实机器人上,为这些任务生成更多数据。生成的新数据将被添加到训练数据集中,用于RoboCat的下一迭代版本训练,这种机制在一定程度上突破了传统机器人依赖真机数据的局限,使模型能持续进化变成可能。
如下图所示,RoboCat通过自我改进闭环流程持续提升智能体能力——增强其跨任务迁移性、通过微调扩展适配任务范围,并在现有任务中实现性能突破。
RoboCat自我改进闭环流程机制
3)基础模型训练数据
RoboCat 的训练数据集聚焦于视觉目标条件下的机器人操作任务,且针对性覆盖了多形态硬件和复杂场景,包含400 万次机器人操作片段,涵盖物体分拣、工具使用、导航等多样化场景。
- 多具身形态适配:数据来自4 种不同类型的真实机器人(如 Sawyer、Panda 机械臂)及模拟环境,包含不同自由度、观察空间和动作规范的操作序列。
- 任务多样性覆盖:训练数据覆盖253 项基础任务及 141 项变体,涉及精密装配(如齿轮插入、积木堆叠等)、基础操作类(如抓取指定物体、分拣水果等)等场景。
4)RoboCat的局限性
在具身智能领域,机器人面临的最大挑战是如何像人类一样快速适应新任务与环境。RoboCat首次在通用机器人领域实现了“学习-实践-进化”的完整闭环,为破解这一难题提供了全新路径。
这一突破性技术通过在模拟与真实环境中融合跨机器人经验,结合生成式人工智能的自我数据增强能力,显著降低了新技能学习所需的人类演示数据量。然而,在动态环境适应性、跨本体泛化效率等方面仍存在明显局限。
1)动态环境应对不足:物理建模深度的不够
RoboCat在静态桌面操作(如抓取固定物体、堆叠积木)中表现出色,但面对动态交互场景时性能急剧下降。例如在抓取滚动球体任务中,其成功率不足30%,远低于工业场景要求的95%+的可靠性标准。这本质上是世界模型缺失的体现。与人类基于物理直觉预判行为后果不同,RoboCat仅建立“图像-动作”的统计关联,缺乏对“力-运动-形变”因果链的内在表征。当环境变量超出训练集分布时(如地面材质由木质变为金属),模型无法通过物理推理调整策略,导致跨场景泛化崩溃。
2)硬件适配的柔性瓶颈:本体特化与通用性的两难
虽然RoboCat支持跨机械臂迁移,但其适配效率仍受限于本体动力学特性差异。当新硬件与训练集机械臂存在显著动力学差异时,微调成本剧增。这些问题暴露了跨本体适配的“表面泛化”特性:模型可适应外形相似、自由度相近的机械臂,但对动力学特性迥异的系统,仍需近乎重训级的深度调整。
3. 2023年7月:谷歌发布机器人VLA模型RT-2
2023年7月,谷歌DeepMind发布具身智能视觉-语言-动作模型(VLA)RT-2(Robotics Transformer 2)。其核心设计是使用互联网规模的网络数据和机器人动作轨迹数据对预训练好的视觉-语言模型(VLM)进行联合微调生成VLA模型。核心目标是将VLM模型的知识迁移到机器人控制中,实现端到端的语义推理与动作生成。
1)模型架构
RT-2以预训练的视觉-语言模型为核心骨干,通过动作 Token 化将机器人控制任务统一到自然语言生成框架中,形成端到端单一模型架构。该模型分别以PaLI-X 和 PaLM-E 两种VLM 架构构建了对应的实例模型RT-2-PaLI-X 与 RT-2-PaLM-E 。
RT-2模型架构
2)联合微调(Co-Fine-Tune)
将机器人动作数据(来自RT-1)与网络数据混合,共同输入模型进行联合微调。其中,网络数据内容包括视觉问答(VQA)、图像描述、非结构化图文交织样本等。机器人动作数据为13台机器人持续17个月采集的办公环境中的厨房场景数据(与RT-1训练所使用的数据相同)。
在具体实现方案中,谷歌DeepMind通过提高机器人动作数据集的采样权重,以平衡每批次训练数据中机器人动作数据与网络数据的比例。
模型联合微调的关键步骤在于建立模型现有词汇表与离散动作空间之间的映射关系。为此,需要预先保留256 个标记(tokens)作为专用的动作标记。具体选择哪些标记作为动作标记,取决于所使用的视觉语言模型(VLM)的分词方案:
- PaLI-X:由于其分词方案为每个不超过 1000 的整数分配了唯一的标记,因此可直接将 action bins 映射到对应的整数标记上。
- PaLM-E:该模型的分词方案不包含数字的直接表示,因此需要覆盖词汇表中 256个使用频率最低的标记,将它们重新定义为动作词汇表。
DeepMind通过实验证明 —— 提升机器人性能的关键训练技巧在于:将机器人数据与原始网络数据进行联合微调,而非仅对机器人数据实施简单微调。联合微调能生成泛化能力更强的策略,因为在此过程中,策略同时接触网络规模数据的抽象视觉概念和微调过程中的低层级机器人动作,而非仅局限于机器人动作。
3)RT-2的局限性
本文阐述了如何通过结合视觉语言模型(VLM)预训练与机器人数据来训练视觉语言动作(VLA)模型。
谷歌DeepMind提出了基于PaLM-E和PaLI-X的两种VLA实现方案,分别命名为RT-2-PaLM-E和RT-2-PaLI-X。这些模型通过机器人轨迹数据进行联合微调,以输出表示为文本标记的机器人动作。
研究表明,该方法不仅能生成高性能的机器人策略,更重要的是其泛化能力显著提升,并继承了大规模网络视觉- 语言预训练所赋予的涌现能力。
尽管RT-2展现出优异的泛化性能,该方法仍存在多重局限。
1)局限一:可用的开源VLM模型少
目前仅有少量可用于创建RT-2 的通用视觉 - 语言模型(VLM),期待更多开源模型及开放专有模型的微调API——这是构建VLA模型的必要条件。
2)局限二:动作创新能力受限
VLM通过网络规模预训练可提升语义与视觉概念的泛化能力,但机器人并未因包含这些额外经验而获得执行新动作的能力。
模型的物理技能仍局限于机器人数据中所见的技能分布,仅能创新性地组合已有技能。DeepMind认为这源于数据集的技能多样性不足所致。未来研究的关键方向是探索通过新数据收集范式(如人类操作视频)获取新技能。
3)局限三:实时推理瓶颈
尽管实现了大型VLA模型的实时运行,但其计算成本仍高昂。若应用于需高频控制的场景,实时推理将成为主要瓶颈。未来研究需探索量化和蒸馏技术,以提升模型速率或适配低成本硬件。
4. 2023年10月:谷歌发布机器人VLA模型RT-X
2023年10月,谷歌DeepMind发布了通用具身智能模型RT-X(含RT-1-X和RT-2-X),并开源其训练数据集Open X-Embodiment。
RT-X 模型并非指单一模型,而是一个项目/系列。在原有 RT-1 和 RT-2 的框架基础上,使用大规模跨机器人数据集 Open X-Embodiment 进行训练(微调),从而得到了两个系列的模型:RT-1-X 系列和 RT-2-X系列。
截至目前,Open X-Embodiment已整合 60个机器人数据集,覆盖 311 种场景与 22 类不同类型的机器人平台(含单臂/双臂/四足机器人等),提供超100万条真实机器人运动轨迹,涵盖 527 项技能及 160,266 项任务。
Open X-Embodiment 开源数据集
1)RT-X模型训练使用数据集
据了解,在当时训练RT-1-X 和 RT-2-X 时,所使用的数据并非如今 Open X-Embodiment 数据集的全部内容。其数据仅涵盖 22 个机械臂中的 9 个,以及 60 组子数据集中的 12 组,总计 1,131,788 条数据。由于该数据集处于持续增长状态,在开展 RT-X 相关实验时,这 12 组数据便是当时数据集的全部内容。
这12组数据集包括:RT-1、QT-Opt、Bridge、Task Agnostic Robot Play、Jaco Play、Cable Routing、RoboTurk、NYU VINN、Austin VIOLA、Berkeley Autolab UR5、TOTO和Language Table。
其中,RT-1-X仅使用上述机器人数据(9类机械臂的12组数据集)进行训练;RT-2-X采用与原 RT-2类似的联合微调策略,以约 1:1 比例混合经任务筛选的VLM数据与机器人数据。
2)RT-X模型架构
RT-1-X 和 RT-2-X 均以图像和文本指令作为输入,并输出离散化的末端执行器动作。RT-1-X 是一个专为机器人设计的架构,包含一个 FiLM 条件化的 EfficientNet和一个 Transformer。RT-2-X 构建在一个视觉语言模型(VLM)主干之上,其方法是将动作表征为另一种语言,并将动作文本标记与视觉语言数据一起进行训练。
RT-X模型训练过程
1. 2024年3月,谷歌推出具身智能模型RT-H
2024年3月,谷歌DeepMind正式推出端到端的框架RT-H。它是一个带动作分层结构的机器人Transformer —— 将语言化动作作为高级任务描述与低级动作之间的中间预测层,从而通过语言化动作构建动作分层结构。
在上图中,当给定“盖上开心果罐” 这类语言描述的任务以及场景图像后,RT-H 会利用视觉语言模型(VLM)预测 “向前移动手臂”、“向右旋转手臂” 等语言化动作;然后,再根据这些语言化动作,为机器人预测具体执行动作(Robot Action)。
这种动作分层结构能让模型学习到那些语言描述差异显著但存在共享结构的任务。与RT-2哪些直接从任务映射到动作的方式相比,这些语言化动作有助于在多样化的多任务数据集之间实现更好的数据共享。
此外,该分层结构还允许人类选择性地向机器人提供语言化动作修正,以避免任务失败,随后利用这些新的语言化动作预测更优的动作。当人类完成干预后,RT-H 会像之前一样继续预测语言化动作。
然而,当任务在语义上变得更加多样时(例如“拿起可乐罐” 和 “倒杯子里的东西”),任务间的数据共享就会变得更加困难,因此学习从高级任务到具体动作指令的映射需要大量的演示数据。
为了弥合任务与动作之间的这一鸿沟,DeepMind的解法是赋予机器人『动作语义化』能力——使用原子级动作短语(如“前移机械臂”或“闭合夹爪”)描述底层运动。将语言化动作预测作为高层任务与底层执行间的中间步骤,倒逼策略模型学习表面异构任务间共享的底层运动结构。更重要的是,基于语言化动作条件生成的策略,可在执行过程中通过人类指定的语义指令实时修正。
1)RT-H:利用语言构建动作分层结构
RT-H的推理流程包含两个关键阶段:
1)首先,RT-H 根据视觉观察结果和高级任务描述,预测当前的语言化动作(语言化动作指令请求),使模型能在细粒度层面推理任务执行方式;
2)然后,RT-H联合视觉观察、任务描述及推断出的语言化动作预测当前的具体执行动作(机器人动作指令请求),其中语言化动作为精确动作预测提供了关键上下文补充。
RT-H是以视觉语言模型(VLM)作为主干网络,并遵循 RT-2的训练流程来实现。与RT-2 类似,通过互联网规模数据的训练,模型可调用自然语言处理与图像理解领域的海量先验知识。
为了将这些先验知识融入动作层级结构的各个层级,RT-H 使用单一的视觉语言模型(VLM)同时学习语言动作指令请求(Language Motion Query)和机器人动作指令请求(Action Query)。
RT-H的推理流程
图左侧:
RT-H利用语言构建分层策略学习架构:将动作预测拆分为语言化动作指令请求(πₕ)与机器人动作指令请求(πₗ)。其中:
- πₕ:基于图像令牌( Image Tokens)和任务描述令牌(Task Tokens)预测细粒度语言化动作(如“向前移动手臂”);
- πₗ:结合场景视觉上下文,将该语言化动作解码为具体的机器人动作指令。
图右侧:
用户可直接对机器人动作指令请求进行干预,为机器人行为提供语言化动作修正,例如此处将“向前移动手臂” 改为 “向左移动手臂”。为了从修正中学习,只需用新标注的语言化动作修正更新语言动作指令请求。随后,将更新后的模型重新部署到动作层级结构中。
RT-H通过端到端的方式学习预测语言化动作指令和机器人动作指令,不仅能够在语言化动作空间中进行修正,还能从这些修正中高效学习。
当所学策略难以顺利执行任务时,语言化动作能再次发挥作用:它们为在线人类修正提供了一个直观的交互界面,且这种修正与特定场景相关联。通过语言化动作训练的策略,能够自然地遵循人类的低级修正指令,并借助修正数据成功完成任务。此外,该策略甚至可以在语言修正数据上进行训练,从而进一步提升自身性能。
a. RT-H模型训练
RT-H采用基于互联网多模态数据联合预训练的单一视觉语言模型(VLM),学习高层任务策略πₕ与底层机器人控制策略πₗ。
RT-H采用与RT-2相同的PaLI-X 55B架构实例化视觉语言模型(VLM)。该模型通过ViT编码器将图像处理为图像令牌(Image Tokens),再由编码器-解码器Transformer联合处理这些图像令牌与自然语言指令令牌,输出离散动作令牌(Action Tokens)。
这些动作令牌的生成方式沿袭RT-2的离散化机制:将每个动作维度离散化为256个区间(bins),并将区间编码为整数值。每个动作包含末端执行器的位置/轴角旋转变化量、夹爪开合动作指令以及任务终止标志。
随后,RT-H 使用与 RT-2 相同的 PaLI-X 训练混合数据进行联合训练,并从预训练检查点开始。在该联合训练过程中,视觉 Transformer(ViT)编码器被冻结。RT-H 以相同的采样率,用语言化动作指令请求和机器人动作指令请求替代了 RT-2 中的机器人动作指令请求。使用单一模型简化了训练过程,并使语言化动作指令请求和机器人动作指令请求都能从 PaLI-X 训练混合数据中蕴含的广泛先验知识中获益。
b. 语言化动作的提取
为了低成本地提取每个片段中的每个时间步的可靠语言化动作,DeepMind开发了一种依赖机器人本体感知信息的自动标注方案。
首先,将机器人末端执行器位姿变化的每个维度与空间维度相关联(例如,位置变化的z轴对应上下方向)。针对所有 9 个动作维度(3 个位置增量维度、3 个姿态增量维度、2 个基座移动维度、1 个夹爪维度)执行此操作后,就能确定机器人当前的主要空间运动列表,例如 “手臂向上并向右移动”“闭合夹爪”“手臂逆时针旋转” 或 “基座向左转动”。之后,可以过滤掉低于选定 “小动作” 阈值的维度,再按照动作幅度的顺序组合得到的动作。
例如,如果机器人主要是向前移动手臂,同时开始闭合夹爪,研究人员会提取出“向前移动手臂并闭合夹爪” 这一语言化动作。通过这种方式,语言的组合性使得从一组简单的已知动作中能够提取出超过 2500 种语言化动作。
此外,由于这些语言化动作直接源于动作本身,因此在RT-H 中运行动作指令请求时,它们对动作本身具有很强的预测能力。
然而,语言化动作在抽象层级的选择上存在基本权衡的问题:语言化动作的颗粒度越细,语言化动作指令请求的预测难度越高,但对机器人动作指令请求的指导性越强;反之亦然。
2)RT-H:推理与修正
在测试阶段,RT-H首先运行语言化动作指令请求(πₕ)以推导语言化动作序列,随后将该序列输入机器人动作指令请求(πₗ)生成具体的执行动作参数。
然而,由于两个指令请求需在每一步时序中串行执行,该过程使推理耗时翻倍。虽对小规模模型影响甚微,但对于RT-H中使用的55B参数的大型模型而言,必将引发不可避免的请求处理延迟问题。
为应对这一挑战,谷歌DeepMind提出两种语言化动作推理模式:
a. 异步查询:仅训练RT-H中的语言化动作指令请求(πₕ)预测未来一步动作。测试时,利用上一时间步推导的语言化动作执行当前机器人动作指令请求,同时并行预测下一时间步的语言化动作。此方案通过批处理查询实现与RT-2近乎同等的请求延迟。
b. 固定频率:每H步执行一次语言化动作指令请求,分摊延迟压力。
在实验中,DeepMind选择异步查询方案,因语言化动作常需在精确时间步变更,无法适配固定频率带来的约束。
2025年:谷歌具身智能基础模型关键布局1. 2025年3月:谷歌发布具身智能大模型Gemini Robotics
2025年3月12日,谷歌Deep Mind发布了基于多模态通用大模型Gemini2.0构建的两类大模型:Gemini Robotics(VLA)和Gemini Robotics-ER(VLM)。
1) Gemini Robotics-ER
Gemini Robotics - ER(VLM模型),其中ER 代表 “embodied reasoning”(具身推理),将Gemini的多模态推理能力扩展至物理世界,具备增强的空间和时间理解能力,包括物体检测、指向、轨迹预测和抓取预测等2D空间概念理解能力,以及多视角3D场景理解和3D边界框检测等3D空间推理能力。
多视角3D场景理解: 通过关联不同视角的2D点来理解3D场景
a. 支持零样本和少样本机器人控制
在实验中,研究人员使用Gemini 2.0 Flash和Gemini Robotics-ER两类模型,分别采用两种不同的机器人控制方法进行实验。
- 零样本(zero-shot)机器人控制——通过代码生成控制机器人。
- 少样本(few-shot)控制——通过上下文学习(in-context learning, ICL),基于少量示例适应新行为。
两类模型在模拟环境中执行一组操作任务的结果对比
备注:这些任务涵盖了不同难度和物体类型,从简单的抓取任务(如抬起香蕉)到长时序、多步骤、多任务的操作(如将玩具放入盒子并关闭盒子)。
试验结果表明,Gemini Robotics-ER 在两种控制方式下的任务完成率均表现良好。Gemini Robotics-ER能够利用上下文学习(in-context learning),仅凭少量示例就能提高更复杂的灵巧双臂任务(如折叠衣物)的执行能力,并能够直接输出末端执行器的轨迹以完成任务。
- 在零样本机器人控制方面,Gemini Robotics-ER任务完成率相比Gemini 2.0 提高了近2倍。
- 在少样本机器人控制方面,Gemini 2.0 Flash 在模拟环境中平均成功率达到51%。然而,Gemini Robotics-ER 在模拟环境中的平均成功率达到 65%。
另外,实验还表明,模型的具身推理能力与下游机器人控制的性能之间存在强相关性。Gemini Robotics-ER 可以直接用于机器人控制,包括:作为感知模块(如物体检测),规划模块(如轨迹生成)以及通过生成和执行代码来协调机器人运动。
不过,Gemini Robotics-ER作为VLM模型,也存在局限性,尤其是在更复杂的灵巧操作任务上。这主要是因为需要额外的中间步骤来将模型的具身推理能力与机器人执行动作关联起来。
2)Gemini Robotics
Gemini Robotics是一种端到端的VLA(视觉-语言-行动)模型,将强大的具身推理先验与现实世界机器人的灵巧低级控制相结合,能够在不同环境下解决灵巧任务,并支持不同的机器人形态。
Gemini Robotics是Gemini Robotics-ER的一个衍生版本,采用了双组件架构:
- Gemini Robotics 主干网络:托管在云端,负责视觉-语言推理。
- Gemini Robotics 解码器:运行在机器人控制器上,负责动作执行。
Gemini Robotics 主干网络由Gemini Robotics-ER的一个蒸馏版本(distilled version)组成,其查询-响应延迟已优化至小于160ms(相比原始模型减少了数秒)。为了补偿主干网络的延迟,Gemini Robotics解码器在本地执行低级控制。
Gemini Robotics模型架构概览
3)Gemini Robotics 的优势
Gemini Robotics模型在精细的柔性布料操作、铰接物体精准操控等多样化任务中展现突出能力。研究人员把该模型能力突出的原因归结于:
- 强大的视觉语言模型,具备增强的具身推理能力;
- 针对机器人任务,采用大规模机器人动作数据与多样化的非机器人数据的特定训练方案;
- 专为低延迟机器人控制设计的独特架构。
Gemini Robotics模型的关键优势在于:成功继承Gemini Robotics-ER的具身推理特性,能高效遵循开放词汇指令,并展现强大的零样本泛化能力。通过微调实现专项适应,该模型在新任务/新实体形态中达成较高操作精度,并在挑战性场景中保持泛化能力。
2. 2025年6月:谷歌发布设备端具身智能模型Gemini Robotics On-Device
2025年6月,谷歌DeepMind正式发布机器人模型Gemini Robotics On-Device。它是视觉-语言-动作(VLA)模型 Gemini Robotics 的轻量化版本。该模型重点解决在设备端部署的问题。
据悉,Gemini Robotics On-Device是首个支持本地微调的具身智能VLA模型。模型经过计算资源压缩,可在 Franka FR3 机械臂、Apollo 人形机器人等边缘设备上实现低延迟推理(<100ms),并支持全链路离线运行。
在任务泛化能力方面,在Visual Gen(视觉泛化)、Semantic Gen(语义泛化)、Action Gen(动作泛化) 三项核心测试中,该模型得分均接近旗舰版模型Gemini Robotics,且超越此前最佳设备端模型,尤其在处理未见过的物体(如异形拉链袋)和复杂多步骤指令(如 “拉开袋子→取出物品→折叠衣物”)时表现突出。
模型的任务泛化能力比较
同时,谷歌还推出Gemini Robotics SDK,提供MuJoCo 物理模拟器集成、示范数据标注工具及模型微调接口,帮助开发者评估Gemini Robotics 在设备上的性能。开发者可通过 50-100 次真实操作演示完成模型适配。这一数据量显著低于传统强化学习方法(通常需数千次迭代),体现了该模型的高效迁移学习能力。
Gemini Robotics On-Device的推出,是对机器人开发范式的革新。
- Gemini Robotics On-Device 实现了端到端本地化运行,解决网络中断场景的可靠性问题,对工业巡检、应急救援等关键领域具有战略意义。
- 该模型通过高效的微调能力,显著降低跨平台适配成本,可扩展至Apollo人形机器人与Franka FR3机械臂等不同形态。
具身智能的核心是让AI 从 “数字世界” 走向 “物理世界”,而物理推理能力是其关键瓶颈 —— 即模型能否让机器人像人类一样理解物体的物理属性(重量、硬度、弹性)、空间关系(距离、遮挡、方位)、因果逻辑(推、拉、碰撞的后果)等。
“物理推理能力” 的核心主体是具身智能大模型,机器人是这一能力的 “物理执行者”。谷歌在具身智能基础模型领域布局的本质是通过大模型突破物理推理的技术壁垒,再借助跨平台动作泛化框架与端云协同部署,实现机器人在现实应用场景中的可靠落地。
当前,谷歌在正以「通用智能模型赋能者 + 跨场景生态协同者」的定位重塑行业技术范式。其通过 RT 系列与 Gemini Robotics 大模型构建核心智能引擎,结合 Open X-Embodiment 开源数据集与 Gemini Robotics SDK 开发工具,形成从模型研发到应用落地的全链条支撑体系,通过技术迭代与生态联动构建具身智能护城河。
未来,随着具身智能基础模型物理推理能力的持续提升,谷歌有望成为具身智能时代“物理世界语言” 的标准制定者。
参考资料:
1.论文:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
https://arxiv.org/pdf/2204.01691
2.论文:A Generalist Agent
https://arxiv.org/pdf/2205.06175
3.论文:RoboCat: a self-improving generalist agent for robotic manipulation
https://arxiv.org/pdf/2306.11706
4.论文:RT-1:Robotics Transformer for Real-World Control at Scale
https://robotics-transformer.github.io/assets/rt1.pdf
5.论文:PaLM-E: An Embodied Multimodal Language Model
https://arxiv.org/pdf/2303.03378
6.论文:RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
https://arxiv.org/pdf/2307.15818
7.论文:Open X-Embodiment: Robotic Learning Datasets and RT-X Models
https://arxiv.org/pdf/2310.08864v8
8.论文:RT-H: Action Hierarchies Using Language
https://arxiv.org/pdf/2403.01823
9.论文:Gemini Robotics: Bringing AI into the Physical World
https://arxiv.org/pdf/2503.20020