不是标题党,波士顿动力是真的很强,他们刚刚发布了一个视频,直接硬控我了,这是我目前看到过最震撼的人形机器人️,看视频
波士顿动力已经证明,可以训练出多任务、语言驱动的策略模型,来控制自家的 Atlas人形机器人️完成那些既需要移动又需要灵巧全身操作的长期任务。这种数据驱动的方法是通用的,几乎可以应用于任何能通过遥控操作演示的任务
波士顿动力野心还是很大的,从一开始就想着构建通用人形机器人️,波士顿动力认为未来的通用人形机器人️,需要掌握一长串复杂的技能。它们不仅要能灵巧地操作形态各异的物体(比如硬的/软的、重的/轻的、刚性的/铰接的、大的/小的),还需要协调整个身体来调整姿态、改造环境、躲避障碍,并在应对突发状况时保持平衡。要让机器人️掌握这些能力,并最终实现人形机器人️的规模化应用,构建通用人工智能机器人️是那条最可行的路
这次波士顿动力为自家的Atlas人形机器人️训练了一个全新的大型行为模型Large Behavior Models (LBMs)
LBMs是一种端到端的、由语言指令驱动的策略模型,它能让 Atlas 完成需要长远规划的复杂操作任务
策略模型能够充分利用人形机器人️的独特优势,包括:迈步行走、精准落脚、弯腰下蹲、转移重心、避免自我碰撞等等。研究发现,所有这些能力对于解决真实世界里的移动操作任务都至关重要
构建策略模型的过程,主要包含四个基本步骤:
1. 通过遥控操作在真实机器人️和仿真环境中,收集具身行为数据
2. 处理、标注和筛选这些数据,使其能轻松地融入机器学习流程
3. 使用所有任务收集到的全部数据,来训练一个统一的神经网络策略模型
4. 使用一套专门的测试任务来评估这个策略模型的表现。
第四步的评估结果,将指导后续的决策——比如还需要收集哪些额外数据,或者应该调整哪种网络架构或推理策略,才能进一步提升性能
这个策略模型,能将图像、本体感觉(proprioception)和语言提示等输入信息,转化为控制整个 Atlas 机器人️以 30Hz 频率活动的动作指令。研究人员采用了一种结合了流匹配损失(flow matching loss)的扩散型 Transformer(diffusion transformer)架构来训练模型
在整个实践过程中,遵循了三大核心原则:
最大化任务覆盖范围:理论上,人形机器人️能处理的任务范围极其广泛。但要收集超越原地操作范畴的高质量、高响应度的动态数据,是极具挑战的。为此,研究人员打造了一套顶尖的遥操作系统,它巧妙地结合了 Atlas 自身强大的模型预测控制器(Model Predictive Controller, MPC)和一套定制的 VR 交互界面,能够完成从指尖级别的精细操作到全身参与的移动和抓取等各种任务
训练通用策略模型:业界已有越来越多的证据表明,在一个庞大且多样化的任务数据集上训练出的通用策略模型,其泛化能力和恢复能力远超那些只为解决一两个特定任务而训练的专家模型。采用多任务、语言指令驱动的策略模型,让它能胜任多种任务,并且适配多种机器人️形态。整合来自完整 Atlas 机器人️、仅有上半身的 Atlas 操作测试台以及丰田技术研究院的拉面机器人️项目的数据。构建通用策略模型不仅简化了部署流程,还能让不同任务和机器人️形态之间共享模型的改进成果,离解锁涌现能力更近一步
构建支持快速迭代和严谨科学研究的基础设施:能够快速验证设计方案至关重要,而能够满怀信心地衡量一个策略模型比另一个是好是坏,则是取得稳步进展的关键。通过将仿真、硬件测试和生产级别的机器学习基础设施相结合,研究人员得以高效地探索数据和策略模型的设计空间,并持续提升机器人️在真实世界中的表现
长远规划、端到端的操作能力
维修站这个任务,完美展示了机器人️如何协调运动与操作。它需要机器人️完成踏步、开阔步站姿、下蹲等协调的移动,以及抓取零件、二次抓握、操控、放置和滑动等一系列灵巧的操作。整个任务包含三个子任务:
1. 从推车上抓取 Spot 机器人️的腿部零件,将它们折叠好,然后放到架子上
2. 从推车上抓取面板,然后拉开底层架子上的一个箱子,并将面板放进去
3. 当推车被清空后,转身面对身后的蓝色箱子,将里面所有剩余的 Spot 零件,一把一把地抓取出来,并放入旁边的蓝色翻斗车中
视频一镜到底,端到端,展示了由一个单一的、由语言驱动的策略模型来执行这完整的一系列任务。操作员只需向模型发送高级语言指令,就能触发每一个子任务
这正是策略模型的一大亮点:能够智能应对意外情况,比如零件掉到地上,或是箱盖突然合上了。最初版本的模型并不具备这些能力。但后来,研究人员向系统演示了机器人️如何从这些干扰中恢复,然后用这些新数据重新训练网络。很快就部署了全新的、能够灵活反应的策略模型,整个过程无需任何算法或工程上的修改。这背后是强大的学习能力:策略模型能仅凭传感器的输入,有效地评估世界当前的状态,并完全基于训练中学到的经验做出相应的反应。如此一来,为 Atlas 编写新的操作行为,不再需要高深的学位和多年的经验积累
更多令人惊叹的操作能力
这次波士顿动力研究了数十个任务,它们既是基准测试,也一次次地拓展了我们对机器人️操作能力的认知边界。在 Atlas MTS 平台上,用同一个语言驱动的策略模型,完成了从简单的抓取-放置到更复杂的任务,比如打绳结、翻转吧台凳、展开并铺平桌布,以及搬运一个重达 22 磅(约 10 公斤)的汽车轮胎。像绳索、布料和轮胎这类物体,由于其易变形的几何特性和复杂的操作顺序,用传统的机器人️编程技术来处理会极其困难。但对于大型行为模型(LBMs)来说,无论是堆叠刚性积木还是折叠 T 恤,训练过程都是一样的:只要你能演示一遍,机器人️就能学会
学习之后:自适应调整性能
策略模型还有一个显著的特点是,可以在模型推理时,随时加快执行速度,而无需重新训练。具体来说,由于模型会预测一连串未来动作以及这些动作应该发生的时间点,就可以通过调整这个时间轴来控制执行速度。在下面的视频中,对比了模型以 1 倍速(即数据采集时的原始速度)、2 倍速和 3 倍速执行任务的效果。总的来说,研究发现,无论是在 MTS 平台上还是在完整的 Atlas 机器人️上,将策略模型的执行速度提升 1.5 到 2 倍,都不会显著影响其性能。虽然任务本身的物理特性有时会限制这种推理时的加速,但这确实表明,在某些情况下,甚至可以超越人类遥操作的速度极限
方法 平台
Atlas 机器人️拥有 50 个自由度(Degrees of Freedom, DoF),这为它提供了广阔的运动范围和高度的灵活性;而 Atlas MTS 则拥有 29 个自由度,专注于纯粹的操作任务研究。每个夹爪都有 7 个自由度,能够运用多种抓握策略(如强力抓握、捏式抓握等)。依靠安装在头部的一对 HDR 立体摄像头,为遥操作提供环境感知,同时也为策略模型提供视觉输入
遥控操作:为模型训练收集高质量数据
要让机器人️以流畅、动态且灵巧的方式运动,一套顶级的遥操作系统至关重要,为此研究投入了大量精力。该系统构建于波士顿动力成熟的 MPC 系统之上,该系统曾被用于从跑酷、跳舞到各种实用与非实用的操作任务中。这套控制系统能够在精确操作的同时保持平衡、避免自我碰撞,不断挑战 Atlas 硬件的极限
遥操作装置利用 VR 头显,让操作员完全沉浸在机器人️的工作空间中,并能获取与策略模型完全相同的信息。通过 Atlas 头部的摄像头,立体视觉画面被重新投影到用户的视角,增强了空间感知能力。定制的 VR 软件为遥操作员提供了一个信息丰富的界面,通过增强现实、控制器触觉反馈和抬头显示元素,实时展示机器人️状态、控制目标、传感器读数和系统状态。这使得操作员能够充分利用机器人️的硬件和能力,让自己的身体和感官与机器人️同步
最初版本的 VR 遥操作应用,操作员只需站着不动,通过头显、基站、控制器和一个胸部追踪器来控制 Atlas。这个系统采用了一对一的映射关系(例如,你的手移动 1 厘米,机器人️的手也移动 1 厘米),带来了非常直观的控制体验,尤其适合双手协作任务。即使是这个版本,操作员也已经能完成各种任务,比如蹲下捡起地上的物体,或者站直去够高处架子上的东西。然而,这个系统的一个局限是无法让操作员动态地重新定位机器人️的脚或让它迈步,这极大地限制了能执行的任务类型。
为了支持移动操作,研究人员为双脚增加了两个额外的追踪器,实现了脚部的一对一追踪,并扩展了遥操作控制逻辑,使得 Atlas 的站姿模式、支撑区域和行走意图都能与操作员保持一致。除了支持移动,这套装置还让我们能充分利用 Atlas 的整个工作空间。例如,当打开地上的蓝色手提箱并从中取物时,操作员必须能让机器人️以宽阔的站姿和弯曲的膝盖来够到箱内的物体,同时避免与箱子发生碰撞
神经网络策略模型,使用了与遥操作员完全相同的机器人️控制接口。可以轻松复用之前为无移动任务开发的模型架构,只需简单地扩展动作的表示方式即可
策略模型本体
策略模型建立在大型行为模型(Large Behavior Models)研究之上,该研究扩展了类似 Diffusion Policy 的架构。采用了一个拥有 4.5 亿参数的、基于扩散型 Transformer 的架构,并结合了流匹配(flow-matching)目标进行训练。该模型不仅接收本体感觉信息和图像,还能接受指定机器人️目标的语言提示。图像数据以 30 Hz 的频率输入,网络会利用一段历史观测数据来预测一个包含 48 个动作的动作块(action-chunk),这对应着 1.6 秒的动作序列。在实际运行时(1 倍速下),每次策略模型推理后会执行其中的 24 个动作(即 0.8 秒的动作)
Atlas 的观测空间包括来自其头部摄像头拍摄的图像和本体感觉信息。其动作空间则包括左右夹爪的关节位置、颈部偏航、躯干姿态、左右手姿态以及左右脚的姿态。
Atlas MTS 在机械和软件层面都与 Atlas 的上半身完全相同。它的观测和动作空间也与 Atlas 一致,只是省略了躯干和下半身的部分。这种跨 Atlas 和 Atlas MTS 的共享硬件与软件设计,有助于训练能够同时在两个平台上运行的多机器人️形态策略模型,能汇集来自两种机器人️的数据
这些策略模型所用的数据,由团队持续不断地收集和迭代而来。高质量的演示数据是获得成功模型的关键。研究高度依赖质量保证工具,它能帮助审查、筛选收集到的数据并提供反馈
仿真
仿真是快速迭代的关键工具。它能迅速迭代遥操作系统、编写单元测试和集成测试以确保系统稳定,并进行那些在真实硬件上会更慢、更昂贵且难以重复的信息化训练和评估。由于仿真技术栈是硬件和机器人️端软件的忠实复现,研究得以在仿真和硬件平台之间共享数据管道、可视化工具、训练代码、VR 软件和接口
除了使用仿真来评估策略模型和架构选择,研究还把仿真作为一个重要的联合训练数据来源,用于部署在硬件上的多任务、多机器人️形态的策略模型
参考:
https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/