亚马逊“盲眼”『机器人』️ 30 秒跑酷:华人学者领衔,FAR 首个人形『机器人』️研究成果 OmniRetarget 揭晓

亚马逊“盲眼”『机器人』️ 30 秒跑酷:华人学者领衔,FAR 首个人形『机器人』️研究成果 OmniRetarget 揭晓

你见过这样的“盲眼”『机器人』️ demo 吗?它在完全看不见的情况下 —— 没有摄像头、雷达或任何感知单元 —— 主动搬起 9 斤重的椅子,爬上 1 米高的桌子,然后翻跟头跳下。

不光耍酷,干起活来,搬箱子也不在话下。

还能一个猛子跳上桌子。

手脚并用爬坡也照样 OK。

这些丝滑小连招来自亚马逊『机器人』️团队 FAR(Frontier AI for Robotics)发布的首个人形『机器人』️(足式)研究成果 ——OmniRetarget

OmniRetarget 使强化学习策略能够在复杂环境中学习长时程的“移-操一体”(loco-manipulation)技能,并实现从仿真到人形『机器人』️的零样本迁移。

网友表示:又能跑酷、还能干活,这不比特斯拉的擎天柱强 10 倍?

接下来,让我们一起看看他们是怎么做到的吧!

基于交互网格的动作重定向方法

总的来说,OmniRetarget 是一个开源的数据生成引擎,它将人类演示转化为多样化、高质量的运动学参考,用于人形『机器人』️的全身控制。

与通常忽略人-物体 / 环境之间丰富的交互关系的动作重定向方法不同,OmniRetarget 通过一个交互网格(interaction mesh)来建模『机器人』️、物体和地形之间的空间和接触关系,从而保留了必要的交互并生成运动学可行的变体。

此外,保留任务相关的交互使得数据能够进行高效的数据增强,进而从单个演示推广到不同的『机器人』️本体、地形和物体配置,以减少不同变体的数据收集成本。

在与其他动作重定向方法的对比中,OmniRetarget 在所有关键方面:硬约束、物体交互、地形交互、数据增强表现出了全面的方法优势。

接下来就让我们具体来看。

首先,OmniRetarget 通过基于交互网格(interaction-mesh)的约束优化,将人类示范动作映射到『机器人』️上。

在研究中,交互网格被定义为一个体积结构,用于保持身体部位、物体与环境之间的空间关系。

交互网格的顶点由关键的『机器人』️或人类关节以及从物体和环境中采样的点组成。

通过收缩或拉伸该网格,研究可以在保持相对空间结构和接触关系的前提下,将人类动作映射到『机器人』️上。

在交互网格的构建过程中,研究人员对用户定义的关键关节位置以及随机采样的物体和环境点应用德劳内四面体化(Delaunay tetrahedralization)。

(注:为了更精确地保持接触关系,物体和环境表面的采样密度高于身体关节的采样密度。)

研究通过最小化源动作(人类示范关键点及对象 / 环境采样点)与目标动作(『机器人』️对应关键点及相同对象 / 环境点)之间的拉普拉斯形变能(Laplacian deformation energy),让『机器人』️动作尽量保持与人类示范一致的空间和接触关系。

拉普拉斯坐标衡量每个关键点与其邻居点之间的相对关系,从而在重定向动作时保留局部空间结构和接触关系。

在每个时间帧,算法通过求解约束非凸优化问题来获得『机器人』️配置,包括浮动底座的姿态和平移以及所有关节角度,同时满足碰撞避免、关节和速度限制,以及防止支撑脚滑动等硬约束。

优化则使用顺序二次规划风格的迭代方法,每帧以上一帧的最优解作为初值,以保证时间上的连续性和平滑性。

由此,基于交互网格的方法可适配不同『机器人』️形态和多种交互类型,只需调整交互网格中的关键点对应关系和碰撞模型。

其次,每一次空间和形状的增强都被视为一个新的优化问题,从而生成多样化的轨迹。

具体来说,OmniRetarget 通过参数化地改变物体配置、形状或地形特征,将单个人类演示转化为丰富多样的数据集。

对于每个新场景,研究都会使用固定的源动作集和增强后的目标动作集重新求解优化问题:通过最小化交互网格的形变,可以得到一组新的、运动学上有效的『机器人』️动作,同时保留原始交互中的基本空间结构和接触关系。

在『机器人』️-物体的交互中,研究通过增强物体的空间位置和形状来生成多样化的交互(位姿和平移进行增强,并在局部坐标系中构建交互网格)。

为避免整个『机器人』️随物体发生简单刚体变换,研究还在优化中加入约束,将下半身固定到标称轨迹,同时允许上半身探索新的协调方式,从而生成真正多样化的交互动作。

在『机器人』️-地形的交互中,研究通过改变平台的高度和深度,并引入额外约束来生成多样化的地形场景。

最后,在建立了高质量运动学参考的方法之后,研究使用强化学习来弥补动力学差异,即训练一个低层策略,将这些轨迹转化为物理可实现的动作,实现从仿真到硬件的零次迁移。

得益于干净且保留交互的参考数据,OmniRetarget 仅需最小化奖励即可高保真跟踪,无需繁琐调参。

训练时,『机器人』️无法直接感知明确的场景和物体信息,仅依赖本体感知和参考轨迹作为复杂任务的先验知识:

  • 参考动作: 参考关节位置 / 速度,参考骨盆位置 / 方向误差

  • 本体感受: 骨盆线速度 / 角速度,关节位置 / 速度

  • 先前动作: 上一时间步的策略动作

在奖励方面,研究使用五类奖励(身体跟踪、物体跟踪、动作速率、软关节限制、自碰撞)来保证动作质量,同时结合物体参数和『机器人』️状态的领域随机化提升泛化能力。

此外,相似动作会分组训练以加快策略收敛,不同的任务(如搬箱和平台攀爬)则采用不同策略设置。

实验结论

在实验方面,研究团队首先展示了 OmniRetarget 能实现的复杂行为的广度,包括自然的物体操作和地形交互。

然后提供了针对最先进基线的定量基准测试,评估了在运动学质量指标和下游策略性能方面的表现。

正如我们开头所展示的,搭载 OmniRetarget 的宇树 G1 实现了一个类似波士顿动力的跑酷动作。

这个持续 30 秒、复杂的多阶段任务凸显了 OmniRetarget 生成精确且通用参考动作的能力。

在可扩展性上,OmniRetarget 在完整增强数据集上训练和评估成功率为 79.1%,与仅使用标称动作的 82.2% 相近,说明运动学增强在不显著降低性能的情况下实质性扩大了动作覆盖范围。

最后,研究团队将 OmniRetarget 与 PHC、GMR 和 VideoMimic 等开源重定向基线进行了比较。

(注:实验使用 OMOMO、内部 MoCap 和 LAFAN1 数据集进行评估)

实验结果显示,在运动学质量上,OmniRetarget 在穿透、脚部打滑和接触保留指标上整体优于所有基线,即使偶尔轻微穿透也能被 RL 修复。

下游强化学习策略评估表明,高质量重定向动作直接提升策略成功率,OmniRetarget 在所有任务中均领先基线 10% 以上,且表现更稳定。

One more thing

值得一提的是,OmniRetarget 背后的 Amazon FAR (Frontier AI & Robotics) 成立仅七个多月,由华人学者领衔。

FAR 的前身是著名『机器人』️技术公司 Covariant,创始人均为出自 UCBerkeley 的 Pieter AbbeelPeter ChenRocky DuanTianhao Zhang

(注:Pieter Abbeel 是 Rocky Duan 和 Tianhao Zhang 的导师)

其中,Pieter Abbeel 可谓是『机器人』️领域的大佬,他是伯克利『机器人』️学习实验室(Berkeley Robot Learning Lab)主任以及伯克利人工智能研究实验室(Berkeley AI Research, BAIR)的联合主任。

早在去年 8 月,亚马逊就与 Covariant 达成协议,获得该公司技术的“非排他性”许可,聘用 Covariant 四分之一的员工,同时 Covariant 的创始人 Pieter Abbeel、Peter Chen、和 Rocky Duan 也将加入亚马逊。

目前,由 Rocky Duan 担任 Amazon FAR 研究负责人。

而 OmniRetarget 这次令人惊艳的亮相,正是 Amazon FAR 在人形『机器人』️(足式)领域的首次尝试。

不得不说,亚马逊(Amazon)的『机器人』️,真的有点惊艳(Amazing)。

已经开始期待他们之后的工作了!

参考链接:

  • [1]https://x.com/Thom_Wolf/status/1974774416815857779

  • [2]https://www.aboutamazon.com/news/company-news/amazon-covariant-ai-robots

  • [3]https://analyticsindiamag.com/ai-news-updates/amazon-forms-frontier-ai-robotics-team-to-revolutionise-automation/

  • [4]https://OmniRetarget.github.io/

特别声明:[亚马逊“盲眼”『机器人』️ 30 秒跑酷:华人学者领衔,FAR 首个人形『机器人』️研究成果 OmniRetarget 揭晓] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

台风麦德姆为什么要用查莫罗语命名 背后的文化与规则(麦德姆台风是哪年的)

2025年第21号台风“麦德姆”正逼近华南沿海,强度已达台风级,预计将于10月5日在海南文昌至广东西部一带登陆。受其影响,海南、广东多地已启动应急响应,海口、湛江港口或将停航,学校停课、景区关闭,“六停”措施陆续实施

台风麦德姆为什么要用查莫罗语命名 背后的文化与规则(麦德姆台风是哪年的)

杨子:以前不知道黄圣依的好,如今分开三个月,才发现她是块宝

节目结束没多久,1月10日,他们俩都发了告别文,杨子写得长,感慨婚姻的酸甜苦辣,黄圣依的文短,没提杨子一句,就说感谢节目,让她看清自己。俩人虽离婚,但孩子是纽带,2025年春天,他们一家四口还去郊游,杨子扛东…

杨子:以前不知道黄圣依的好,如今分开三个月,才发现她是块宝

『许晴』与『彭于晏』的“艺术之魅”:靠身体的噱头,还是为艺术的献身?(『许晴』看『彭于晏』眼神)

一提到他们的合作,不少人就爱往“艺术之魅”上靠,但说到底,这到底是靠身体的噱头博眼球呢,还是真为艺术献身了呢?有些作品里,他们确实有些镜头,令人看了脸红心跳,但这就能说是靠身体博眼球吗? 就像舞蹈、戏剧,…

『许晴』与『彭于晏』的“艺术之魅”:靠身体的噱头,还是为艺术的献身?(『许晴』看『彭于晏』眼神)

有被《浪浪人生》恶心到,登味儿太重了。(浪人百科)

用大篇幅的时间来讲述当年当大哥时候的风光无限,一把年纪了还在搞热血,和年轻人群殴,带着一家人去打群架,这就是热血吗? 最后再吐槽一句,『范丞丞』那个角色是高中生吧,整天不学习不是去打架就是早恋,后面他爸还让他去…

有被《<strong>浪浪人生</strong>》恶心到,登味儿太重了。(浪人百科)

特斯拉或推出更低价Model Y:价格亲民引热议(特斯拉或推出更好的车)

最近,汽车圈流传着一个消息:特斯拉可能要推出一款更亲民的Model Y。据海外网站泄露的信息,这款新车被称为“Model Y标准版”,在美国的起售价为3.99万美元💵,约合人民币28万5千元。这一价格引起了广泛关注

特斯拉或推出更低价Model Y:价格亲民引热议(特斯拉或推出更好的车)