可实现三重空间感知:Ai2 开源具身『机器人』️ AI 模型 MolmoAct(可实现三重空间什么意思)

8 月 16 日消息,研究机构 Ai2 现已在 GitHub 开源了旗下 MolmoAct 『机器人』️“行动推理模型”(Action Reasoning Model,ARM)模型,该模型主要运用于具身『机器人』️场景,号称可以解决『机器人』️在三维空间中的动作规划与理解问题

据介绍,与传统仅依赖文字描述推导动作的视觉语言行动模型(VLA)不同,MolmoAct 旨在克服语言难以完整表达三维环境深度和距离关系的不足。因此 MolmoAct 在第一阶段会首先生成由 VQVAE 预训练得到的空间感知 Token,相应 Token 同时包含几何结构与位置信息,可用于评估物体间的距离,并为后续规划提供基础。

而在第二阶段,模型会在图像空间中生成一系列路径点,作为任务的中间目标,直观展示动作展开的顺序。第三阶段,路径点会被转化为『机器人』️末端执行器或机械爪的低层马达指令,并根据『机器人』️运动学配置进行动作解码。

研究团队指出,在名为 SimplerEnv 的模拟测试环境中,MolmoAct-7B 在训练集未见过的任务中达到了 72.1% 的成功率,优于 Physical Intelligence、谷歌、微软和『英伟达』等实验室的对照模型。在 LIBERO 模拟平台的多任务与终身学习测试中,经过高效参数微调,平均成功率提升至 86.6%。同时,相比业界 AI 『机器人』️大模型,MolmoAct 的训练成本更低:预训练仅使用了 2630 万样本和 256 颗 H100 GPU,大约 1 天即可完成;微调则只需 64 颗 H100,约 2 小时即可完成。

此外,为降低『机器人』️操作风险并提升可解释性,MolmoAct 在执行动作前会将内部规划的运动轨迹叠加到输入图像上,用户可以直接查看并修正动作方案。同时,用户还可以通过平板等设备使用手绘方式标注目标姿态或路径,模型会即时整合这些标注进行一系列调整。

目前,Ai2 已在 GitHub 同步开源了 MolmoAct-7B 的完整资源(https://github.com/allenai/MolmoAct),官方强调,这些资源与工具可以帮助其他研究团队在不同『机器人』️平台和任务中充分验证与优化。

特别声明:[可实现三重空间感知:Ai2 开源具身『机器人』️ AI 模型 MolmoAct(可实现三重空间什么意思)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

德龙咖啡机打奶泡密封圈漏气怎么办?2025年选购全攻略(德龙咖啡机奶泡打出来像水)

德龙咖啡机打奶泡时密封圈漏气是个常见问题。本文详解密封圈损坏的原因、修复流程,并分享选购建议,助您轻松解决这一烦恼。特别针对2025款ECAM22.110SB、21.117等机型进行分析,涵盖使用技巧与配件替换方案。

德龙咖啡机打奶泡密封圈漏气怎么办?2025年选购全攻略(德龙咖啡机奶泡打出来像水)

豫税e办|开具发票不知道项目对应的税收编码,怎么办?(豫税通app)

<1animatetransform attributename="transform"type="translate" values=&quot

豫税e办|开具发票不知道项目对应的税收编码,怎么办?(豫税通app)

女生从唯唯诺诺变落落大方的16个微习惯(唯唯诺诺是因为自卑吗)

有自己的工作和收入,不依赖伴侣或家人的供养;有自己的精神世界,不把别人的认可当作自我价值的唯一标准。 做决定时不犹豫、不纠结,一旦做出选择,就会坦然接受选择带来的所有结果,无论是好是坏,都不会抱怨别人、推卸责…

女生从唯唯诺诺变落落大方的16个微习惯(唯唯诺诺是因为自卑吗)

『罗晋』父亲离世,可他本人却被传婚变,网友:怪不得没出来回应呢(『罗晋』父亲离世,『唐嫣』去了吗)

有网友甚至梳理了两人婚后的时间线,声称他们已分居长达一年半之久。谁能想到,这份孝心竟被扭曲成婚变分居的剧本,这对他而言,无异于在伤口上撒盐。 作为儿子与儿媳,『罗晋』和『唐嫣』在父亲生命的最后时光里,全心全意地守护在…

『罗晋』父亲离世,可他本人却被传婚变,网友:怪不得没出来回应呢(『罗晋』父亲离世,『唐嫣』去了吗)

何晴老家房子被曝已出租,田园小院和她太配,邻居称许何曾回来过(何晴怎么样了)

在何晴的葬礼上,最让人动容的莫过于她的儿子许何,他的一举一动都让人心痛。 他还透露,何晴去世当天早晨,已经昏迷多日的母亲在最后时刻用尽全身的力气,睁开了眼睛,轻轻握住了他的手,这一瞬间成为了母子之间最后的告…

何晴老家房子被曝已出租,田园小院和她太配,邻居称许何曾回来过(何晴怎么样了)