首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

今日霍州(www.jrhz.info)©️

岑俊,阿里巴巴达摩院具身智能大模型算法研究员,博士毕业于香港科技大学。研究方向主要是:具身智能 VLA 模型,世界模型。

阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。

今日霍州(www.jrhz.info)©️

  • 论文标题:WorldVLA: Towards Autoregressive Action World Model
  • 论文地址:https://arxiv.org/pdf/2506.21539
  • 代码地址:https://github.com/alibaba-damo-academy/WorldVLA

研究简介

近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型的发展成为『机器人』️动作建模研究的重要方向。这类模型通常是在大规模预训练的多模态『大语言模型』(Multimodal Large Language Models, MLLMs)基础上,添加一个动作输出头或专门的动作模块,以实现对动作的生成。MLLMs 在感知和决策方面表现出色,使得 VLA 模型在多种『机器人』️任务中展现出良好的泛化能力。然而,这些模型存在一个显著的局限性:它们往往缺乏对动作本身的深入理解。在现有方法中,动作只是作为输出结果处理,并未被当作输入进行分析和建模。相比之下,世界模型(World Models)能够基于当前观测与动作预测未来的视觉状态,从而同时理解视觉信息和行为动态。尽管具备这一优势,世界模型却无法直接生成动作输出,这导致其在需要显式动作规划的应用场景中存在功能上的空白。

为了解决 VLA 模型与世界模型各自的局限,我们提出 WorldVLA —— 一种基于自回归机制的统一动作与图像理解与生成模型。如下图所示,WorldVLA 使用三个独立的编码器分别处理图像、文本和动作数据。不同模态的 token 被设计为共享相同的词表,从而使得在同一个语言模型架构下可以统一完成跨模态的理解与生成任务。

今日霍州(www.jrhz.info)©️

其中,世界模型部分通过输入动作来生成对应的视觉表示,从而学习环境中的物理动态规律。这种对动作的解读与物理世界的建模对于动作模型的决策至关重要。与此同时,嵌入在 WorldVLA 中的动作模型也反过来增强了对视觉信息的理解,进一步提升世界模型在图像生成方面的准确性。这种双向增强机制使整个系统在理解和生成图像与动作方面更加鲁棒和全面。

此外,已有研究表明,动作分块(action chunking)和并行解码技术对动作模型的性能有显著影响。然而,我们在实验中发现,在自回归模型中连续生成多个动作时会导致性能下降。主要原因在于,预训练的多模态语言模型主要接触的是图像和文本,而对动作的学习较少,因此在动作生成任务中泛化能力有限。而在自回归模型中,后续动作的生成依赖于前面的预测结果,一旦出现错误,便会随时间不断传播放大。为了解决这一问题,我们提出了一种动作注意力掩码策略(action attention masking strategy),在生成当前动作时选择性地屏蔽掉之前的动作信息。这种方法有效缓解了错误累积的问题,在动作分块生成任务中带来了显著的性能提升。

在 LIBERO 基准测试中,我们的 WorldVLA 相比使用相同主干网络的传统动作模型,在抓取成功率上提升了 4%。相较于传统的世界模型,WorldVLA 在视频生成质量上表现更优,FVD(Fréchet Video Distance)指标降低了 10%。这些结果充分说明,将世界模型与动作模型融合所带来的协同增益,验证了图像与动作统一理解与生成框架的优势。在动作分块生成任务中,传统自回归方式会导致抓取成功率下降 10% 到 50%。但引入我们的注意力掩码策略后,性能下降得到了明显缓解,抓取成功率提升了 4% 到 23%。

研究方法

VLA 模型可以根据图像理解生成动作;世界模型可以根据当前图像和动作生成下一帧图像;WorldVLA 将将两者融合,实现图像与动作的双向理解和生成,如下图所示。

今日霍州(www.jrhz.info)©️

WorldVLA 使用独立的编码器分别处理图像、文本和动作,并让这些模态共享同一个词汇表,从而在单一的『大语言模型』架构下实现跨模态的统一建模。这种设计不仅提升了动作生成的准确性,也增强了图像预测的质量。WorldVLA 使用 Action Model 数据和 World Model 数据来训练模型。Action Model 是根据图片输入和文本指令输入来输出动作,数据格式如下:

今日霍州(www.jrhz.info)©️

World Model 根据当前帧图片和动作来生成下一帧图片,数据格式如下:

今日霍州(www.jrhz.info)©️

在一次性输出多个 action 时,使用默认的自回归范式会使得效果变差。原因是动作模态并不在原本多模态大模型的预训练中,因此泛化能力较差,这样生成多个动作时就会有误差累积的问题。为了解决这个问题,WorldVLA 提出了一种 attention mask 策略,使得生成动作时只能看见前面的图片而不能看见前面的动作,从而解决动作累计误差问题,如下图所示。

今日霍州(www.jrhz.info)©️

实验结果

在 LIBERO benchmark 上的实验结果如下图所示,在没有预训练的情况下超越了需要预训练的全自回归模型 OpenVLA。

今日霍州(www.jrhz.info)©️

下图为 action model 的消融实验结果。对比 row2 和 row1 以及 row5 和 row4 可以看出,world model 的加入可以给 action model 带来更好的结果。Row3 可以看出,使用默认的 attention mask 会导致某些任务的成功率下降,但是从 row4 看出,我们提出的 attention mask 可以全面大幅提升任务的成功率。

今日霍州(www.jrhz.info)©️

Action Model 可视化 (Text + Image -> Action)

下图可以看出 WorldVLA 可以根据指令完成对应的动作。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

World Model 可视化 (Action + Image -> Image)

下图可以看出 WorldVLA 可以根据动作和图片来生成下一帧图片。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

特别声明:[首次!世界模型、动作模型融合,全自回归模型WorldVLA来了] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

曾志伟卸任TVB总经理,谭咏麟上台为其颁奖,高层艺人动容不舍(曾志伟卸任tvb总导演)

台下,TVB的高层和众多艺人纷纷为他送上热烈的掌声,眼神中满是不舍与感激,整个场面温馨而感人,这一刻,成了颁奖典礼中最难忘的注脚。 在那场告别的颁奖礼上,曾志伟深情地表示:到了今天,我也觉得自己江郎才尽了…

曾志伟卸任TVB总经理,谭咏麟上台为其颁奖,高层艺人动容不舍(曾志伟卸任tvb总导演)

看刘萧旭便知晓:短剧男星没了滤镜差距几何?

可惜的是,他看起来总有些缺乏精神,眼袋和法令纹非常明显,整个人看上去有些疲惫,脸部肌肉也有些松弛下垂,颜值因此大打折扣。 然而,老叔的形象着实有些难以捉摸,虽然他尝试拍一些短剧,但毕竟面容一般,年龄也不小…

看刘萧旭便知晓:短剧男星没了滤镜差距几何?

『章子怡』参加《百花迎春》!面部浮肿变化大,与『李雪健』坐在同一桌(『章子怡』出席活动视频)

有些网友开玩笑说,她的样子看上去像是嘴里正在嚼着东西,这一变化不禁让人联想到曾经的『陈妍希』,二者有几分相似之处。有网友还分享了『章子怡』在百花迎春活动中的就坐视频。『章子怡』能够与『李雪健』同桌,可见她在『娱乐圈』️,尤其是在文…

『章子怡』参加《<strong>百花迎春</strong>》!面部浮肿变化大,与『李雪健』坐在同一桌(『章子怡』出席活动视频)

小城大事》李秋萍拒爱真相:不是怕失去,是戳破了基层的集体幻觉(《小城大事》共多少集)

没人真正明白李秋萍的拒绝,就连郑德诚都被困在“为你好”的撮合当中自我感动着。他之前犯迷糊,本质上是和大多数人一样,默认了“集体比个体重要”的规则, 却忘了每个牺牲的人背后,都有想守护的人。她既不当爱情里的附属…

《<strong>小城大事</strong>》李秋萍拒爱真相:不是怕失去,是戳破了基层的集体幻觉(《<strong>小城大事</strong>》共多少集)

没想到『周雨彤』张若楠事闹这么大 网友这事就她干的出来 远离这种人(我想看『周雨彤』)

工作室后来的道歉也很快出来了,核心的意思很简单,称由于工作人员没有及时将章若楠工作室的云包场信息传达给『周雨彤』本人,导致她未能第一时间公开致谢,并强调两人之间是朋友,『周雨彤』在私下已经表示过感谢,未来会复盘…

没想到『周雨彤』张若楠事闹这么大 网友这事就她干的出来 远离这种人(我想看『周雨彤』)