万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里

万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里

点击下方卡片,关注“具身智能之心”公众号

本篇内容来源于2025年7月27日由智元机器人主办,以“全球视角下的具身智能新机遇”为主题的“智启具身论坛”。作为2025世界人工智能大会(WAIC 2025)的重要高峰论坛之一,本次论坛汇聚包括来自PI、Intrinsic、清华大学、Sanctuary AI、英伟达、亚马逊等全球具身智能领域的 “最强大脑”,聚焦机器人基础模型泛化、高性能操控等关键方向。

论坛嘉宾如下:

罗剑岚:智元机器人首席科学家/具身研究中心主任/上海创智学院副教授

Sergey Levine:Physical Intelligence(Pl) 联合创始人/UC Berkeley 副教授

Stefan Schaal:Instrinsic (Alphabet)科学与AI 事务负责人

苏航:清华大学计算机系副研究员/IEEE TPAMI 期刊编委

陈曦:亚马逊应用科学、前沿人工智能与机器人部门负责人

姚卯青:智元机器人合伙人/具身业务部总裁

前言

我们正身处一个机器人技术蓬勃发展的激动人心的时代,公众对机器人技术的关注度达到了前所未有的高度。伴随这些进展,人工智能从业者也在尝试解答人工智能领域最深刻的问题之一:为什么人工智能系统能在围棋中战胜世界冠军,却无法完成一个三岁孩子都能做到的简单任务?

科学地讲,我认为随着该领域的最新突破,我们正通过构建一种独特的计算大脑来回答这个问题——它有别于传统的生物或计算机,能够将计算能力转化为实实在在的物理能力,这无疑是极其强大的。因为一旦我们解决了这个问题,便能通过计算从根本上改变我们的物理世界,这正是科学的伟大魅力,也是人工智能科学家的黄金时代。

过去10年间具身智能经历了怎样的变化?

机器人:物理世界中的智能体现

Stefan:机器人技术是一个典型的闭环系统,它融合了感知、行动以及软件与物理世界之间的紧密连接。我为何要强调“物理”呢?我认为,人们在某种程度上容易忽视机器人必须遵循物理定律这一基本事实。他们可能觉得机器人就像一个应用程序接口(API),只需发送指令,奇迹便会发生。但事实并非如此。我们现在正尝试将人工智能真正融入到机器的“控制箱”中,让它处理所有的感官信息,并据此生成相应的动作。再次强调,物理定律不会听从那些违背其法则的软件指令。 如果不遵循物理定律,你就无法构建出高性能的机器人。

技术就绪水平与工业应用

Stefan:这始终是研究原型与真正实用产品之间的鸿沟。那么,从工业角度来看,这种差距体现在哪里呢?技术就绪水平(TRL)至少在美国是一个通用的衡量标准,用以评估特定机器人应用的进展程度。它从红色部分(概念阶段)开始,在这个阶段,你刚开始着手某项工作,有了一些初步的概念验证。接着是中间的蓝色部分,这是你开始制作原型并在实验室取得实际进展的阶段。而深蓝色部分,则代表从实际应用角度来看,机器人开始真正发挥作用的阶段。在这个阶段,机器人走出实验室,受到人们的认可,大家会说:“好吧,如果你达到了8到9级(TRL),那我们就可以信任你了。” 如果你想进入汽车行业,他们甚至不会看你那些还处于浅蓝色阶段的项目。他们需要的是8到9级的成熟度,他们对性能的要求非常严格。

那么,一个有趣的问题是:过去5年、10年、15年里,机器学习为机器人技术带来了哪些进步?由于更好的传感器、更优的算法、深度学习以及现在的基础模型,机器人技术确实取得了巨大的进步。你可能会看到那些令人炫目的曲线,表明事情在不断进步,这很棒,这正是机器学习的价值所在。看到这些进展令人欣喜,但“平均奖励”……这个轴到底意味着什么?好吧,它其实什么也没告诉你。它只是一个任意数字,是某人用任意指标编造出来的。你真正关心的是能否达到深蓝色水平,能否达到99%以上的成功率,因为这才是应用真正开始发挥价值的阶段。

而且,这里还有一点“嫉妒”心理在作祟。在标准的机器学习领域,比如你用机器学习进行疾病诊断,想要预测癌症。这很酷,如果你能达到90%的性能,即90%的准确率预测癌症或非癌症,那你就已经非常出色了,你为这个世界做出了巨大贡献。但是,如果一个人形机器人每上十次台就会摔倒一次,即成功率为90%,那你就不会喜欢它了,你会把它扔掉。这背后的信息是什么呢?

那就是,物理世界对性能的要求极其严格。 在其他机器学习领域表现良好的技术,在物理世界中可能并不被接受。那么,问题来了,如何才能达到如此高的性能水平呢?人工智能赋能的机器人技术可以应用在哪些领域呢?有很多方法可以入手。这更多是工业领域的起点,而右侧则是非结构化环境。我认为,从我们的愿景来看,我们倾向于从结构化和半结构化环境开始,因为这是我们能够真正推出对人们有用的机器人的领域。而不太结构化的环境则更难进入。而且,如果你是一家初创公司,这些环境在商业上也不太可行,因为你需要很长时间才能获得任何收入。而到了一定时候,你必须让投资者满意,才能继续获得资金支持。所以,这也是我们目前更倾向于在工业领域,在半结构化环境中开展工作的原因,而不是进入非结构化环境,尽管如果能做到这一点显然非常有价值。我认为,在行业中,人们称之为“进入市场策略”和“产品市场契合度”这些听起来有点奇怪的词汇。这只是我们告诉你如何在不破产的情况下取得成功的方法。

当下机器人技术面临的机遇与挑战

罗剑岚: Sergey和Stefan,在这个领域深耕多年。Stefan几乎将毕生精力奉献给了机器人技术,从模仿学习、强化学习、机器人运动到操作。过去三十年间,机器学习和机器人技术的每一个重要课题你都涉足过。我们许多人都是阅读他们的论文长大的,这些著作构成了深度学习出现前的基石。

Sergey于2016年在谷歌建立了第一个机器人数据采集场,那是一个由七台库卡机器人组成的系统。事实上,2017年春天我在伯克利读书时,正是在他的课上(彼得·陈当时也是你的学生),我第一次接触到“深度机器人学习”这个全新的概念,当时的课程编号是CS294-112。如今,机器人数据采集场已不再新鲜,仅今年,中国就有200多家公司正在建设类似的数据收集设施。

在我看来,在这个领域还不存在的时候,他们定义和创造了它;当它还很小的时候,你们滋养了它;终于当所有人意识到这是下一个重大发现的时候,你们继续在推进它的前沿。我的问题是,在过去十年间,到底发生了根本的改变,以至于这个领域受到了今天这样的关注度?这一次和你们职业生涯中看到的其它次有什么不同?

Stefan: 我认为,计算机视觉算法在硬件上的应用是机器人技术能够开始感知和观察周围世界的起点之一。随后,深度学习革命兴起,极大地提高了视觉和视觉处理的效率,这也要归功于二维摄像头的进步。接着,深度学习逐渐应用于基础模型。与此同时,Sergey也许可以花几个小时来讲述强化学习的发展历程——它从一个被认为无法在大规模系统中应用的技术,发展到现在已成为可计算、可实现的技术。典型的Transformer模型是部分原因,这已经成为了一个热门话题。但每个人都希望机器人技术也能因此取得巨大飞跃。大型语言模型在语言处理和视觉处理方面已经取得了巨大进步,但机器人技术却一直难以实现变革性的进步。你看到了很多进展和很多炫酷的东西,但还没有出现一个像GPT那样让事情突然变得好得多的突破。目前还很难说物理定律是否会最终满足你的愿望。

当然,还有其他好事发生。我们拥有了更多的计算能力,无论是GPU还是TPU。我们有了新型传感器,可以看到以前看不到的东西。比如这些特殊的摄像头,它们使用偏振光工作,可以无障碍地看到透明和反光的物体,真正帮助你获得更丰富的视觉信息。然后,中间部分是非常重要的,我认为你需要将算法、数据和软件基础设施结合在一起。我认为现在有越来越多的机器人平台可以做到这一点。

我认为最著名的显然是ROS(机器人操作系统)。Intrinsic和谷歌也将在一个更专业、更大的基础上开展类似的工作。但如果这些事物能够结合在一起,特别是如果你能让软件基础设施在感知、人工智能和计算之间加速,那就真的太棒了。我认为目前还没有达到这个程度,每个人都在做自己的事情,说实话,每个人都在重新发明机器人技术,这可能是第无数次了。

Sergey: 我认为现在的一个重大变化是,学术界对“规模”以及“可扩展学习系统”的重要性有了更深刻的认识。过去,即使在计算机视觉领域,人们也并未完全认识到规模和可扩展学习的重要性。而在机器人领域,由于机器人数据难以获取,实验难以开展,特别是在实验室环境中,能拥有一台机器人进行研究就已经很幸运了。这导致研究人员形成了一种思维模式,即他们必须在小规模上取得成果,而这种成果往往只是大规模应用的“原型”,本质上还是小规模方法。

在使用机器学习时,很难摆脱这种小规模模式。从小规模学习到大规模学习之间存在一道鸿沟。如果你在小规模学习上取得成果,并试图逐渐扩大规模,往往会遇到问题。而在机器学习、计算机视觉和自然语言处理等领域,我们已经学到了宝贵的一课:大规模、简单且通用的学习系统能够让我们避开许多将小规模学习应用到现实世界时所面临的复杂问题。

因此,我认为现在的一个不同之处在于,我们正在思考如何利用来自多个机器人的数据,如何将这些方法应用于不同环境、不同任务,甚至不同机器人之间的迁移。我认为,在机器人领域接受可扩展学习的观点,是使这个时代与以往不同的关键因素之一。

做通才还是专才?

人工通用智能(AGI)与人工专门智能(ASI)

Stefan:如何制造出更智能的AI机器人呢?显然,有一个宏大的愿景,那就是人工通用智能(AGI),现在每个人都在谈论这个。我们甚至在谈论超人类智能。但我认为,机器人离这些还很远。那么,AGI有哪些特点呢?端到端的学习,你想要学习整个过程,你想要学习大型通用模型,你专注于一个真正通用的系统。这意味着你更倾向于泛化能力,而目前至少人们在一定程度上牺牲了性能。这显然是我们应该做的,这非常令人兴奋,但说实话,要达到这个目标可能还有很长的路要走。特别是要让它在实际应用中发挥作用,从纯研究的角度来看,如果你只专注于研究,那么毫无疑问,这是现在你能从事的最酷的事情了。

让我们把话题变得不那么激动人心,但更贴近实际一些。假设你不想等待AGI时代的到来,你仍然想让你的机器人与机器学习在AI领域有所作为。那么,为什么不做一些被称为“人工专门智能”(Artificial Specialized Intelligence,ASI)“的事情呢?这个词还有其他说法。很多人可能之前都见过这个,这是美国国家标准与技术研究院(NIST)的一个挑战板,关于电子制造的。这是一个相对较小的领域,涉及连接器插入、拧螺丝和将螺栓安装到物体上等任务。但为什么不让一个机器人能够专门做这个领域的事情,而且做得非常好呢?我认为连接器插入是一件很酷的事情,虽然这是我们人为创造的,把连接器插入插座这样的事情,一个小孩子两三岁就能学会,这并不复杂。然而,对于机器人来说,我们仍然面临着巨大的问题。因为这些部件不精确,你需要在感知上做到精确,然后在控制上也要精确。令人惊讶的是,没有人能够完成这个NIST挑战板上的所有复杂任务,这个挑战已经存在三四年了。没有人能够在所有部件随机出现在一个箱子里的复杂情况下完成这些任务,而且你还需要快速、可靠地完成它们,然后再把它们拆开。

所以,这种ASI的观点真的是关于更小的模型,这些模型可以是机器学习、强化学习或基础模型,但希望它们在更窄的领域内具有高性能,而且它们可以在本地运行。这意味着它们可以在你的计算机上本地运行。事实证明,工业界并不总是对云计算非常感兴趣。他们不喜欢云,部分原因是他们甚至不喜欢连接到云,因为他们担心会丢失一些私人数据和其他东西。而且,工业界还谈论到了气隙计算(air-gap computing)。如果与外部世界的互联网连接中断,会发生什么呢?你不能让整个工厂因此停工。所以,这意味着很多事情都必须在本地运行,在特定的工厂里可靠地运行,而这通常意味着它们不能是世界上最大的模型。

专门模型与通用模型:优劣势分析

Stefan:这种人工专门智能的愿景有更多专注于特定任务的模型,比如专门用于感知、抓取、任务规划、单机器人运动规划、多机器人运动规划、接触操作、短期规划等任务的模型。它只是有更多专注于特定任务的机器学习模型,而不是一个非常大的通用模型,这个通用模型要处理交互、感知、控制、语言等所有事情。你需要两次交互,这很有趣。然后,感官输入直接映射到机器人上,你进行长期规划并追求高性能。而且,已经有很多模型试图展示这一点。

让我们看看这样做有哪些优缺点。专门模型显然会为你提供针对每个任务的特殊模型。它支持所谓的“多速率系统”,我将在下一张幻灯片中详细介绍。这意味着机器人控制发生在不同的频率和时间尺度上,你必须考虑到这一点。但这些模型也很高效,可以实时运行。好吧,当我看到人们以1赫兹或5赫兹的频率向机器人发送命令时,我就要抓狂了。真正的机器人控制是从500赫兹开始的,甚至是1千赫兹。所以,在真正的机器人技术中,实时控制并不是在非常慢的时间尺度上进行的。这些模型的优点还在于它们更容易调试,你可以更好地理解它们,并且可以在本地运行。

当然,它们不如通用模型灵活,不如通用模型酷,而且它们也不会就这样解决AI问题。相比之下,如果你看AI模型,它们显然要大得多,能做更多的事情。但它们更难在实际时间的机器人技术中部署,而且它们真的很大。所以,在机器人技术中,它们很多时候并不是我们想要的计算方式。

通用性与专业化:如何权衡?

罗剑岚:Peter提到了具身智能体应该存在于物理世界中。就像语言模型学习人类的思想或大脑活动一样,这些活动被输入到互联网或播客中。这实际上是在模仿人类的思想生成过程,但并没有真正逆向这个过程,以了解大脑是如何工作的。但如果我们想构建一个能够像人类一样在物理世界中感知、推理和行动的机器,它就必须被放置在现实世界中,与环境互动,并生成大量的互动数据。最终,我们将拥有各种异构数据。我们的问题将不再是数据量的多少,而是如何处理这些数据。

我们已经讨论了很多内容。Stefan提到过,目前我们既需要性能也需要专业化。而Sergey则认为,我们应该将通用性作为首要考虑因素。我对你们两位在通用性与专业化方面的观点很感兴趣。

Sergey: 我之前已经谈过两次了,但还是让我来说说吧。我认为这是一个非常复杂的问题,因为显然我们需要机器人能够在特定的应用领域中发挥作用。要在应用领域中发挥作用,就意味着至少要在一定程度上专门化。但我认为,阻碍机器人在开放世界环境中应用的一个主要因素是它们处理各种意外情况的能力。这意味着需要具备通用能力。因为通用能力本质上能带来鲁棒性,使机器人能够以合理的方式处理各种奇怪的情况,包括在执行任务时犯错并需要纠正错误的情况。

克服这一障碍,使机器人在现实世界环境中具备常识,能够合理行动,这将是一个巨大的进步。因为一旦达到这一点,我们就可以开始在现实世界中部署机器人,让它们积累经验,并变得越来越专业化。因此,这将通过经验解锁专业化的道路。因此,我认为通用技能非常重要,因为它是在开放世界环境中实现鲁棒性的主要障碍。

再让我补充一点。我认为,关键在于你想要什么,你想去哪里,你希望机器人能多快做到一些事情,多快让机器人做出真正让人高兴的事情。这些都是不同的路径。通用性显然是我们所有人都渴望的,但如果你更关注工业任务,那么现在工业领域越来越倾向于高混合、低产量的生产模式,这意味着事情变化很快。当事情变化很快时,人们不希望花费半小时、一小时甚至几天的时间来重新训练模型。因此,你需要快速概括和适应基础模型的方法。我认为,无论你选择哪条路径,都希望能产生数据,这些数据可以用于下一个机器人,使其变得更好,更通用。这些只是不同的路径,取决于你是想在两年内将机器人交付给客户,还是还有更多的时间来实现这一目标。我认为这些方法都是有效的,都是不同的途径。

如何制造出更智能的AI机器人?

硬件:多速率系统与物理世界的精确感知

Stefan:让我来谈谈多速率系统,这实际上是一个非常重要的组成部分。机器人技术就是在多个时间尺度上进行的。你的人类身体也是在多个时间尺度上工作的。你有一些处理过程只是通过“脊髓”进行的,有一些事情是通过大脑的下部进行的,还有一些事情是通过大脑前部进行长期处理的。所有动物实际上都是这样构建的,它们在多个时间尺度上工作。某些事情,比如推理和规划、运动和任务规划,你可以花更多时间来处理。而对于感官系统和真正的控制,你希望在非常高的时间尺度上进行。

最后,我有一个有趣的观点。比如感官处理,我和一些同事讨论过,我问他们:“你们为什么不在学习模型中使用触觉感知和力扭矩传感呢?”然后他们尝试了,并说:“不,这根本没用。”我问:“你们是以什么频率进行控制的?”他们说:“哦,我们是以10赫兹的频率进行控制的。”现在,事实证明,力扭矩事件和触觉事件发生在几毫秒的时间尺度上。如果你使用的力扭矩传感器通常以1千赫兹的频率运行,那么如果你以10赫兹的频率从以1千赫兹频率运行的力扭矩传感器中采样数据,你就会丢失99%的数据。这简直太糟糕了。

所以,你需要再次思考,回到我最喜欢的观点上来,你需要考虑外面发生的物理现象。如果你不考虑这一点,你可能会错过正确的数据,无法进行有效的处理。我真的很喜欢乔纳森·赫斯特(Jonathan Hurst)的一张幻灯片。乔纳森·赫斯特来自敏捷机器人公司(Agility Robotics),他们有人形机器人Digit。这张幻灯片是我从他的一个演讲中“偷”来的,但它和我之前给你们看的幻灯片基本上是一样的。这基本上是观察机器人运行的不同频率,在高控制率下,你不需要很多信息或AI信息。而稍后,当你进行规划、协调和认知时,你需要更多的数据,并且需要使用不同的模型。他实际上很好地列出了在什么时间尺度上适合使用什么方法,这也是我们一直在强调的观点。这只是他独立展示这些东西的一个例子,这很酷,这是一张非常好的幻灯片。

模型

机器人迈向未来的关键一步:VLA(视觉-语言-动作)模型开始展露头角

Sergey:许多科技史上的重大进步,在发生伊始往往以极其朴实无华的方式呈现。1876年,亚历山大·格拉汉姆·贝尔拨通了世界上第一个电话,他对助手沃森先生说的第一句话是:“沃森先生,过来一下,我想见你。” 1969年,研究人员通过阿帕网(ARPANET,互联网的前身)发送了第一条信息。他们原本想发送“LOGIN”(登录),却只成功发送了“L”和“O”两个字符,系统便崩溃了。

几年前,我也亲身经历了一件对我而言意义非凡的事件,我认为那是一项相当重大的进步。它虽远不及电话或互联网那般划时代,但对我来说意义非凡,因为它预示着机器人领域可能出现的变革。那就是通过互联网进行的首次机器人基础模型应用程序接口(API)调用。当时,机器人位于加州大学伯克利分校,我的学生凯文·布莱克发送的指令是“把茄子放进锅里”。令人惊奇的是,有一个基础模型正运行在山景城的远程服务器上,这个模型并非凯文开发,他也不清楚其具体工作原理,但他能够向这个模型发送指令,机器人便成功完成了任务。

这只是一个任何人都能完成的简单任务,但凯文已经在这个问题上钻研了很久,他对此印象深刻。他说,与那些用小型模型开发的系统相比,这个系统势不可挡。这就是RT-2X跨具身视觉语言动作(VLA)模型。我认为它虽然无法与电话或互联网相提并论,但却预示着未来的发展趋势。我相信,随着我们开发出可通过互联网API远程调用的机器人基础模型,将释放出一种强大的力量,使任何机器人都能执行任何任务。这或许将被视为朝着那个方向迈出的非常早期的第一步。

机器人基础模型:RT-2的诞生与演进

Sergey:那么,什么是机器人基础模型呢?可以说,第一个视觉语言动作模型,也就是我们今天所说的机器人基础模型,是RT-2。实际上,RT-2是一个非常简单的模型。它基于大型语言模型,经过改编以处理图像,然后进一步训练以执行机器人控制。视觉语言模型主要处理视觉问答等任务,例如,你可以给它们展示一张图片,提出一个问题,模型会尝试回答这个问题。为了将它们应用于机器人控制,我们只需将机器人控制问题视为一个问题,而这个问题的答案就是应该发送给机器人的电机指令。RT-2基于一个名为PaLI-X的模型,当时它是一个相当先进的视觉语言模型,能够执行各种基础语言指令。

但是,为了充分释放机器人基础模型的潜力,我们还需要更多条件。我们还需要合适的数据集,而我认为在这方面迈出的重要一步是RTX数据集的开发。RTX数据集是一个跨具身数据集,包含了许多不同类型机器人的数据,专门用于训练这类机器人基础模型。RTX数据集包含来自34个不同研究实验室、22种不同类型机器人的数据。当然,我不想详细列举所有统计数据,我认为展示这个数据集中的一些片段可能更容易理解。你可以看到各种各样的机械臂、各种各样的场景以及各种各样的任务。这个数据集具备了训练机器人基础模型所需的多样性和可变性。我们观察RTX数据集时发现的一个非常有趣的现象是,在这个跨具身数据集上训练的通用模型,实际上比那些专门针对特定场景调整的专用模型表现更优。

在训练了RTX模型后,我们将其发送回部分提供数据的实验室,让他们将这个模型与他们在各自领域正在开发的技术进行评估对比。RTX的结果用彩虹色条表示,每个实验室的任务都不同。最左边的条代表每个实验室各自开发的方法。平均而言,跨具身模型的表现比这些方法好约50%。这非常令人兴奋,因为每个实验室都在开发最适合其场景的模型,而这个包含所有其他机器人数据的跨具身模型,表现却优于它们。这就是通用性的初步优势,这也是我们在自然语言处理和计算机视觉等其他领域所期望看到的。

RT-2X在遵循语言指令方面也更有效。即使对于数据占比最多的机器人(即谷歌机器人),它也能遵循各种不同的指令。对于分布外指令,它的表现比仅在单个机器人数据上训练的模型要好约三倍。但RT-2实际上是第一代视觉语言动作模型。它只是简单地将机器人控制问题视为一个问答问题,这是一种相当简单的方法。现在,我们有了更好的视觉语言动作模型,能够处理更复杂、更灵巧的任务。

第二代视觉语言动作模型:精巧与高效

Sergey:那么,让我先讲讲视觉语言动作模型是如何设计的。首先从语言模型说起,大多数人可能都知道,语言模型是一个大型Transformer,用于预测文本中的未来词元。为了使大型语言模型也能处理图像,我们可以将图像嵌入到与文本相同的嵌入空间中,从而得到视觉语言模型。第一代视觉语言动作模型是通过简单地将视觉语言模型的后缀替换为以离散词元表示的机器人指令来训练的。因此,第一代视觉语言动作模型的架构与标准视觉语言模型的架构完全相同。

第二代视觉语言动作模型认识到,动作并非离散词元,而是连续的。第二代视觉语言动作模型采用某种连续动作分布,通常由一个高容量多模态模型(如扩散模型或流匹配模型)表示,该模型可以利用基础视觉语言模型的内部表示,但能够产生连续动作,通常以时间扩展的动作块形式产生,这意味着它们能够同时产生多个未来动作步骤,从而显著提高性能。

设计第二代视觉语言动作模型有多种方法,但它们的共同点是都使用了一个更适合连续动作的独立生成机制,通常用于更高频率、更灵巧的控制。因此,它们添加了一个专用的连续输出机制,可以专门用于电机控制,就像一个虚拟的运动皮层。

我想介绍的第二代视觉语言动作模型是PI-Zero,它由Physical Intelligence公司开发。PI-Zero基于拥有30亿参数的PaLI-X视觉语言模型,并增加了一个动作专家模块。就像混合专家模型一样,不同权重用于为不同词元生成输出。在PI-Zero视觉语言动作模型中,有一个独立的动作专家模块,它比基础视觉语言模型小得多,专门用于使用流匹配生成连续动作块。

因此,PI-Zero第二代视觉语言动作模型根据机器人的具身情况,接收一到三张图像作为输入,以及一个语言指令。动作专家模块会关注基础大语言模型中的所有内部激活,同时它也会处理连续信息,如关节角度,并输出一个包含50个时间步的动作块,其维度足够高,可以控制数据集中的任何机器人。

流匹配在这方面非常方便,因为它可以让我们表示非常复杂的多模态分布。当然,PI-Zero模型只是机器人基础模型整体设计的一小部分,另一部分当然是数据集。为了训练PI-Zero,我们收集了一个非常大的数据集,包含约1万小时的不同机器人数据,并将其与之前收集的数据集(如RTX数据集中使用的数据集)相结合。

在这个数据集上进行训练后,我们可以快速对模型进行微调,使其适应新任务,包括非常复杂的任务。下面是一个我们在微调过程中测试的任务示例。目标是拿起一个盒子并折叠起来,使其完全组装好。Sergey将盒子放在机器人前面,机器人开始工作。这个机器人与Aloha Trojan的设置非常相似,但该模型也可以控制其他各种机器人。

这是一个非常困难的任务,它需要很高的灵巧性,需要机器人利用桌面表面来支撑盒子,同时在折叠时在正确的时间和位置施加正确的力。这个策略并不完美,有时会出错并需要重试,但它能够在各种位置成功折叠盒子。

我们定量评估了使用预训练模型的益处。实心条表示模型在大型多样化跨具身数据集上进行预训练后,再在每个任务上进行微调的性能。条纹条表示仅在目标任务上进行训练时的性能。你可以看到,在三个任务中的两个上,预训练带来了非常大的提升。

PI-Zero还可以执行非常复杂的任务。我们评估的一个更复杂的任务是折叠衣物,它可以相当可靠地折叠各种衣物,包括短裤、T恤等。它可以在各种场景中完成这项任务,也可以控制不同的机器人。第二个机器人实际上是一个移动机器人,你可以看到它会犯一些错误,但最终能够正确折叠衣物。它还可以执行其他与衣物相关的任务,比如从烘干机中取出衣物。

训练这样一个大量数据的模型的一个真正令人兴奋的事情是,它从预训练中吸收了大量知识,这意味着它可以从干扰中恢复。迈克尔在桌子上放了另一件衣物,然后模型简单地将其收好,并继续完成任务。这些视频中有更多干扰情况,你可以看到,在某些视频中,迈克尔在机器人折叠衣物时,在桌子上放了另一件衣物或弄乱了衣物。在所有这些情况下,它最终都能恢复并完成任务。

我们还可以将多个不同任务组合成一个临时扩展的执行过程。下面,机器人正在执行一个完整的折叠衣物任务,它从烘干机中取出衣物,带到折叠桌,然后按顺序折叠所有衣物。

PI-0.5:迈向长期任务与复杂场景

Sergey:自从开发出PI-Zero以来,我们实际上已经取得了相当多的进展。我们最新的版本称为PI-0.5,它融入了许多其他功能。PI-0.5的设计目标是推广到全新场景中的非常长期的任务。你现在看到的是对PI-0.5在清理卧室任务中的评估。这个卧室在训练集中从未出现过。我们把机器人带到一个全新的家中,让它完成清理卧室的任务,收拾地上的衣物,扔掉垃圾,整理床铺。为了使PI-0.5能够执行如此长期的任务,我们开发了许多其他创新。其中之一是能够进行高级和低级推理。

与直接接收指令并输出动作的PI-Zero不同,PI-0.5接收一个高级指令,比如“清理卧室”,然后执行一个高级推理步骤,选择在当前任务执行点应该执行的适当子步骤,比如“拿起枕头”。它将这个低级指令传递给模型的其余部分,然后模型选择适当的动作。这对于执行复杂长期任务非常重要,也是从网络规模预训练中更有效地转移知识的一种方式,因为推断这些语义步骤是基础视觉语言模型应该非常擅长的。我们为PI-0.5使用了非常复杂的任务混合,包括许多不同机器人的数据,并采用了多种训练目标,包括训练问答问题、边界框检测问题,当然还有机器人任务,比如预测句法子步骤和预测动作。

这是PI-0.5的预训练和后训练数据总结。我不会详细介绍所有内容,但我想指出的一点是,移动操作数据仅占PI-0.5训练集的3%。这些数据很难获取,这些都是复杂的机器人,实际上,绝大多数数据(97%)来自其他机器人具身,包括可以放置在各种不同位置的更简单的机械臂、在实验室中收集的机器人数据等等。因此,这个模型能够在真实场景中如此广泛地推广,而其数据集中只有3%来自移动操作器,我认为这实际上非常有趣。

下面是一些PI-0.5在各种场景中执行各种任务的演示。你可以看到它在真实厨房中折叠毛巾,在左下角,你可以看到研究人员Kwan以各种方式干扰机器人,因为它试图清理卧室。在右下角,你可以看到它在清理厨房等等。所有这些实验都是在训练数据中未出现的场景中进行的,这些都是全新的家。

大模型与时代下的机器人

主持人(罗剑岚博士): 我们的科学研究方式已经发生了根本性变化。计算机科学进入了一个新时代,传统的小规模实验室实验已不再适用,我们必须进行大规模研究。那么,接下来,我认为我们从这些大型模型(特别是语言模型)的成功中获得了许多启示。我的问题是:这对机器人技术意味着什么?这个问题同样想请两位分享看法。

Stefan: 正如你所说,我们正处于机器人技术的新时代。我们突然进入了实证科学的世界,进入了大数据时代。这是首次有机会真正将机器人技术扩展到各个领域,甚至是更通用的领域,这在以前是不可行的。我认为,过去的机器人机器学习是学习单一任务并学好它,然后再学习下一个任务。而现在,我们有可能学习一类任务,甚至是系统每天需要面对的完整行为集合。

现在,真正的挑战在于如何实现高性能,这是一个艰巨的任务,也是我一直担心的问题。如果你从90%的性能提升到99.9%的性能,你的方法可能会失效,你可能需要彻底重新思考你的方法。这种情况在某些领域已经发生过,也可能在我们身上发生。或者,我们可能会在这个新的数据科学领域找到另一种方法来解决这个问题。我还不知道答案,但这将非常令人兴奋。

Sergey: 对我来说,从大规模机器学习世界中学到的一个重要教训是,有时我们应该构建更简单、更可扩展的系统,而不是更复杂的系统。2010年代末到2025年代初的自然语言处理领域就经历了这样的变化。当时,自然语言处理的许多研究都围绕各种专门技术展开,如词性标注、摘要生成等。每个自然语言处理任务都是独立的领域,如机器翻译等。然而,最终大型语言模型的出现吸收了许多这些专门技术。许多为解决单个问题而开发的更专门的方法,在试图将它们组合成一个完整的自然语言系统时,实际上被更简单但更可扩展的语言模型所取代。

当然,我们不应过度解读这个教训,毕竟机器人与网络代理不同,机器人技术必然是一个高度集成的学科。但我认为,作为机器人专家,我们必须非常谨慎地思考哪些系统构建方面应该简化,并通过大规模学习来解决;哪些部分是不可或缺的。我认为机器人技术确实需要高度的鲁棒性和可靠性,而这很难从更多相同类型的学习技术中获得。但我们也应该非常谨慎地思考在哪里增加复杂性,在哪里强调简单性和规模。

数据

物理AGI的路径选择与数据挑战

Stefan:那么,现在我完全希望能够创造出物理AGI,我想这也是今天大家来到这里的原因,也是我们想要实现的目标。那么,问题就是如何实现它。我实际上是从卡罗尔·豪斯曼(Carol Houseman)那里借用了一些术语,他来Physical Intelligence。他说,在这个物理AGI领域,你至少可以通过观察性能、泛化能力和它能做的酷事情(即他们所说的能力)来跨越一个特定的空间。这意味着它能做多少复杂的任务?它只能做相对简单和无聊的任务吗?还是能做像叠T恤这样超出机器人技术常规领域的复杂任务?我把AI(更偏向通用性)放在这里,把人工专门智能(ASI)放在那里,人工专门智能在性能方面很高,但在能力泛化方面则不那么高。

现在,你可以根据这个图表来争论一下如何达到物理人工智能的目标。我们采取的方法是,我们首先需要性能,这对我们来说非常重要。否则,我们无法与任何想要部署我们机器人的人合作,并让他们觉得:“嘿,它们真的很有用。”所以,如果你首先朝着这个方向前进,是的,你不会那么通用,这就像我之前给你们看的史密斯任务板一样,你不会拥有你能做的最酷的能力,但你实际上能让机器人工作,人们会使用它们。然后,你可以尝试迭代,朝着AGI的方向前进。但在前进的过程中,你实际上拥有正在工作的机器人,它们会创造数据。然后,希望你能利用这些数据,朝着更高的目标前进。

这是一条愿景之路,并不是每个人都会同意的观点。我认为人们会对此进行讨论。那么,还有其他方法可以达到这个目标。物理智能公司最近发表了一篇博客文章或播客,他们描述了他们采用了一种非常不同的方法。他们说,最初,他们想要展示机器人之前无法做到的新能力。然后,他们想要朝着泛化的方向发展。我认为,他们目前的主要目标是如何提高性能。性能很糟糕,我认为性能真的是我们需要追求的圣杯之一。无论你什么时候看到AI或机器学习方法应用于机器人技术,看看它们能达到什么数字。抱歉,60%、70%、80%是不够的。它需要变得更好。当然,你可以忽略所有这些策略,只是疯狂地收集数据,并希望有一条直接通往AGI的道路。这也是一个合理的方法。我们谁也不知道什么是正确的方法,什么是最成功的方法,以及机器人是否会按照某种方式或其他方式配合我们。每个人都必须根据自己的目标来决定。

但在这个背景下看看数据是很有趣的。我认为在前面的演讲中我们已经听到了关于数据的内容。机器人的数据在哪里呢?

属于具身的数据飞轮

Stefan:这是一个很好的图表,它展示了互联网规模的数据,那很多。还有反互联网规模的数据,这是用于大语言模型的。然后是模拟数据,英伟达在模拟数据方面做得非常出色。当然,你可以在云端进行模拟,仍然可以创造大量数据。我们更倾向于从人工专门智能的机器人工作单元中获取数据,这些单元至少会被部署并随时间创造数据。当然,我们还可以从人类远程操作中获得数据,但这是一项非常缓慢的工作,很难大规模创造数据。

从我们的角度来看,所有这些数据实际上都必须基于一个像样的机器人平台。我再次强调我之前说过的话,这个平台必须具有正确的实时控制,必须尽可能多地利用我们已经知道的感知和计算机视觉等方面的知识。请不要抛弃人们在机器人技术和感知领域已经积累的所有知识。尽可能多地利用这些知识,只在需要的地方添加机器学习。然后是机器学习,还有多机器人协调,这是一件非常无聊但很重要的事情——安全。没有安全,你就无法将机器人推向世界,它们基本上不会被允许使用,或者你必须把它们关在笼子里。

机器人技术的核心驱动力

罗剑岚:我认为现代机器学习的驱动力是数据。对于计算机视觉和自然语言处理等领域来说,数据非常丰富,互联网就是无尽的数据源。但对于机器人技术来说,目前情况并非如此。那么,你们认为机器人技术需要什么样的数据?数据的多样性和质量又该如何考量?

Peter Chen: 我认为机器人所需数据的类型,也与之前关于如何扩展机器人技术以构建更通用模型的问题相关联。我认为,机器人技术与大型语言模型和视觉技术的一个关键区别在于,我们最终需要解决一个物理系统的问题。这意味着我们的数据也必须来自物理系统。当然,你可以通过模拟、人类示范等方式收集一些代理数据,但最终,没有什么能比得上机器人在实际环境中操作并收集数据。

我认为,这一直是扩展机器人技术的历史瓶颈之一。因为机器人技术在很大程度上是孤立和碎片化的,分布在许多不同的学术实验室中,而且物理系统通常由计算机科学专业的学生构建,他们通常不是硬件工程师或专家。然而,在最近这一波对人工智能和机器人技术的兴趣和投资浪潮中,这种情况发生了变化。包括今天赞助论坛的AGI-Bot在内的许多公司都愿意并有能力进行大量投资,这使我们能够获得更多可用于运行策略和收集数据的物理系统。我认为,与五到十年前的机器人学习论文相比,这是一个非常根本性的变化。当时,你看到的是非常小规模的实验,硬件平台难以复现。我认为,我们现在生活在一个完全不同的时代。因此,我对这个问题的简短回答是:你最终需要大量的物理机器人,以及来自这些物理机器人的数据。

苏航: 也许五年前,自动驾驶领域的人们还会使用一些模拟数据来训练模型。但现在,我们都知道,人们总是使用真实数据来训练模型。我认为,同样地,对于具身人工智能来说,我们有时也会使用一些模拟数据,或者使用视频数据来训练。但我相信,在未来,真实数据将会变得非常重要。我认为我们将会拥有大量真实数据,从而可以使用真实数据来训练机器人。

我认为,真正的瓶颈在于如何高效地收集数据。目前,远程操作数据的收集效率并不令人满意。因此,我认为,例如,机器人自主收集数据的方法可能会更加高效。这意味着我们可以扩大数据收集规模,使其更加高效。因此,尽管机器人自主收集数据的方法可能并不完美,因为机器人与任务之间存在一定的差距,但我相信,在不久的将来,这将成为数据注入的一种可能方式。无论如何,我认为,只要我们有大量真实机器人,就意味着我们可以拥有大量数据集。那么,如何利用这些数据呢?我认为,对于终身学习来说,这意味着我们需要一个闭环的数据重用机制。这可能是未来数据利用的方向。

罗剑岚博士:我们讨论了数据的问题。我知道Sergey最近写了一篇关于数据的博客文章,叫做《AGI的支柱》(Spokes of AGI)。我非常喜欢那篇博客。但作为主持人,我必须保持中立。那么,我的问题是:我们应该如何获取数据?真实数据、模拟器还是其他方式?你们怎么看?

Sergey: 我认为Peter说得非常好,真实数据非常重要。我想补充一点,如果我们看看其他领域,比如计算机视觉和自然语言处理,机器学习之所以能在这些领域取得成功,是因为我们能够有效地利用非常大的真实世界数据集。这并不意味着我们只应该使用真实数据。但对我来说,这意味着要构建一个具有通用能力的机器人基础模型,我们需要获取大型机器人数据集,并利用它们来学习对物理世界中物理交互的通用理解。

我认为,一旦我们拥有了一个对真实世界中的物理交互有良好理解的模型,它就能更好地吸收其他来源的数据。就像一个人,如果你看过卡通片或玩过电子游戏,你就能理解那个抽象的世界,即使它的图形并不完全反映现实。因为你已经对物理世界有了深刻的理解。因此,我认为,如果我们能从真实物理数据中构建起对物理交互的理解,我们就能在机器人技术上取得更大进步,并且能够吸收其他类型的数据。因此,我认为,模拟技术并不是推动机器人技术发展的关键,相反,大规模真实世界数据集可能会推动机器人理解各种其他类型数据的能力。

姚卯青: 好的,我将从不同的角度来讨论这个问题。很多时候,人们都在争论获取某种类型数据的成本,比如说某种数据收集方式更便宜或更贵。但请记住,每种数据收集过程都有其自身的成本。例如,人力成本是其中之一。另一方面,我们还有存储成本,数据量也与训练模型所需的计算量相关。因此,有时候某种方式收集数据可能更便宜,但存储和消耗数据的成本却更高。

此外,我认为从长远来看,如果我们退一步考虑,为机器人技术收集数据花费数百万、数十亿甚至更多资金,我认为这并不是不可承受的。考虑到Meta的超级智能实验室雇佣研究人员的成本就高达12亿美元,那么这些资金完全可以轻松获得数亿条轨迹数据。如果这是解锁人工智能的密码,我认为任何科技巨头或国家都不会犹豫投入这笔资金。最终,我认为问题不在于如何获取数据,而在于如何从不同应用领域和行业中获取最具代表性的数据。我非常同意Stefan之前的观点,我们需要大量在现实世界中工作的ASI系统,以获取最有价值的数据,甚至是那些边缘案例和失败案例,以帮助我们有效地迭代系统。因此,我认为,当我们有数百万台机器人在现实世界中部署时,我们的问题将不再是如何以低成本获取数据,而是如何从数十亿甚至数万亿条轨迹中筛选出最有用的数据,因为我们无法承担存储和计算所有数据的成本。因此,从长远来看,我认为我们将更加关注如何处理这些数据。

具身将奔向何方

AI赋能机器人与实践路径

Stefan:我们押注的是这种通用的机器人平台,无论采用什么技术,我们都将用于任何形式的AI赋能机器人技术。只是为了给你们一个小小的愿景,关于我们将如何思考这个问题。我们尽可能多地利用我们在控制、感知方面的知识,然后利用机器臂群尽可能自动地创造数据。时间还剩50秒。那么,我们有一个小小的愿景,这是一个愿景视频,这并不完全现实。但这是我们如何设想与智能机器人及其软件系统进行交互的。你提供草图,你提供照片,你拥有所有可以帮助你完成这些任务的视觉语言模型(VLMs)。用户基本上与之交互,但系统也会自动创建代码。它不会完全端到端地完成所有事情,它会使用状态机等易于在代码中创建的东西。然后看看这些传统机器人技术方法能走多远,以及它们能做什么。如果它们做得不够好,那么也许你需要添加一些更智能的东西。你可能需要潜在地添加强化学习技能。实际上,你们现在将要看到的是罗博士的工作。这是他工作的一部分,你可以开始教机器人它应该做什么。然后它将进行自动训练。快结束了。那么,你们现在将看到机器人开始自主训练,不再需要演示了。而且,在他的出色工作下,经过大约20到30分钟的训练,系统的性能将超过99%。那么,你现在就可以部署这个系统了。

突然之间,你在传统的机器人技术工作流程中拥有了一个机器学习技能。但这是一种人工专门智能的观点,这更贴近实际,而且这可能会真正发挥作用。我们相信这是可以实现的。这个视频实际上是一年半前制作的,我想每个人都会同意,实现这一点并不遥远。作为最后一个组成部分,它实际上开始发挥作用了。这只是一个将整个工作流程放在一起的小视频,它将会足够好。那么,让我在这里结束吧。这是一种更保守的AI赋能机器人技术使用方法。它真的说端到端学习,也许我并不需要这个。也许我通过实际调用标准化机器人技术工作流程中的技能函数来实现端到端学习。我只在需要的时候插入机器学习。至少这将让我们得到一个在现实世界中能够运行的东西。但它现在并不像AGI那样酷。但也许这是以另一种方式实现它的途径。

强化学习与机器人基础模型的融合

Sergey:那么,从这次讨论中我们得到了什么启示呢?到目前为止,我们有一个在许多不同机器人上训练的通用模型原型和一个适合灵巧流畅机器人控制的视觉语言动作模型配方。它在各种非常复杂的任务中表现出色。但仍有一些不足之处。

其中一点是,这个模型完全是通过模仿训练的,它并没有真正直接针对任务成功、鲁棒性和速度进行优化。在本次演讲的最后一部分,我想谈谈一些更具前瞻性的内容,即未来可以融入视觉语言动作模型的强化学习技术,以大大提高其鲁棒性和性能。

打个比方,当我们训练标准基础模型、大语言模型和视觉语言模型时,通常分为两个阶段。我们有预训练阶段,从网络上收集大量数据。这个阶段的目的并不是得到一个真正能执行任务的模型,而是将大量知识融入模型中。这是预训练阶段。然后我们有后训练或对齐阶段,在这个阶段,我们会使用高质量的监督微调数据集或某种强化学习,不是为了获取新知识,而是专门教模型如何执行用户真正想要的任务,以及如何稳健有效地执行这些任务。

我认为,在机器人基础模型中,我们也会看到同样的分离,会有预训练阶段和后训练或对齐阶段。在后训练阶段,目标是使用强化学习和高质量数据,使模型能够真正出色地完成任务。

你看到的是一个强化学习过程,正在训练机器人将芯片插入印刷电路板(PCB)。这不是视觉语言动作模型,而是一个单任务强化学习过程,但它是一个非常高效的单任务强化学习过程。在过去几年里,我们找到了使现实世界中的强化学习变得极其高效的方法。

这个系统的基础算法是RLPD,它使用先验数据,尽管可以使用多种算法。它是一种离策略演员-评论家方法,从演示中初始化。观察结果来自腕部摄像头的原始图像,使用预训练的视觉编码器非常重要。除此之外,这是一个相当标准的设置。奖励由一个图像分类器提供,它只是分类机器人是否成功完成任务,因此奖励非常稀疏。可选地,我们可以将人类干预纳入系统,这样当机器人失败时,人可以介入并提出纠正建议,这既提供了额外的奖励信号,也提供了额外的数据。下面是一个视频演示。

当框架以蓝色高亮显示时,机器人正在自主执行任务。当它以红色高亮显示时,有用户进行干预。这些在训练过程中的干预实际上可以使学习过程更加高效。这就像一位老师指导机器人如何完成任务,同时也让它自己尝试完成任务。

这个完整的系统,我们称之为SERL,在学习各种单个任务方面非常有效。视觉语言动作模型是一种通用主义者,而SERL强化学习系统实际上是一个训练专用者的系统,但它可以训练出非常优秀的专用者,适用于各种任务。这些任务包括将定时皮带装到齿轮上、组装家具、翻鸡蛋等高度动态的任务,比如抽积木。

这些任务相当复杂,难以学习,但机器人可以学习到非常高的熟练程度。这是一种与视觉语言动作模型非常互补的能力。视觉语言动作模型是通用主义者,而强化学习系统是高度熟练的专用者。当然,我们真正想做的是将它们结合起来,让专用者监督通用者,使其成为更好的通用者。

专用者非常有效,这是一个抗干扰鲁棒性的示例, 我们在机器人将定时皮带装到齿轮上时对其进行干扰,你可以看到机器人相当熟练地恢复了。

将这些专用者整合到一个通用者中仍然是一个未解决的问题。我们已经朝着解决它迈出了初步步骤。其中之一是一种我们称之为RLDG的方法,它直接使用专用强化学习算法生成训练数据,用于训练视觉语言动作模型。

我认为这类研究仍处于早期阶段,但我认为它非常有前景。在我们的RLDG原型中,我们能够训练专用策略来插入各种连接器,如VGA连接器、USB连接器等等。然后,在从这些专用强化学习方法获取的数据上训练视觉语言动作模型后,该模型实际上可以推广到全新的连接器。当然,这比之前展示的折叠衣物、搭建盒子和通用能力要狭窄得多,所以这只是一个早期步骤。

未来我们将在结合强化学习和视觉语言动作模型方面看到很多进展,这可能会导致系统更加可靠、性能更高。总之,我们目前有一些非常高效的强化学习算法,一种将强化学习技能融入视觉语言动作模型的方法,但仍存在开放问题。我们仍然没有一种稳定、有效、可靠的端到端训练视觉语言动作模型的强化学习程序。我认为,在提升视觉语言动作模型的探索和应变能力以辅助强化学习过程方面,我们还有很多工作要做。我认为这里还有很多系统构建工作要做。

学术界与产业界:

弥合鸿沟一直在进行,但选择也很重要

在机器人领域,学术研究常可能在仿真验证或短期演示取得良好结果就足以令人兴奋,比如依赖模仿学习、强化学习等方法在受控环境中实现功能原型;而产业应用则要求系统在真实场景中长期稳定运行,面对动态环境、传感器噪声和长尾任务时仍具备鲁棒性与可维护性。如何让机器人研究走出“演示即终结”的困境,转向真实世界的持续运行与性能演化?这不仅涉及技术范式的调整,更引发我们对研究目标、评估标准以及学术与产业协同路径的深层思考。

罗剑岚:在机器人领域,学术界和产业界之间一直存在差距。这种差距在机器人领域尤为明显。因为通常在学术论文中,你做了一些研究,录制了视频,上传到YouTube,然后就结束了,你不再关心之后会发生什么。如何看待这个问题?我们需要做些什么来缩短这个差距?

Peter Chen: 首先,如果你在现实世界中部署了一个策略,你就不能像上传到YouTube然后忘记它那样简单。因为机器人应该24小时不间断工作。所以,如果你的策略出了问题,你就需要回去修复它。这与上传到YouTube然后忘记它完全不同。这有点烦人,因为你要对你的策略、你的模型的质量负责。

但这也很有吸引力,因为你可以体验到你的模型在各种长尾情况下如何失败,这可以告诉你如何改进系统的通用性和鲁棒性。

回到更一般的问题,即学术研究和产业研究应该如何合作以推动机器人技术的发展,我认为我们应该尽可能缩小这个差距。因为在这个领域,还没有已经建立好的技术和方法可以直接用来构建产品。仍然有大量的前沿研究需要完成。而且,我认为学术界仍然是培养人才和进行前沿研究的最佳场所。

但与此同时,很多学术研究人员并不真正了解我们需要解决的实际问题。因此,我认为产业界有义务将一些问题、一些动机带回学术研究。据我观察,很多学术研究人员也有动力去研究更接近现实世界的问题。因此,我认为这个差距在过去一直存在,但我希望在未来几年内能够逐渐缩小。

Stefan: 我认为这些观点都非常中肯。让我再补充一点。我们也在问一个问题,即如何从原型发展到真正能用的产品。你可以和合适的人一起努力实现这种技术转移,这非常好。但你也可以在选择研究的问题设置时,就选择一些对初始性能不太敏感的领域。因为并非所有领域都像汽车行业那样,必须达到99.999%的完美才能工作。还有其他一些领域对失败更加宽容。

我认为,谷歌的Everyday Robots项目中的垃圾分类就是一个很好的例子。它对失败更加宽容,因为垃圾分类只需要达到90%以上的准确率就可以了。因此,你不需要一开始就做到完美。

还有一些领域,你不需要机器人做到完美,你可以让一个人在那里监督几个机器人,然后随着时间的推移逐渐提高性能,因为这可能需要一些时间,并最终需要更多的数据。因此,我认为选择合适的问题领域也非常有帮助。并不是所有任务都需要由机器人来完成。因此,要明智地选择。

导航、移动与操作哪项最难?

导航、移动与操作被视为当下机器人实现自主行为的三大核心技术支柱。其中,操作往往被视为当前最具挑战性的领域,因其要求机器人在高度复杂、动态的真实环境中进行精细的物理交互,需融合对物体、力、场景的深刻理解。相较之下,导航虽面临感知不确定性,但交互简单;移动虽涉及动力学控制,但环境相对结构化。操作则集成了前两者的难点,并引入更高维度的自由度与不确定性。尽管当前固定基座操作已有进展,但通用、鲁棒的操作能力仍远未成熟。更重要的是,现有方法在导航、移动与操作之间缺乏统一的表征与学习范式,导致系统割裂、常识缺失。因此,构建一个基于基础模型的、共享的物理世界理解框架,或许是通向通用机器人智能的关键突破口。

罗剑岚: 我们把自动驾驶汽车称为机器人,也可以把人形机器人称为机器人。不同的机器人有问题需要我们解决。但总体而言我认为我们主要关注的是导航、移动和操作。为这三个领域中,哪一个目前对我们来说是最具挑战性的?我们应该如何解决它?

Sergey: 我认为是操作。因为它是最难的。那其他两个呢?它们更容易。因为操作需要你理解一个非常多样化和复杂的世界,并与它进行物理交互。对于导航来说,我们需要理解一个复杂的世界,但我们与它的物理交互通常相对简单。而对于移动来说,我们有物理交互,但世界相对简单,因为我们真正施加力的对象只是机器人本身。当然,我们可以让每个领域都变得更复杂一些。但操作是真正将所有最困难的挑战融合在一起的领域。

如果我们能找到一个通用且广泛适用的机器人操作解决方案,那么无论我们想出什么方法来做到这一点,都将为我们解决其他问题提供一个良好的开端。这并不是说没有人应该研究导航或移动问题。我认为它们是很好的研究领域。将问题领域隔离起来,使其不那么复杂,不包含那么多困难因素,可以让我们通过单独解决一个挑战来取得很大进展。但操作是真正将所有挑战融合在一起的难题。

Stefan: 我同意这个观点。一切有趣的事情最终都会融合在一起。因此,我们已经对固定基座的机械臂进行了操作研究,我们在一定程度上知道如何做到这一点。但我认为,我们离真正做好还差得很远。

单独来看,移动技术在近年来已经变得相当成熟和出色。这曾经是一个问题,比如10年、20年前。而导航技术本身,虽然同时定位与地图构建(SLAM)已经存在很长时间了,但在隔离状态下进行导航,即在充满感官输入和不确定性的世界中进行导航,就像自动驾驶汽车必须解决的问题一样,显然要困难得多。

但现在,你可以把所有这些技术融合在一起,应用到人形机器人上。现在,你有一个移动的机器人平台,当你移动手臂时,它会剧烈摇晃。然后,你还需要进行操作。所有这些难题都融合在了一起。但我认为,操作仍然是最不成熟的领域。这就是事实。我们必须在这方面取得进步。

Peter Chen: 我想对两位嘉宾的观点提出一些不同的看法。我认为,为了让这个讨论更加有趣,我们需要一些尖锐的观点。虽然我同意操作是这三个领域中最不成熟的领域,但我认为,将操作视为唯一的核心问题并不完全正确。

我想稍微夸张一点来表达我的观点。因为我们有针对移动和导航的很多解决方案,但它们并不共享与操作相同的方法论基础。比如,我们使用SLAM来解决导航问题,然后使用某种局部实时策略来解决局部移动问题,然后再用完全不同的方法来解决操作问题。这并没有建立起我们对所追求的物理世界的常识性理解。因此,从某种意义上说,是的,我们可以说还有其他方法可以依赖来解决导航和移动问题。但我确实认为,我们面临着一个更根本的常识性理解问题。这正是我们希望通过这个基础模型来解决的,只是我们还没有完全解决。

未来前沿研究点有哪些?

罗剑岚:人们现在对解决机器人问题的不同方法有不同的看法。有人说应该通过模拟来解决,有人说应该收集数十亿条真实世界的数据轨迹,还有人相信模型的力量。这个问题想听听大家的看法,每个人都可以随时发言。大家认为未来三到五年内,机器人领域的前沿会是什么?

Stefan: 我很高兴能先谈谈我的想法。我最想回到的一个话题是持续学习。我们已经有了使用较小机器学习模型的持续学习方法,自适应控制也是一种可以证明其有效性的方法。但如何将这个概念应用到大型模型和大规模模型中呢?我们的机器人不能只学习一次就停止了,至少我希望如此。我们的机器人大多数时候都在学习一些东西,然后执行任务、评估效果,然后再开始学习。我们仍然担心如何不断添加数据而不破坏系统,不让系统失控或做出糟糕的事情。我认为这个话题将非常有趣,它将加速我们构建大型模型和更好的机器学习模型的过程。

姚卯青: 我认为下一个前沿可能是从反馈中学习。目前,我认为我们的学习策略是先有硬件,然后像那样训练策略。我认为在未来,我们会有一个策略,然后通过与环境交互来不断改进这个策略,同时从反馈中学习。目前,我认为对于强化学习来说,效率可能并不是非常理想。因此,如何最好地利用反馈将是下一个前沿。

Sergey: 我认为在接下来的几年里,我们还没有从根本上验证在具身智能领域中的扩展法则的所有假设。问题是我们还没有足够的数据量来与语言领域相媲美。在接下来的几年里,我们可能仍然需要坚持这种推断,看看我们会达到什么瓶颈。而且,与语言领域不同的是,我们处理的是离散化的符号标记或表示,但现实世界是连续的,更加复杂,我们与世界有各种各样的交互。这可能与我们在语言领域中的经验有显著不同。因此,我认为这些都是我们想要征服的真实前沿。

Peter Chen:我认为越来越重要的问题将是如何使用机器人自主收集的数据,即使这些数据可能并不完美。因为我们现在正处于机器人技术的启动阶段,我们正在开发能够将机器人带出实验室并进入现实世界的技术。如果我们在这方面取得成功,那么就会有机器人在现实世界中运行。一旦某样东西变得有用,人们就会大量制造它。

我们可以看看汽车行业,即使是自动驾驶或部分自动驾驶汽车,现在路上也有很多。当我们有一个未来,那里有成千上万甚至数百万台机器人时,那么对我们来说,最重要的就是如何利用它们自然收集的经验来改进它们。这些经验可能不如远程操作数据那么高质量,我们也无法像控制模拟器那样紧密地控制它们。但这将是这些系统获取大量额外知识的重要来源。我们必须想办法利用它们。

对机器人领域年轻研究人员有哪些建议?

罗剑岚博士: 过去两年内进入了这个领域。你们对年轻研究人员和学生有什么建议?对于未来的前沿领域,你们最兴奋的是什么?

Peter Chen: 也许我可以先来回答这个问题,同时回答关于我最兴奋的前沿领域的最后一个问题。我最兴奋的是看到更多机器人执行有用的任务。因为当我们谈论数据问题时,我们没有互联网这样的数据源可以挖掘。但我们有一个不同的机会,我们可以从一开始就构建对机器人预训练更有用的数据。如果你想想将大型语言模型预训练数据转化为有用信息的挑战,那就是过滤掉互联网上的大量噪音和垃圾。但如果我们,如果在座的学生和研究人员,尝试用机器人解决大量有用的问题,那么我们就能获得非常有用和有趣的数据。我们有机会从头开始构建一个非常有价值的数据集,而不需要从大量垃圾中筛选出有用的信息。

Stefan: 我们试图进入物理人工智能领域。因此,我的建议是学习物理学、人工智能和机器学习。我认为你还需要学习大数据科学,因为现在这些都紧密相连。为了实现物理人工智能,我认为我们需要具备所有这些领域知识的人才。

Sergey: 我认为在选择研究课题时,重要的是要仔细思考这个问题是否仅仅是为了解决实际便利性问题,还是有可能解决一些真正根本性的问题。我认为在机器人领域,尤其是由于我们必须至少在一定程度上保持实用性,我们往往会陷入一些较小的思维模式中。例如,考虑如何解决实验室中只有一台机器人、数据昂贵或计算昂贵时遇到的特定实际挑战。

我认为在选择研究课题时,重要的是要退一步思考这个问题是否真的只是让事情变得更便宜或更方便,还是它有可能解决一些真正根本性的问题。当然,有些研究工作在最初看起来可能并不实用,但在长期内,在规模更大、资源更多的情况下,它们可能变得非常重要。保罗·克里斯蒂亚诺关于基于人类偏好的深度强化学习的工作就是一个例子。当这项工作完成时,他通过在一个小型模拟跳跃器上实现后空翻来测试它,这看起来似乎让深度强化学习变得更加不实用,因为它需要人的参与来提供偏好。但当然,多年后,这成为了基于人类反馈的强化学习(RLHF)的基础,现在我们经常用它来微调大型语言模型。因此,重要的是要超越表面的实用性考虑。

(以上内容来自WAIC2025智启具身论坛 嘉宾发言文字稿)

特别声明:[万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

张兰现身戛纳,称与梁朝伟夫妇同台,男友现身,为儿媳送生日祝福(张兰 年轻)

张兰近日抵达法国,尽管因时差缘故,她为儿媳马筱梅送上的生日祝福略显迟到,但这丝毫未减其真挚情感。她身着一袭红色拖地长裙,恰如其分地展现了法兰西的浪漫气息,而身旁这位男士则是以清爽的白色T恤与牛仔裤搭配,面带微…

张兰现身戛纳,称与梁朝伟夫妇同台,男友现身,为儿媳送生日祝福(张兰 年轻)

4秒推荐:漂流艇简笔画(漂流艇多少钱一个)

他刚把艇推下水,二狗子突然从芦苇丛里钻出来,怀里抱着个锈迹斑斑的汽车喇叭。他刚把艇推下水,二狗子突然从芦苇丛里钻出来,怀里抱着个锈迹斑斑的汽车喇叭。他刚把艇推下水,二狗子突然从芦苇丛里钻出来,怀里抱着个锈迹斑…

4秒推荐:漂流艇简笔画(漂流艇多少钱一个)

演员澜曦,戏红人不红!从不炒作绯闻,看看老公是谁就明白了(澜曦多大)

那时她如此火爆,沈眉庄这个角色更是成为了经典,然而这位演员却没有借此大火的机会,反而渐渐淡出了观众的视野,实在令人唏嘘。 对于澜曦如今的事业发展,不同的人或许有不同的看法,但无论如何,她的演技和温暖的人格都值…

演员澜曦,戏红人不红!从不炒作绯闻,看看老公是谁就明白了(澜曦多大)

从 400G 升级到 800G,到底能省多少钱?(洞察 TCO 真相)(800mb升级1g)

核心结论:虽然单个 800G 模块价格约为 400G 的 1.5 倍,但得益于所需数量减少 50%,模块总采购成本可降低约 25%!震撼结论:三年 TCO 节省远超想象综合硬件、能耗、运维与空间四大维度的…

从 400G 升级到 800G,到底能省多少钱?(洞察 TCO 真相)(800mb升级1g)

优化焦炉煤气脱硫工艺的思考(焦炉煤气脱焦油)

催化剂的添加应根据脱硫前煤气中H2S含量、煤气流量、硫泡沫、脱硫废液的排放所流失的催化剂量,进行均匀连续添加,以稳定脱硫液中的催化剂浓度来满足催化氧化HS-的需要。 大量煤气脱硫工程实践的检验结果表明,只要工…

优化焦炉煤气脱硫工艺的思考(焦炉煤气脱焦油)