人形机器人的进化之路｜2.5万字圆桌实录(人形机器人进厂打工)#科技#数据#机器人#技术#方面#模型

本期为《仲夏六日谈》

第四季

第五期节目文字内容，主题为

《从「行走」到

「

思考」机器人进化之路

》

。

十大看点：

·具身智能在技术层面取得了哪些重要突破？

·距离具身智能“最后一公里”的落地，还有多远？

·端到端大模型在具身智能中的应用现状和前景如何？

·具身智能在数据方面面临哪些挑战？

·仿真技术的提升如何推动了具身智能的发展？

·具身智能的泛化能力目前存在哪些瓶颈？

·具身智能是否会催生独立于AI的新一轮工业革命？

·具身智能对社会经济形态可能产生哪些深远影响？

·具身智能的发展，将如何影响人类教育和职业转型？

·未来，人类应如何重新定义自身价值？

对话嘉宾：

肖仰华

复旦大学计算机科学技术学院教授、博导

穆尧

上海交通大学人工智能研究院助理教授

张恒第

帕西尼感知科技CTO

郝博阳（主持）

腾讯新闻《AI未来指北》特约作者

从「行走」到思考」机器人进化之路

郝博阳

：

大

家好，

欢迎来到《仲夏六日谈》。本期我们的主题是“人形机器人”。从2023年起，AI的进展日新月异，尤其是在具身智能领域，但对大众而言，具身智能仍然是相对陌生的存在，大家的认知可能更多停留在机器人马拉松或擂台赛等表演性内容上。那么，具身智能目前到底发展到了什么程度？它未来又将如何影响我们的生活？本次《仲夏六日谈》非常荣幸邀请到三位重量级嘉宾：复旦大学的肖仰华老师，上海交通大学的穆尧老师，帕西尼感知科技的CEO张恒第老师，与大家共同探讨这个话题。

其实，我们去年的《仲夏六日谈》，已经探讨了一系列具身智能的相关话题。但是一年过去了，具身智能领域实际上取得了非常多的进展。在大模型领域，我们见证了诸如强化学习范式革命、世界模型逐渐成形，Agent爆发等新发展。那么，具体到具身智能领域，各位老师认为这一年最大的技术推进体现在哪？

肖仰华：

那我先谈谈对具身智能发展现状的总体看法。坦率地说，到今天这个时间点，整个具身智能领域，从技术到产业，仍然是“Demo”很酷炫，实际还在落地应用“最后一公里”的泥潭中挣扎。我们现在看到的具身智能，在特定的、相对封闭的场景中完成简单任务、单一技能方面，在技术模型方面确实取得了不错的进展与突破。但是，一旦处于开放的任务环境，或者需要复杂技能、高执行精细度时，我们的机器人就会闹出很多笑话。同时，也还存在一些其他问题：安全性方面，网上有些视频中的机器人胡乱挥舞自己的拳头。另一方面，供电方面，目前机器人的持久供电还存在很大的短板；成本方面，机器人动辄数十万人民币，与其创造的实际价值存在代差，更不用说后续复杂的运维成本；最后是伦理方面，事实上，当技术越是成熟，越是离进千家万户指日可待时，伦理的问题将会日益突出。这么多机器进入我们的生产和生活，那我们人如何安置？因此，以上这些问题都可能会限制具身智能“最后一公里”的落地。所以，我总体上认为，整个具身智能产业，虽然有不少激动人心的突破和进展，但是“最后一公里”如何走完，是我们当下可能要去迫切思考的问题。

穆尧：

我认为这一年来具身智能的突破主要集中在三个方面。第一，端到端大模型的进展。具身智能从2023年开始逐渐受到关注，到今年，短短两年内，模型侧的技术已经完成了从L2级到L4级的跃迁，类似于自动驾驶的完整生命周期。事实上，自动驾驶本身就是具身智能的一种特殊体现，而它在前一个周期的表现则恰好验证了端到端大模型会带来一个去规则化和更强的泛化能力。今年，Physical Intelligence公司推出的Π系列模型就是一个典型代表，机器人进入一个新家庭，已可以开展一些Few-shot（少样本学习）的任务执行。虽然任务复杂度还不高，但是让我们看到了曙光：它在100个家庭中收集的数据，能够在第101个家庭中实现泛化，这对我们这种端到端大模型的科研从业者来说，是一个重要的信心来源。

第二，具身数据的采集与积累技术的进步。我们对具身智能的期待很高，希望它能像家庭保姆一样完成复杂任务，而这要比ChatGPT这样的语言助手难度高得多。但是，我们实际掌握的数据不足人家的1/5000，所以我们希望的目标和我们实际掌握的原材料存在着非常大的悬殊。不过今年，数据采集技术取得了很大突破。从ALOHA的主从臂式摇操、VR摇操，到光学动捕、惯性动捕和动作重映射等采集技术与方法，使得征集数据更高效便利。此外，上海和北京等地都发布了大规模的征集数据集，比如AGI Bot World项目，它在2000平方米的场地中部署上百台机器人，采集了百万级的真机数据。这是具身智能界一次很大的突破，极大地推动了数据繁荣。

穆尧：

第三，仿真技术的提升。这不仅是具身智能领域的突破，也是整个AI行业的进步。随着生成式模型的发展，在AI 赋能下，机器人的仿真效果从“非常假”至少提升到“视觉上逼真”的水平。不过，虽然近几年视觉上愈发逼真，但物理交互层面的仿真仍需加强，这也是未来重要的研究方向。

张恒第：

肖老师刚才的分析很中肯，穆老师也提出了很高的期待。从我们产业界的实际应用来看，具身智能既取得了令人欣喜的突破，也面临着不小的挑战。模型方面，以Physical Intelligence公司的Π0、Π0.5为例，它们确实实现了在全新场景中的泛化能力。但我们在实际测试中发现，比如Π0模型，让机器人执行"拿起再放下"的动作，若此前我们采集了100笔数据，那接近于这100笔数据的动作，机器人是可以执行的，但稍微移远一点，机器人就会开始失败。即在Out-Of-Distribution（OOD，与训练数据分布不一致的数据）的场景中，具身智能的泛化成功率，还达不到产业界的预期。

硬件方面。我们帕西尼是做触觉的，做触觉的初衷是因为，我们觉得具身智能模型和AI模型有一个很大的区别：具身智能是可以实时接收新的外部数据并实时予以反馈。像ChatGPT、更早的CNN模型等都是静态的模型——给定输入－处理－输出结果。但具身智能不同，它必须以很高的频率与外界交互。那今年，在硬件上，我们有了很多的进步：数据采集频率和精度提升，触觉能感知温度、能精确判断物体是否滑落等。而这些所有的信息都会帮助我们的模型更好地在新环境中做泛化。所以从这个角度来看，我认为今年是"继续磨刀"的一年，但离真正"砍柴"已经不远了。

郝博阳：

三位老师介绍了自己对具身智能行业目前情况的理解。那接下来，我们聊聊今年具身智能最火的一个话题：具身智能技术模型。刚刚穆老师也提到，今年，端到端的模型，就是VLA模型（Vision-Language-Action Model，视觉语言动作模型），它的范式已相对成熟。并且可能已经成为最主流的模型。那它算不算是一种像Transformer一样，具有统治性的、收敛性的模型形式呢？

穆尧：

首先，VLA跟Transformer并不对等，Transformer是一个结构性的存在，VLA跟Language Model 是比较对等的。其次，现在初步确定的是，端到端的范式是非常有前景的，但具体底层的结构怎样去设计，还需很大的努力。Physical Intelligence的Π0模型，验证了VLA这样的端到端范式的可行性。但目前，模型结构的实现方式是偏拼凑的，例如国内外把做得比较好的Vison Language Model（视觉语言模型），再接上一个机器人的Action Expert。目前学界在专门为具身任务做特殊设计方面，也还没有特别大的突破。

目前来说，端到端的范式是是一个很有前景的，但是具体底层的结构怎么样去设计，还需要更进一步的努力。像张老师刚刚介绍的，有一些高频的触觉模态，像是视觉与语言的模态，尤其对语言来说是比较低频的。因此，这种不同模态之间怎样在一个良好的结构上融合在一起，仍然是我们学界在努力的方向。

郝博阳：

像Figure AI（美国人形机器人公司），他们早期模型其实是用分层的结构，现在使用的Helix模型则是一个端到端的模型，那是不是整个学界、工业界主要的方向还是要往端到端的模型发展？

穆尧：

我觉得要按任务层级来判断，分为长程任务和短程任务。短程任务，目前是希望用端到端的方式在1～2分钟内解决。但长程任务，特别是需要做一些难理解的、长推理的任务，实际上是需要一个慢系统来做思考和交互的。所以，我觉得所有任务都要分层级，特别是超长任务这样需要大脑的强有力支撑。那么对于偏短程的任务来说。其实目前大家期待它用端到端的这种方式直接能够解决。

郝博阳：

那张老师，在产业界中，怎么去处理刚才穆老师所说的系统1和系统2，快任务和慢任务的结合呢？对慢任务，我们现在是可以直接用一些深度思考的模型来解决吗？

张

恒第

：

这个问题可以分为两个部分。一个是我们期望看到什么样的系统，一个是我们真的会用什么样的系统。我们最期望能看到一个端到端系统，类似于您刚才说的Helix。Helix是有System One慢系统、System Two快系统两个系统，慢系统负责接收视觉、语言信息，然后低频输出，快系统再负责接收低频信号。同时，Helix有一个叫做Short Cut的短链接，能快速地从视觉、关节等信息里拿到快速信号，再把快速信号和慢信号揉成一个快输出，有点类似于多做少想，完成端到端的短程。

在我们具体的工程项目中，也可以应用这种模式，但现阶段，我们更多会引入一些预先编程，或者叫Rule-Based（规则主导模式）的办法，去分解最长程的思考。比如，咱工厂里有一个工位，这个工位可能会配备一个标准作业程序（SOP）。这个SOP具体怎么拆解呢？通常是这样的流程：第一步先做对应操作，然后目视检查确认是否完成，确认完成后进行第二步操作，做完后再进行检查，全部完成后就把工件流转到下一个工位。这个流程冗长而无聊。那我们去给机器示教SOP，这个SOP就会转化为VLA模型中的"L"(Language）部分。"V"(Vision）的部分，就是当机器被部署到不同的工厂场景时，它会遇到不同的工件，可能面临颜色不同、光照条件变化等情况。对此，我们通常采用的方法是先进行归一化处理，即尽量磨掉不同的地方，把丰富的信息降维。举一个简单的例子，比如我们看到一个杯子，觉得它很复杂：透明属性、杯里有水。但实际操作时，我们会把它回归成它所处的XYZ坐标及它的3个旋转，而这就是一个杯子所含的全部信息。这种务实的方法是我们的路径之一。

那第二条路径，就是大家喜闻乐见的端到端方案。实际上，第一条路径产生的结果，全部都可以转化为专家数据，用于示教我们的端到端模型。那在示教过程中，我们发现，机器人在没有触觉时，仅靠VLA模型，它确实会出现反应迟缓的情况。比如，机器去拿起一个物体，物体已经掉在桌子上，但它可能等两三秒后，才能反应过来物体掉落了，再要去抓起来，有点像反应比较迟钝的老人。而我们加入触觉信号后，发现机器人能够在一些危险时刻做出反应。比如当物体快要滑落时，机器人会采取一些抢救性的动作。由此，我们在接受VLA主流范式的基础上，增加了一个触觉（Tactile）或者说T模态，把它变成了VTLA。它本质上仍然是一个端到端模型，只是输入端增加了一个与现实世界更直接交互的感知模态，这使模型变得更加鲁棒。目前我们的做法是，通过手写代码积累专家模型的经验，再用专家模型指导VTLA形成一个端到端的动作。

郝博阳：

您说手写代码，还是那种SOP类型的代码吗？

张恒第：

对，SOP是很有必要的，它能让机器人更高效、精准地完成任务。为什么工厂会比家庭好做，因为家庭没有SOP。工厂里，机器人会针对SOP做流程性的拆解，逐一完成，但家里面，可能提出的是收好杯子，但实际还要求你把桌子擦干净。

郝博阳：

据我了解，目前在Agent领域中，因为当前Agent在处理长链路复杂任务时能力有限，仍必须使用类似SOP的标准工作流分解任务，规范其工作范畴。但这种做法在某种程度上，会限制Agent的泛化能力。这个问题，在机器人领域是不是也会很明显？

张恒第：

是的，正如您所说，SOP确实会限制机器人的想象力。

郝博阳：

那在开放空间中，机器人对任务的处理是不足的。目前，大语言模型的能力已经更加收敛，参数也更多，但在实际应用中，由于长程任务完成度有限，我们仍需构建多Agent系统，甚至采用类似React的流程化系统来处理复杂任务。与此同时，我也注意到，像Anthropic、Open AI等公司最近倾向于将基础模型本身做得更强，再赋予其工具能力，来打造全能的端到端Agent，而不是去做多Agent。那么，未来的趋势是会分系统一、系统二吗？

肖仰华：

刚才的话题，本质上可以归结为智能的实现方式。我们说人的智能，可以是端到端的直觉实现能力，类似于大脑中的系统一，它主要是通过大量训练来获得直觉响应的能力。但系统一的方式存在一个问题：成本和代价非常高昂。因为我们需要海量的数据以自监督或有监督的方式训练，才能形成对特定输入的直觉性响应。尤其是在复杂的动作序列中，输入到输出的过程会更加复杂，其训练的代价是我们当下无法接受的。理想状态下，端到端的基础模型，如果有足够的数据，应该能解决我们所有的问题。然而，这种理想状态并不现实，因为我们无法收集到足够的数据，来训练出能够处理所有可能复杂动作序列的基础模型。因此，大家退而求其次，考虑加入系统二。

人脑演化出系统二，正是因为认知容量有限，必须使用更高效、更经济的方式来处理问题。系统二将系统一积累的直觉性经验转化为更高层次、更抽象的表达方式，用来缓解系统一的高成本和代价问题。反映到当前的人工智能发展，无论是大模型Agent，还是具身智能，结合系统一和系统二的方案是经济务实的。系统一负责直觉式响应，处理短程任务，涉及更复杂的任务，比如处理物品滑落等情况，系统二就介入，进行规划和决策。

因此，无论是Agent，还是具身智能，未来依然会沿着系统一加系统二的路线发展。我们也会看到一个趋势，系统一的能力将越来越强，可能的方式是通过收集更多的模态数据、合成数据，逐步扩展自身的能力边界，逐渐减轻对系统二的依赖。但，系统二在许多任务中仍是不可或缺的，比如规则制定、SOP设计，知识库构建等工作。而从当前的落地来看，系统一较系统二也相对更经济务实。但是，我们会看到一种趋势，即系统一的能力会越来越强，但是一定还是有很多系统二是被代替不了的。因此，我们应该要写规则，SOP，或者建立知识库，他们都是不可或缺的存在。随着系统一的能力的逐步增强，可能会把更多的模态收集或者合成更多的数据。之后把系统一的边界逐步拓展，去缓解对于系统二的压力。因为系统二表达出来着知识我们是没有办法穷举的。但是从当前的趋势来看，系统一加上系统二会更加务实。

郝博阳：

那我们现在写SOP，相当于人为地将特定观点注入系统二，让机器机械地遵循这些流程。但现在做的，包括强化推理模型在内，都是希望模型能自主抽象出更复杂的系统二逻辑，以支撑更长程的任务执行。那从这个角度看，系统一的能力边界，是否在某种程度上决定了系统二的强度？

肖仰华：

这个问题其实我们也讨论过很长时间，这里可以引入杜威的理论来回应。杜威曾经把人的思维分为机械思维和反思思维。系统1，是机械思维的体现，主要用来处理常规任务。而现在基于强化学习的后期训练，实际上是在帮助我们实现自主反思，发现新的思维模式。在实际落地中，这两种思维方式都非常重要。首先，机械思维的应用场景在日常业务中占据了大部分比例，可能达到80%～90%。大多数时候，我们希望机器人或Agent按部就班地执行任务，而不是去创造或反思。工厂里，墙上第一条贴示的也是工作规范。

同时，系统二的自主反思也有适用的场景，它能应对复杂、极端的情况。正如遇到突发情况时，人类能自我反思并做出调整应对。在实际应用中，尤其是机器人落地时，我建议：它可以进行自主反思，但它的反思结果必须经过人类的确认。否则，机器自我发现的思维模式可能会带来开放性风险。因此，我们也需要辩证地看待这种联动能力。

郝博阳：

Yoshua Bengio（约书亚·本吉奥）教授近期发表的一篇文章提出，要让非自主Agent监督自主Agent，以规避风险。但目前，具身智能从系统一到系统二，在抽象规则和应变能力的自主性上是否还非常薄弱？

穆尧：

从端到端模型的发展现状看，目前具身智能模型的长思考推理能力确实不强。以GPT-4o为代表的模型，思考、生成能力都十分强。在很多长序任务思考、突发事件的处理中，这些多模态大模型已经可以很好地应对。因此，我认为，没有必要坚持要求具身智能的端到端模型，去解决所有的事情。例如，涉及长序推理与抽象的长期任务规划，可以用具备强抽象能力的语言模型或多模态大模型，如Deepseek R1等，来解决问题。

另外，关于SOP的使用问题，我认为这要根据具体需求来决定。我们人类System one的能力应该是最强的。但，比如大学生进工厂开展金工实习，第一件事就是教他们规范，第二件事要教他们流程，要有一个老师傅来教他车铣刨磨，每一步应该怎么做，而不是让学生自主探索车刀、铣床怎么用。因此，我认为，强化学习是最接近于具身智能概念的一种学习范式。具身智能最初的定义，就是通过具身与物理世界的交互来学习知识，类似于我们人类在日常场景中的学习方式。在工厂的规范环境中，强化学习侧重解决短期任务，比如键轴的装配。通过强化学习，能够对这类任务做到精准控制。就像工人进工厂时，从生疏到熟练上岗的成长过程。

郝博阳：

刚才穆老师提到的几点，包括数据采集、端到端模型以及数据拟真，都是目前具身智能产业界的共识与未来可能的重点发展方向。我还想请教各位老师，在此之外，是否还存在一些尚未被充分重视，但可能同样重要的、值得关注的方向？

张恒第：

我接着穆老师刚才的观点谈谈强化学习。当前主流大模型领域已经证明，强化学习能够自主探索并获取新知识，这一点在具身智能中也得到复现。复现哪一部分呢？就要回到刚才提到的要不要有SOP的问题。SOP的作用是将人类的先验知识灌输给模型，这一点是非常必要的。可以理解为，原本应该是AI在工厂工作，人类做文艺创作，现在“倒反天罡”了。因此，我们可以通过强化学习将SOP转化为机器可执行的内在约束条件，通过引入惩罚函数和奖励函数，给机器人设定任务目标。比如完成某个任务加分，失败则扣分。在这种持续训练中，逐步将SOP转化为机器自身动作的限制条件。这些约束条件可以和没有思考能力的强制性Agent一起工作。一般在工业系统中，会使用安全层。安全层的作用是，无论系统如何发挥，一旦动作违背安全规定，系统就会立即停止并返回重试。这样，可以保证机器人按照预定的安全框架执行任务。

不过，目前还存在一个问题：我们是否能在真实世界中进行强化学习？现下我们在仿真器中做强化学习，可以获得非常好的视觉效果，可以低成本地做成千上万次实验。然而，仿真器中的实验和现实世界还是有很大的差距。仿真器很难真实再现，比如力度感知、温度感知、物体破损等现实情况。这些在现实世界是司空见惯的情况，比如酒店里会不断打碎杯子，在仿真器中却不会得到模拟。我们也在思考：能否建立一个结合安全限制的系统，使其能够在现实世界中进行高效率地强化学习？由于现实进行强化学习的成本要远高于仿真器，这要求强化学习系统每一次都要采样高价值点。

郝博阳：

在Richard Sutton（被称为“强化学习之父”）最近的新演讲中，他谈到“经验的时代”观点。他指出，在这个时代，机器人不应该仅仅依赖人类语言来学习，而应该让它通过经验，依靠强化学习的方式来不断扩展自己的边界，而不是仅仅局限于人类为它设定的规则边界内。这个观念似乎和我们现在讨论的方向有些契合，肖老师，您觉得呢？

肖仰华：

本质上，这涉及学习机制和范式的问题。人类的学习，大致可以分成两类：先验知识的学习和实践性学习。由老师傅或学校教育，本质是学习人类已经积累的先验知识。而去实践中碰南墙探路，则是实践性学习。虽然，可以仅用强化学习的方式去获取知识，但完全依赖它，可能会忽略掉现有的先验知识，而那些知识本身可以为我们提供一个快速的起点。就像训练强化学习算法时，会特别重视"Quick Start"，不能让模型”冷启动“（cold start）），而是要让它“热启动”（warm up）。因此，在我看来，这两类学习范式，其实并不冲突，而是互补的。不管是具身智能抑或非具身的AI，都是既要继承，也要去试错。

郝博阳：

按我之前的理解，VLM（Visual Language Models，视觉语言模型），它是处于比较高的层级，是介于系统1和系统2之间的。像之前的Figure模型中，还存在一个基本的机械控制层，那这部分的模型更简单、机械化。那现在，这部分的模型，是不是在一定程度上会被融入进VLA中，因为它最终都是要转化成Action。还是说，会被继续保留，那这个控制层目前的成熟度如何？

穆尧：

其实，具身智能是大模型发展起来后，和传统机械发生巨大碰撞后诞生的新学科。您刚提到的这些底层控制（Low-Level Control），具身智能目前已经做得非常好了，可以实现极高的控制频率。比如Figure展现的控制频率能达到200赫兹，但它大小脑的原始输出大概在10至20赫兹，那么它是通过底层模型输出一些偏上层的指令来实现控制频率扩展的，比如末端的位姿（End-Effector Pose）或者电机关节角等。至于底层模型的控制实现，比如电机电流、电压、扭矩这些参数的具体调节，是依靠传统的机械动力学模块来完成的。而这部分模块是偏成熟的，并且在工业界得到广泛的验证，因此，底层控制部分其实不太会整合进前面的VLM层。因为，如果要实现非常低的底层控制（Low-Level Control），不仅要适配不同的本体，还要适配不同本体的不同电机。以宇树科技为例，它的机器狗有若干个型号，每个型号的电机都是不一样的，若要适配到电机层，模型会很难做到统一与通用，而且也没有必要。

郝博阳：

虽然电机层面可以做差异化处理，但在训练VLA的过程中，还是要面临机器人拥有千面样态的可能，我们的机器人可能有3指、4指或5指的手部设计。这种多样性可能导致数据采集变得非常困难。在训练模型的时候，由于采集的是不同类型的数据，也很难统一到一个整体模型中。那现在是不是已经存在这样的问题？我们能否通过您刚才提到的方式：在电机层面进行拆解，然后将VLA提升至更抽象的层次进行处理？

穆尧

：

是的，我们需要在整个机器人的生态社区中，构建一个中间层接口。Action不需要直接传输到最底层，而是传输到中间层。然后使用现成的工具直接输出，从中间层的Action到最底层（Low Level）的电机机流等控制。这样的话，可以在较大程度上促进不同数据的通用化。

郝博阳：

这听起来有点像MCP（Message Control Protocol），模型的接口和规则都已经规范好了，我只需要利用规则指令去调动。

穆尧：

是的，所以目前正在推“具身智能操作系统”的概念，就是要把这些接口规范化。不过，虽然学界已经在推动这件事，但需要业界的配合，而业界往往希望经营自己的生态，但整个行业的繁荣，其实是需要去建立标准体系的。

郝博阳：

今年早些时候与清华苏航老师交流时，他提到产业界具身智能投资热可能带来了一些小问题，一方面它确实让产业获得较好的发展，但另一方面也可能会让产业过早地去在数据或模型等方面制造壁垒，反而限制产业发展。那从工业界的角度，张老师您怎么看？

张恒第：

这个问题特别关键。在我看来，每个成立的公司，都是有其独特价值的，比如我们公司做触觉，其他公司做三维视觉，那这样的企业是有亮点、有壁垒的。在业务有壁垒的情况下，企业愿意公开数据，让大家意识到数据的作用，这对它们也有好处。但有些企业，比如只做本体，只做装配，在缺乏壁垒的情况下，它们是希望建立壁垒，比如自己的SDK、规则体系，甚至是穆老师提到的模型操作系统。那这些企业肯定希望大家来适配它的体系。

那我认为，在模型层面，一定会发生分层，接口也一定会出现，然后大家都会采用。在数据层面，像我们公司会采集包括触觉信号、视觉信号、关节扭矩等全模态的数据。涉及下游垂直领域具体应用的客户数据无法开源，但其他数据我们是愿意开源的。因为一旦开源，会有更好的模型制作方、研究所老师，他们会把这些数据发挥到极致。这样的话，我觉得不仅能促进整个行业的发展，也能体现我们公司作为上游模态的价值。

郝博阳：

您想分享的VTLA数据，相比VLA，多加了一个触觉模态。那么，大家要怎么理解模态？在具身智能领域，模态有什么不一样的地方，跟语言模型、Agent的模型相比？以及我们目前还缺少什么样的模态？

张恒第：

从物理角度说，要描述一个系统的状态，那我希望知道它所有的数据。拉格朗日曾说过，你只要把地球的全部状态给我，我可以一直给你模拟，模拟到世界毁灭，所有发生的事情全都知道。但是，人类无法看到每个原子的运动状态，只能获取部分信息，如宏观的颜色、物体类型等。所谓模态，就是我们从不同角度或维度去观测和描述一个系统状态的方式。当然，这个角度是抽象意义上的角度，而不是具体的视角。比如从力学的角度，得到它的触感；从统计物理的角度，得到它的温度；用短波长电磁波，得到它的散射颜色。这些不同模态的信息，共同反映了我们关心的体系真实状态的部分情况。当获取的信息足够多时，我们就可以预测这个系统下一步会发生什么。多模态要做的，就是帮助我们补齐更多信息，让这些信息全面地描述这个系统未来到底会发生什么。如果缺乏一个模态，预测失败的概率会更高，所以，当我们提多模态时，一定意味着，我们希望拥有对未来更强的预测能力。

触觉，是具身模型完成任务非常重要的维度。从力学角度来看，让你预测未来发生什么，靠当前的一张照片是不够的。比如现在有一张网球悬空的照片，你是无法判断球下一帧是要往上，还是往下。但是拍击时，你知道了这个球当前受到怎样的力，你就能预测球下一刻的方向。触感信息，就是用来补充这个状态量的，补充完成再去预测未来就能得到更好的效果，由此也能更好地服务于具身智能。现阶段，在具身智能领域，大家对力的模态关注最多，未来肯定也会去关心其他新的模态。

郝博阳：

人类有五感，但我们通过触觉掌握力时，获得的是一个模糊的信息量，因为我们并不需要非常精确地处理它。那对具身智能而言，它获得的关于这个世界的信息应该远比我们人类丰富。若以后的机器人具备认知能力，它理解的世界可能与我们人类不一致？而且，单从模态角度看，若具身智能可以像人类一样工作，其实它能做的事情远超人类？

肖仰华：

是的。机器获得的感知能力与认知能力，是可以远远超过人类的。因为机器可感知的信号种类，远超人类五感，比如声、光、电、磁等各种信号均可采集。与机器相比，人可达到的边界是十分有限的。从这个意义来讲，机器对世界的建模，可能更接近世界的本源和真相。建模是一种理解世界的方式，如果能准确建模，还原现象，其实也是理解了世界。现在很多大模型，例如Sora等，已经能对物理现象进行非常逼真的建模，那某种程度上，就表明它理解了这个世界的复杂规律。由于它庞大的训练数据量，丰富的模态，它对世界的建模与理解能力可以远超人类，并且更接近世界本源真相。这也是为什么现在大家大力推动AI For Science。AI何以For Science Discovery？就是因为AI对世界的建模，能够超越我们原先的方式，让我们有可能做出新的发现。

郝博阳：

我们起先都以为，是用机器人的方式，造一个人来替代人类工作。现在看来，我们是要造一个超人？

肖仰华：

其实具身智能要看是什么“身”，这个“身”未必就是人形。它可以是动物的身形，也可以是我们完全想象的身形，只要有利于解决某个场景的工作，它就可能具备什么样的身体。因此，具身智能身体的定义，是广义的，绝不仅限于我们人类的身体。

郝博阳：

那穆老师，关于具身智能的算法，现在的共识是要往VLA方向发展吗？它后续，会像ChatGPT出来后，进入快速迭代的时间段吗？

穆尧：

在具身智能领域，目前大家形成共识的是Vision Language Action（VLA）范式，而具体的构架仍是各有各家。以Vision为例，有用2D的图像输入，像Physic Intellengence的Π0，也有用3D输入的，像李飞飞老师他们做空间智能强调3D感知能力。我个人现在也在做3D，甚至在探索4D语义流的能力。以上这些都可以归到Vision Language Action的范式之中，只是Vision具体怎么用是不一样的。就像我们刚才讨论的多种模态，其实触觉是完全可以用视觉模态来呈现，比如GelSight等触觉传感器已经比较成熟了。另外，一些我们人类没有用到，但对机器可能非常有用的模态，比如红外成像、感知温度等，这些也都可以归到Vision Language Action的范式中。所以，大家就范式达成了共识，架构则在非常快速地迭代：怎样去增强3D感知能力，比如是用2D多种视图的输入还是直接3D表征的视觉输入、不同模态间怎样更好地融合在一起等等。目前，国内国外的学术界和工业界，对模型结构都在爆发式地做研究。从结构来说，还有一个很好的前沿方向就是，VLA如何与世界模型结合。关于这个课题，还处在一个百家争鸣的状态。

郝博阳：

您刚才提到，大家正在探索怎样将多模态融合进整体的VLA模型，并且还处于百家争鸣的状态。那LA，从Language（语言）到Action（动作）这部分，是不是相对来说，有了更明确的处理框架？

穆尧：

在Action方面，大家也还在探索，目前有两条主流的路线：一条是纯自回归的路线，它的视觉、语言、动作都是以自回归的方式呈现。另一条是基于Diffusion的生成式模型路线。这两条路线各有千秋：纯自回归的方式，足够的简洁，足够的美，而Diffusion方式的生产能力会更强。其实，不只是在具身界，在语言模型界，目前一个很热的方向就是用Diffusion来生成语言，学术界也是个轮回。国内学者如李崇轩老师等在这方面就做出了很好的工作。不过，当前两种范式，尚未呈现谁有绝对的碾压优势，所以还是百家争鸣。

语言，更多是帮助视觉去锁定一些任务相关的特征。目前主流的视觉语言模型侧重理解任务，比如拍一张照片提问，它基于图片给出回答。由于拥有海量的训练数据，这类模型很强大。大家就天然会接入此类模型，再添加一个动作头，去做具身的模型。不过，这种方式对具身是否足够好，目前也是存疑的。学术界有些讨论认为，反而是相对简单的方式，效果可能会更好，而且参数量更小。因此，在具身的场景下，怎样实现Vision和Language的有效融合，以及最终动作的生成方式，都还在做探究和演进的。

郝博阳：

那它远没有到当年，大家就按照自回归模型这条路不断升级的状态。目前，大家还在多种可能性中探究最优解？

穆尧：

类比语言模型，它有GPT Two时刻，然后再GPT Three时刻、 GPT Four时刻。GPT Two到 GPT Three，就奠定了其结构的地位，大家会基于它去做研究探索，甚至其他结构的拥簇也转过来。而具身智能现在还处于GPT-2之前的阶段，学术界的研究路径有归一化倾向，但是在逐渐收敛，而没有绝对收敛。

郝博阳

：

那世界模型，在一定程度上，是不是Vison处理路径的一种替代，比起我们目前用的谷歌、Open AI这样的视觉理解模型。或者说，Open AI这样的视觉理解模型本身就是世界模型的一种？

穆尧：

图像生成和视频生成确实可以视为世界模型的一种支撑技术，但是，严格的世界模型的定义，是要根据当前的执行动作，预测其未来产生的影响。从这个角度说，目前没有特别好的模型，能够对机器人做了什么动作，会产生什么影响，做出特别好的推测。当下一些主流的视觉生成模型效果不错，但我们去生成一个机器人打开抽屉，会发现机器人的手都还没碰到抽屉，抽屉就自己弹开，甚至脱落了。因此，在物理规律的一致性，以及Action Condition上，现有技术还有很长的路要走。不过从学术观点来看，这个方向是非常具有前景的，只是现在做得不够好，可能是具身的数据规模还不够大。如果我们能有一个非常强大的基于神经网络数据驱动的世界模型，再结合强化学习的能力，其实很有希望让机器人在操作能力上最终超越人类。当前，机器人在仿真器里的仿真效果在逐渐突破，但仍面临挑战，比如要它仿真叠里三层外三层的防寒服，是非常困难的。但如果用视频生成模型，反而能达到较好的生成效果。因此，学界非常期待通过生成式世界模型的技术，来覆盖掉这部分难以仿真的内容，再结合如基于强化学习的技术，去构建一个更强大的操作模型。

郝博阳：

那世界生成模型，与英伟达的Cosmos有什么不同？英伟达的Cosmos，也是在一个仿真世界中，试图去仿真世界的物理效果，再将其应用成我们预测未来世界发展的可能性基础。

穆尧：

目前英伟达底层的物理引擎是基于PhysicsX的，然后他们逐渐在往MuJoCo上迁移。但物理引擎都是人编写代码开发的，必然存在局限性。而我们对生成式世界模型的期待，是能够真正用数据驱动的方式，替代这些原始的代码和规则，获得更好的效果。

郝博阳：

这两个方向，都是数据的问题。英伟达做Cosmos，是因为数据不够，要用仿真模式尽量去提供更多的数据。那英伟达基于PhysicsX做的Cosmos系统，和人工采集的这些数据间，差距大概有多大？若真正应用去完成任务，它的成功率有多高？

穆尧：

差别多大，要分具体的任务和场景。最简单的是刚体，仿真与现实差别并不大。像英伟达，它在刚体上的视觉渲染和物理水平已经非常高。如果增加了参数辨识，那困难的是柔性体、流体，以及螺纹等非常精细的、触点密集的对象。当下，具身智能模型还在逐步发展，没有必要一口吃个胖子，把现在刚体的任务都真正解决掉，就可以产生很大的商业价值。例如，能以人的效率，快速分解一些奇形怪状的零件时，就可以完成商业逻辑。

郝博阳：

据我了解，帕西尼现在采取的是全人工采集数据模式。那张老师，你们在训练的过程中，有感觉到什么问题存在吗？甚至说，像英伟达以及目前所有的仿真数据，是否存在什么问题？

张恒第：

首先，我认为英伟达的Cosmos，实际是个生成模型。英伟达还有另外一套基于Isaac的机器人仿真与学习框架，Isaac底层调用的是PhysicsX物理引擎。此外，英伟达即将推出一个叫Newton的新框架，这个框架将支持MuJoCo。事实上，仿真内部存在两条路线：一条走纯仿真，手写的物理规则，演绎世界发展的世界模型。另一条，纯数据驱动生成的世界模型。从英伟达的部署可以看出，仿真路线的争论在其内部并没有结束。我们与英伟达的合作是基于Isaac展开的，我们将自主研发的触觉仿真器整合进Isaac框架。这样一来，其他机器人用户就可以下载这个包含触觉功能的传感器，操控机器人进行交互，采集相应的触觉数据。这个合作很有价值，我们也为此提供了很多技术支持。

不过，至少现阶段，所有的仿真数据和真实世界数据之间，仍旧存在难以弥合的鸿沟。刚才穆老师提到一个特别重要的词——参数辨识。简单来说，参数辨识就是在真实世界进行仿真以获取对应信息。例如当我用手触摸杯子时，知道了它的摩擦系数，将这些摩擦力信息输入仿真器，即可按照此摩擦系数进行仿真，并达到真实情况的八九成准确度。但是，每件事情都这样干一遍，是非常累的。因此，我们认为，真实数据的采集是很有必要的。那真实采集也有几个不同的流派。最常见的是遥操作（Teloperation），即操作者通过VR头盔或1:1还原的人形机械臂等进行动作示范，机器人跟随执行。但这种方法存在一个缺陷：它难以精确复现人类的发力方式。一开始的具身智能系统，特指人形机器人。为什么？因为人形机器人可以适应人类生活环境，那在人类生活环境中，操作的最好方式就是用人的发力方式。但现有技术（如VR设备）虽然能复制动作，却无法复制人的感觉特征。基于此，我们更换了方式，利用大量的手套设备，让人去采集比较精准的力道数据，再把数据数字化，传给机器人。在这个过程中，我们又产生一些新问题。比如，机器人在学习这些数据时，它看到的是人手的操作，而不是机器人自己的，这又可能带来传输上的问题，而这也是我们正在着力解决的。但，总体而言，在技术条件限制的前提下，我们认为要有包括动作、力道等真实数据的采集。仿真也应有基于物理的仿真、基于数据的仿真。要从各个角度把机器人可能会遇到的场景铺开，这样可能会得到一个综合性的、比较好的结果。当然，现阶段，我们的仿真器主要还是仿刚体。

肖仰华：

数据，对于人工智能或者具身智能，都是发展最核心的瓶颈，本质上的限制就在于数据不完备、数据不全面。如果有足量数据，什么样的智能，我们都可以去复现。刚才提到的两类模型：一个是世界模型，其核心目标是使机器具备生成复杂世界的能力。一个是具身大模型，它旨在让AI与复杂物理世界进行自然交互。而这两个阶段是递进的：我们首先要有对复杂世界的认知，能够生成这个世界，才有可能进一步学会跟复杂世界进行合理的交互。理论上，只要有足量的数据，我们有办法训练大模型生成复杂世界。有足量的跟复杂世界的交互数据，我们也有办法训练出具身模型，让它学会如何与物理世界交互。但，要在复杂世界的基础之上，学会与复杂世界的复杂交互，这相当于是平方级的难度，对数据的要求十分高。

弄清楚数据的情况后，可能就会发现，我们当前的技术路线可能是有问题的。现在整个技术路线，基本上是在多模态模型成熟后，再去加上Action，去做VLA的交互模型。回顾发展历程，语言模型、图像模型、视频模型成功让机器人说话、看世界，是得益于互联网积累的海量文本、图像和视频数据。本质上，这样的具身路线，不是一种交互原生的技术路线，它是先有大脑的能力，再在大脑能力的加持下，让机器学会与世界交互。这样的路线，它缺少世界模型和交互的部分。我认为，将来世界模型成熟后，或可让机器在虚拟世界（仿真采集），或者真实世界（真机采集）去交互，再利用这两类数据来产生交互原生的大模型。而不是像今天这样，先用语言的、视觉的模型，再加上Action来训练。

我们应慎重对待这种可能性，因为往往突破性技术，都存在于现在无人问津，但实际更接近技术本质的路线中。今天AI的大量成功，它所需的数据得益于互联网的蓬勃发展，没有各类社交媒体平台和网站，我们不可能有今天的视觉、语言模型。但最初这些平台建立，并不是为了训练AI。今天AI的成功，有点像“无心插柳柳成荫式”的情况：本来，是为了让大家娱乐，不小心积累了海量数据，结果现在训练出来AI。类似地，当前具身智能的发展可能正面临同样的频率。我们为了发展具身形态，拼命为具身标数据、收集数据的路线，恰恰可能是最不现实的路径。最现实的路径，可能还没有出现。而很有可能的是，未来具身要想蓬勃发展，需要依赖各式消费级穿戴设备的普及和应用。人们带着大量的穿戴设备，我们一不小心采集了大量的具身数据，而这些海量的数据，成就了未来的具身产业。

郝博阳：

当前，整体业界的核心路径，还是从视频这样的数据中，抽取包括动作在内的可用数据？这种方法在实际应用中遇到的主要问题是什么？

穆尧：

伯克利Jitendra Malik教授认为，目前的AI，特别是具身智能的发展，应当重点挖掘互联网视频中蕴含的人类数据。他提到一个观点：人类的学习，是模仿的过程。而机器人的示教，是每看到一个视频，哪个关节转多少度，都记录下来教给它。但大人教孩子说话时，不会教孩子这个声带应该怎么震动。孩子会通过观察父母行为，凭借内在学习机制模仿习得。因此，互联网数据是挖掘具身能力非常重要的方向。目前尚未被利用起来主要有两点原因。第一，不是所有的互联网数据，都对具身有用。我们需要从海量数据中筛选出真正对具身有意义的数据。比如，我们现在访谈的视频，对具身来说，它是一个长达几个小时的视频，但视频内容对具身的意义不大。乃至说利用Ego4D数据集也需清洗。我个人的科研，就对它做了长达两个月的清洗，才能说挖掘出来有用的数据。

第三，互联网视频数据虽然丰富，但并没有明确的动作标签（Label）。这些视频只是记录了人类在做各种事情的过程，而且是纯2D的视角，缺乏多视角信息，这给动作理解带来了困难。学界也在研发一些方案来利用这类数据。英伟达有个方案是，利用AI技术从互联网数据中推理出隐藏层的动作特征，生成伪动作标签（Pseudo-action labels）。同时，英伟达把这类数据与真机的遥操作数据，生成伪动作标签和真实动作标签的训练集，放到一起训练，实现效果提升。国内方面，例如Pieter Abbel教授团队，他们提出，互联网视频中推测出的动作往往是比较高级别的，会是技能级别的动作标签，而技能级别的动作标签对Action的压缩非常重要，因为它足够通用。但是，技能的具体执行方式在不同机器人上需要进行调整。因此，他们就提供了一种思路：可以融合不同机器人数据、互联网人类视频数据进行训练，作为前置的Foundation。具体到机器人的执行层，再用更Low-Level的模型去适配。这里也回应了之前提及的中间件。刚才中间件，是说如何从末端位姿或关节状态（Joint State），映射到具体电机的执行。对于具身，我们可以利用互联网视频构建一个更高层级的，特征层面的中间件，再由更专用的模型完成从中间件到如End Effector（末端执行器）的链接。这样设计的好处是，随着中间件的抽象层级变得足够通用，我们就能更充分地挖掘和利用来自不同来源的数据。

郝博阳：

刚才我们已经深入讨论了技术和数据层面的问题，在深入讨论具体产业问题之前，我想先提出一个更宏观的议题：目前业界普遍将具身智能视为AI的一个分支，认为它是AI驱动的新一轮产业革命浪潮的一部分。但具身智能是否能够独立于AI，形成自己的革命性影响？换句话说，它是否不仅仅是AI在物理世界的一种延伸，而是能够像AI一样，本身就催生全新的工业革命浪潮？肖老师，您如何看待这个问题？

肖仰华：

判断一种技术是否构成真正的技术革命，我们可以从几个关键维度来考量：首先，它是否具备基础性技术的特征？能否像水电煤那样成为社会基础设施？显然，AI正在朝着这个方向发展，未来将成为无处不在的底层支撑。其次，它对生产效率的提升是否具有革命性影响？这一点也已经得到验证——比如AI可以在几分钟内批改数万份试卷，这种效率提升是前所未有的。再者，它对社会上层建筑的影响如何？AI显然将对我们的伦理观念和社会形态产生革命性的影响。从以上角度看，人工智能无疑代表了一场新的技术革命。但具体到具身智能这个领域，我认为它是否能引发新的革命，是值得商榷的。从本质上说，具身智能的核心是让AI拥有物理实体，使其能够与现实世界进行交互。当前AI发展另一个重要方向，是赋予AI"人类大脑"（比如大模型技术）。我个人认为，发展"有脑子"的AI，其对社会的深远影响可能会超过"有身体"的AI。

为什么这么说？因为人形机器人再先进，其核心价值仍然停留在替代人类完成体力劳动的层面。这种生产力提升的效果，可能还比不上一些更基础的人口政策。比如通过生育激励政策实现人口增长，本质上也是在增加劳动力供给。在人类社会发展早期，人口增长的主要驱动力正是为了培养更多劳动力。假设今天，我们部署了几十亿台人形机器人，其带来的生产力提升效果，可能也就相当于人口翻倍的效果。虽然大家可能会说，机器可以7x24，但机器毕竟同样会面临宕机、需要维修等问题。因此，从生产力提升的意义角度看，"有脑子"的AI能够在决策优化、效率提升等方面产生更为深远的影响。

实际上，身体对智能而言既是一种赋能，同时也是一种限制。以人类自身为例——拥有身体意味着什么？意味着我们的行动范围存在天然边界。同样的道理，当我们给AI赋予物理身体时，实际上也设定了它的行动边界。机器可以移动，但它的活动范围终究是被物理形态所约束的。而"有脑子"的AI不同，人类的思想之所以强大，正是因为它不受物理边界的限制，思想可以自由驰骋，是没有边界的。当然，这种自由既带来了巨大的创造力，也蕴含着潜在的风险。从这个意义上讲，我认为"有脑子"的AI，特别是大模型所展现的能力，可能代表着一场更为深刻的革命。相比之下，具身智能可能还需要时间的验证。

郝博阳

：

那两位专门做“有身体”AI的老师，对此有什么想法吗？

张恒第：

我很赞同肖老师的观点。不过，在认同之外，我还有一个延伸的思考。我认为具身智能未来不是要独立出来与AI并重，而更像是AI发展衍生出的"卫星城"，当它发展到足够成熟时，会去反哺AI。从终极价值来看，具身智能的核心意义在于大幅提升人类生产力，就像马斯克设想的那样，未来一个人可以配备多台机器人助手。从人类幸福的角度看，这种解放具有重大意义；而从整体人类能力提升的角度看，它也许就是生育的作用。不过，从另一个视角看，我个人认为现在的AI并没有我们想象得那么聪明，不要说超越人类的ASI（超级人工智能），光是实现AGI（通用人工智能）都觉得困难重重。这些困难主要来自几个方面：首先，现有AI的架构与人类的生物大脑比，还是过于简陋——这是核心的制约因素。其次，当前AI系统本质上是静态的：训练时大量"投喂"数据，使用时被动激活运行，不使用时就处于休眠状态。但具身智能不一样，它更像是"活的AI"。未来真正的具身智能AI可能不会依赖外部记忆更新，而是像人类大脑一样，能够实时自我调整权重参数。

人在夜间睡眠时，伴随着阿尔法波的活动，大脑的神经连接就会开始重构，第二天醒来，人的技能就变强了。这种神经可塑性，在人类身上是真实存在的生理现象。就当前的AI中，我们尚未观察到这样的动态进化能力。但我认为，未来具身智能的发展必须有这样的过程，然后整个AI领域会感知到，进而再把放出去的、发展壮大的卫星城收回来，让自己变得更强。因此，具身智能和AI是相辅相成的，具身智能的上限并不只是生产力像人口翻几倍，而是会深刻地改变AI本身。在这个过程中，具身智能产业产生的果实，也会对社会产生直接有用的影响。

穆尧：

关于具身智能，虽然有学者乐观地将其视为一场新的工业革命，但我更倾向于将其定义为像手机一样的"下一代大众智能消费品"。回顾AI的发展历程就会发现，正是电脑和手机等终端设备广泛普及，才有今天AI无处不在的基础。正如肖老师刚才表达的，我们需要先建立终端设备的基础生态，才能期待更高级的智能形态出现。但是，目前市场对具身智能抱有的期待过高，很多人认为必须达到月嫂或家庭保姆的智能水平才值得购买。实际上，像扫地机器人、割草机等简单智能设备已经在市场上获得了成功。那具身智能的落地与变革，是可以渐进式开展。我个人特别看好一个具体的应用场景：在现有扫地机器人的基础上配备其他操作能力，比如增加简单的操作臂功能。实际上，这个方向对AI是强要求的。因为消费级产品必须控制成本，足够廉价才能规模化。那廉价的机械臂会存在定位精度不足的问题，这就必定需要一个端到端模型来进行实时反馈与调整。同时，设备产品功能难度也不大，就是完成一些简易动作，例如，完成捡拾地上废纸、衣物等简单家务，但这样就能给生活带来便利。如果产品的价格增幅控制在几百元以内，那产品的消费力度会提高。这对整个具身智能产业，会是一个良性促进的作用。一些简单的机器人，进入家庭，开始积累数据，逐渐产生规模效应，再对整个社会产生更大的便利性迭代。就像手机从大哥大发展到折叠屏一样。只有先引进智能机器进入千家万户，才能有足够的积累，最终实现更高级的应用场景。

郝博阳：

三位老师刚才的讨论很有启发性，老师们提出的可能性，从近期到中期再到远期，都是合理存在的，只是大家对这个技术发展节奏的预期存在差异。之所以现在部分公众对具身智能的期待如此大，很大程度上是因为我们不断看到马斯克、Figure等展示的炫酷演示。这些展示给人一种"明天就能走进千家万户"的错觉。但近期像晚点等媒体的报道揭示了这样的问题：这些产品的实际操作效率远没有看起来那么高。那就让人想问，这些炫酷的Showcase与其实际的任务完成能力之间到底存在多大差距？

张恒第：

郝博阳：

之前有报道说，Figure 2只是在工厂做实验，并没有真正地在生产线上工作。

张恒第：

对的。从另一个方面来说，具身智能的硬件本体具备支撑高强度、高节拍工作的潜力，只是看控制水平如何。艺高人胆大，现在的艺，还没高到那样的程度。但是，Rull-based这条路线，我们基本上可以做到有落地的可能性。从这个角度看，我们也不用灰心。有了落地的场景，可以先挤进去获取真实的数据，为训练更强大的端到端模型积累“燃料”。

郝博阳：

抛开算力限制不谈，仅就现阶段掌握的数据去训练一个最大的模型，那它能做到在自由环境中泛化吗？换句话说，以当前产业界和学术界的研究进展，家用机器人能在多大范围内实现自主操作？

张恒第：

现在有很多公司，会让机器人去叠衣服。但是，我们自己尝试后，发现让它叠衣服基本是不行的。所以，成功率是一个很大的问题。在Demo的时候，因为旁边条件是可控的，它会稍微简单一点，但真正场景中，就会有偏差。可能未来加入新的模态，这个问题是可以解决的。

肖仰华：

泛化是一个很深刻的问题。我认为，具身智能产业的发展逻辑与通用大模型（如文本大模型）的发展路径存在本质区别。AI的发展遵循人类发展"先通用后专业"的路径，人类必须先接受基础教育培养通识能力，才能在不同领域发展专业技能。因此，我们对大模型的基本要求就是一定要具备跨行业的广泛认知能力。但，具身是以让AI学会人类身体感知和行动为目的，而人类身体机能的发展，很少有先发展出什么身体的基本能力，再去发展专业的某种能力。人身体的能力是与生俱来的，到一定阶段，你就能走能跳。所以，人身体机能的训练和培养，更多是在具体任务中，但我们也很少要求这个人既要是跳水冠军，又要是网球冠军，能做好其中之一就可以了。

因此，对于具身智能的发展，我们只需要它在特定任务和场景中表现出色，比如扫地机器人，只要能把各种户型的地扫干净就足够了，没必要要求它还能叠被子。具身智能产业的发展路径应该与通用AI有所区别，它应该聚焦于专业化、场景化的应用，创造针对特定任务的专业机器人。同时，我们也可以利用大模型（特别是语言模型）强大的认知能力，来拓展这些专业机器人的知识边界和任务执行能力。就像刚才穆老师提到的，在保持扫地机器人核心功能不变的前提下，稍微让它多干一点活，但不能指望一个具身机器人既能聊天陪伴，又能扶老携幼。具身智能的发展路径应该是专业化、场景化、细分化，未来再考虑是否要多任务处理或跨场景迁移。

郝博阳：

那目前，实际落地的多场景迁移是难以做到的。

张恒第：

单场景内泛化是有一定可能性的。多任务我可以换一个模型，没有必要让一个模型全都做。

郝博阳：

那目前，整体的泛化水平还处在一个比较初级的阶段，这主要是因为模型的数据量少、模型参数少，还是其他的原因？

肖仰华：

我认为这不仅仅是技术层面的问题。正如我刚才所说，如果我们期待开发一个能完成所有任务的通用型机器人，这本身就不符合人类能力发展的基本规律。就像人类一样，我们只需要在某个特定领域做到精通就足够了，比如把网球打好，并不需要成为十项全能运动员。虽然确实存在全能型人才，但那毕竟是少数特例。从产业逻辑上，追求"全能型"的思路可能也有问题。

郝博阳：

按我的理解，产业逻辑可能会专注做一件事情，但单纯从技术逻辑上，它不能实现泛化的主要原因是什么呢？

穆尧：

主要是两个原因。第一，数据匮乏的瓶颈。真正具备多样化特征的高质量数据依然严重匮乏。第二，数据质量评估与利用效率的问题。这实际上也是学界目前尚未充分研究的空白领域。虽然数据总量不少，比如各素材厂商宣称每天能采集数万条数据，但其实真正能有效提升模型性能和泛化能力的可能只有几百条。当前我们尚未建立明确的标准来判断：什么样的数据能有效提升模型性能？

郝博阳：

以GPT-3为例，它需要数TB量级的海量数据才能达到相应的性能水平。那么类比到具身智能领域，如果我们期望模型具备良好的泛化能力，从数据规模和参数量的角度来看，大概需要多大的数据量和模型规模才能实现类似的效果？

肖

仰华

：

要讨论具身智能所需的数据规模，我们可以先看看当前泛化性最好的大模型——语言模型的发展情况。以GPT系列为例，一个常规大模型基本需要百亿到千亿Token规模的训练，最大的模型甚至已经突破万亿规模。对比来看，如果换算成VLA TOKEN，具身智能大模型大概是在数百亿的训练量级，与语言模型的数万亿Token相比，相差2～3个数量级。但，即便我们追平语言模型的数据规模，具身智能的泛化问题可能仍然难以完全解决。因为，具身智能需要处理与物理世界的复杂交互，这种交互维度远比纯文本交互更为复杂，它涉及更丰富的多维信息。从这个意义讲，具身领域的数据缺口仍旧是巨大的，这也是当前"基础模型+微调"范式，在具身智能领域泛化效果有限的根本原因。

郝博阳：

讨论完产业落地问题后，让我们把视角拉得更远一些，思考具身智能可能带来的社会影响。前两天Anthropic的CEO预测，到2026年或2027年，AI可能全面取代白领工作。我个人认为，具身智能若持续发展，除了白领工作外，可能最终会基本取代包括物理、服务类、情感类等人类的工作。在这样的情况下，具身智能的发展对社会经济形态会有怎样的影响？

肖仰华：

随着人工智能和具身智能的发展，对我们整个人类文明的根基是带来强烈冲击的。从经济学来看，整个经济社会的运转建立在人类需要通过交换来满足自身需求的基础上，因为个人无法完全自给自足，必须依赖他人提供的商品或服务。但从现实来看，经济学、社会学、人类人文等上层建筑的前提基础，都将受到人工智能浪潮的冲击。在AI和具身技术的推动下，如果未来我们拥有无穷的机器人来提供生产和服务，人类可能不再面临传统的资源短缺问题，而是进入一个生产力极大提升，以至于各种物质和精神需求都能得到极大满足的阶段。甚至人类完全可以自给自足，采购成千上万的机器人来满足自身所有需求。这种情况下，经济学的各种现象与问题还会存在吗？我们还需要去做物质上的交换吗？故而，人工智能的发展实际上是从根基层面挑战人类文明。这就要求我们寻求人的意义，重新梳理人类社会的价值体系，才能回应它带来的挑战。

郝博阳：

之前，浙江大学有研究发现，当人类使用AI完成任务时，虽然效率提高了，但反而会感到更强的疲惫感和挫折感，人在任务完成过程所感受的意义感、价值感，甚至做事的主动性也被削弱了。在这样的情况下，假设AI全部替代了人类的工作，而在现有的伦理框架下，工作和经济价值又是人类自我价值的重要来源，那我们会不会陷入一种集体性的动力缺失状态？我们现在能够做什么来改变这种潜在的可能性？

张恒第：

我们目前在做数据采集，数据中心雇用了几百个普通工人，而这些工人干的事情，实际上是教这些机器人去做更多的事情。我认为您刚才说的事情，正在发生的过程中，但我个人感觉，无论是哪一社会阶段，技术发展最终形成的结果，应该是持续提升人的自由程度——免于自己不愿意做事情的自由。比如，人类从打猎到刀耕火种的过程，减少了饥饿和死亡的威胁；后来有了庄园，免于流浪，拥有了固定的休息场所。再往后，随着生产力提升，人们不再为温饱发愁，实现了小康。未来，可能连工作的焦虑也会消失。不过，人的自由程度一直提升，但不会抵达终极状态，而是一直处于变动的过程中，人类会长期处于“教机器做新事情”的状态。当机器掌握了某些重复性、枯燥的工作，人类就能从这些痛苦中解放出来，转而去做更有价值的事情。

从本质上讲，人类和机器一样，是一个“感知、规划、执行”的过程。但人类的独特之处在于：身处在复杂社会，一个人存在于某地，就相当于这里拥有了一堆“超级传感器”和“超级执行器”，人可以帮助社会理解世界的变化。故而人处在任何位置，实际都是在探索。

我个人认为，机器人帮助我们解决不停无聊劳作的痛苦后，人可能更应该专注于探索，哪怕是一直玩耍或现在流行的“躺平”，但到某天，人的创作欲望会被激发。因为马克思也说过，创作是人的根本需求。自那天开始，人可能更专注于做创造性的工作，以及帮助我们社会采集新鲜的、更高维的信息。这些新的内容，某天会由个人需求转换为社会需求，又会有人去教机器做这部分的工作，就这样不断拓展边界。如果把人类文明比作一颗不断壮大的火球，最初只是星星之火，但随着发展，它会像爆炸一样疯狂扩张。

郝博阳：

您说得很合理，基础的创造欲望，会激励人去探索创作。但我也注意到一个潜在问题：在AI时代，人类可能面临“比较”带来的焦虑。比如在写作、绘画等领域，AI的表现已经接近甚至超越人类。如果AI在各方面都比人类更强，人类的位置在哪里？我们该如何调整自己？

肖仰华

：

这是一个好问题。短期内，确实有人可以借助AI实现超越，人还有存在的价值和意义。但长期来看，正如Hinton所言，AI可能会在绝大多数领域超越人类。那么，我们的价值和意义在哪里？我认为关键在于人要拓展认知边界。人类已知的领域，AI终将胜任乃至超越，但在未知的疆域里，我们仍有机会，因为人与AI的一大不同就是人具备拓展认知的主动性。比如说，向外求，去探索星辰大海，拓展对宇宙的认知边界，像马斯克的火星计划。向内求，解密人类心理的幽微之处。人类的心理世界仍然充满未解之谜，比如为什么人会突然情绪低落？此外，我们还可以建立跨学科的认知。目前，人类社会在许多细分学科都建立了认知，但横向对比，就会发现许多的盲区。之前网络上有讲，你知道康熙登位时，美国曼哈顿纽约大厦已经建了多少层楼了吗？这其实就是世界史和中国史的对比。因此，从垂直领域到跨领域的过程来看，在这些新的认知疆域发生时，我们人类可以借助AI拓展边界，重新建立新的意义和价值体系。

郝博阳：

现在因为工作，我们生活状态都非常忙碌，虽然有很多兴趣和想探索的事情，但往往只能专注在某一点上，甚至这其中还有很多重复性劳动。如果AI能帮助解决这些问题，那我们在一定程度上，是可以去拓展自己更多的可能性。另外，我想提问，往后AI的能力是必然要超过我们的，但它是否会真正自主地提出问题？假设AI拥有自主意识，那它的需求可能也和我们人类的需求不一样，我们提出的问题才与自己的需求和兴趣有关，这是不是人类找到自己核心的一个契机？

肖仰华：

我倾向于认为，AI不太可能发展出自我意识。这个问题指涉到一个终极议题，只有具备自我意识，才能实现与环境和世界的物我两分。有了这种区分，才可能产生动机、目的和探索兴趣。而AI目前缺乏这样的动机基础，它不会主动提出问题。就目前来看，我还没有看到任何AI产生自我意识的迹象。这种意识能力，如果承认造物主存在的话，或许正是造物主的尊严所在。历代哲学家们，都对未知领域都保持着敬畏之心，孔子就说“子不语怪力乱神”。实际上有的时候，在认知上适度留白，未必是件坏事。

郝

博阳：

Hinton认为，只要人类能做到的事情，AI最终都能做到。那在他的世界观中，AI是可以拥有意识的。但，在我看来，即便AI真的实现了自我意识，也不会影响人类。比如一个自进化的AI可能会设定'提升效率'这样的具体目标，并通过自我优化逐步实现这个目标。但关键在于，最终的需求掌控权还在我们手里。

穆尧

：

我个人认为，随着AI的发展，人类正在经历角色转型。即使AI能够自主提出问题和解决方案，它也更像是担任企业高管的角色，而人类则可以扮演CEO或董事长的角色。在AI技术尚不成熟的阶段，大多数人从事的是基础性工作，比如大厂的程序员或蓝领技术工程师。但随着具身智能体（包括GUI智能体和实体机器人）的成熟，它们将逐步取代白领和蓝领岗位。当具有较强意识的智能体出现时，它们可以替代部分高管职位。实际上，从2024年开始就有人提出“AI公司”的概念——人类作为最高决策者，公司所有员工都是AI，由最智能的AI高管来分配任务。这意味着，每个人都可以成为董事长角色，这种转变会给人类的生活带来很大的改变。这种情况下，人类将更多地专注于发现新商机、开拓新业务，甚至可能走出地球去开拓新星球。

郝博阳：

那我们更需要去重新思考人才培养的方向。作为产品经理，我的核心能力在于洞察和定义用户需求。未来社会物质极大丰富后，个人也能满足自身需求，但前提是要具备“提出需求”的能力。现在那些非常乐观的CEO都认为，到2027年，至晚2030年，AI将能完全替代人类工作。这引发了一个紧迫的教育话题：我们现在该培养什么样的能力？之前有人认为：这个时代，“Know-How”将变得不再重要，因为AI都可以帮助实现。那我们现在还需要去“Know What”？

肖仰华：

AI的发展实际上是在倒逼人类进步，甚至可以说，我们每个人都必须努力成为尼采所说的“超人”。当年我们可能不理解为何人要成为超人，现在看来原因很明确，如果不能实现这种超越，就会被AI取代。矛盾的是，AI的大规模应用本身也可能阻碍人类的发展。因此，人类需要从教育和心理两个关键维度实现转型。首先，我们必须培养强大的心理。因为未来的世界变化将非常迅速，你掌握的知识可能很快过时，原有的价值观体系也需要不断刷新。只有具备强大的心理适应能力，才能应对这种快速变化的环境。其次，我们要革新教育。传统的被认为有价值的教育可能将失去其意义，审美、体育，以及智慧等方面的培养将变得更为重要。因此，人要转型，必须重新定义学习的重点和教育的目标。

郝博阳：

关于这个问题，现在不少人，都强调要培养鉴赏能力和理解事物本质的能力，但不去做具体的数学学习，比如忽略具体的计算。但实际上，如果不亲自进行计算，可能也很难真正学会。因此，教育的转变复杂化，想要培养人的创造性提问、需求理解、事物评价能力，但基础教育不做扎实，好像也无法实现目标。那我们应该怎么去解决呢？

肖仰华：

教育革新并不意味着完全抛弃传统。我们需要在坚持核心能力素养的基础上进行改革。这些基础能力是培养更高阶能力的基石，比如鉴赏力、审美力和批判性思维等。要在坚持核心能力素养基础上，打破当前的教育内卷化现象，让学生从繁重的应试训练中解放出来，有更多时间发展美育、体育和德育等方面。

郝博阳：

也就是说，我们不必像现在这样过度专注于解题训练。那么各位老师认为，在AI持续发展的时代，人类最重要的能力究竟是什么？虽然教育改革需要具体细致的方案，但从宏观角度来看，哪些能力是最关键的？

张恒第：

我认为在这个时代，就像我们现在开车能开到百码速度，但大学体育测试还是要测3000米一样。虽然AI已经能完成各种复杂计算，但小学阶段的基础算术训练仍然是必要的。这些基础能力是我们构建更高阶能力的基石。

穆尧：

我认为AI时代人类最重要的转型是领导力。正如之前讨论的，人类需要从“螺丝钉”式的执行者角色，转变为能够统筹全局的领导者角色。

郝博阳：

各位老师的观点，为我们提供了关于人类转型很好的思考判断。通过对具身智能产业和技术的探讨，可以发现，目前具身智能的发展速度，可能比媒体报道的要更为稳健，但转换思路，这恰恰也为我们余留出更多的准备时间，来应对转型中遇到的问题与变化。希望我们后面也可以有机会交流更多，例如，现代社会中在面对这么大的巨量变化下，我们应该怎样去应对？以更好的心态，在具身时代来临之前做好准备。

郝博阳

：