这项由浙江大学王子🤴轩、李定铭等研究团队领导的突破性研究发表于2025年8月,论文全名为《OMNIEAR: BENCHMARKING AGENT REASONING IN EMBODIED TASKS》。有兴趣深入了解的读者可以通过arXiv:2508.05614v1访问完整论文,或访问项目主页https://zju-real.github.io/OmniEmbodied获取更多资料。
在科幻电影中,机器人🤖总能轻松完成各种复杂任务——搬运重物、修理设备、与人协作。然而现实却截然不同:即便是最先进的AI模型,在面对真实世界的物理任务时往往表现糟糕。为什么会这样?浙江大学的研究团队决定深入探究这个问题的根源。
为了系统性地揭示这些问题,研究团队开发了名为OmniEAR的综合评估框架。这个框架就像是给AI模型设计的"驾照考试",但测试的不是开车技能,而是在现实世界中进行物理推理的能力。他们创建了1500个不同的测试场景,涵盖从家庭👪️到工业环境的各种情况,包含超过64000个虚拟物体和6000多种不同的物理属性。
研究结果令人震惊:即使是最先进的GPT-4o模型,在面对明确指令时能达到85-96%的成功率,但当需要从物理约束中推断出应该采取的行动时,成功率骤降至56-85%。在需要多个智能体协作的复杂任务中,失败率甚至超过50%。这相当于一个在纸面考试中表现优秀的学生🧑🎓,一旦面临需要动手操作的实验就完全不知所措。
一、揭开"体感推理"的神秘面纱
想象你要帮朋友搬家,看到一个巨大的书柜时,你会本能地知道这需要两个人才能抬得动。这种判断能力对人类来说是天生的,但对AI来说却异常困难。研究团队将这种能力称为"体感推理"(Embodied Reasoning),它涉及三个核心方面。
第一个方面是属性推理。就像你能通过观察判断哪个杯子更重、哪块材料更硬一样,AI需要能够理解和比较物体的连续物理属性。然而现有的大多数评估体系只关注离散的状态变化,比如门是开着还是关着,物体是被拿起还是放下,完全忽略了重量、温度、材质等连续变化的属性。
第三个方面是协作推理。当面对超出个人能力范围的任务时,人类会自然而然地寻求合作。比如搬运重物、组装大型家具或者进行需要多人配合的操作。关键在于,这种协作需求应该从任务的物理约束中自然产生,而不是通过明确的指令告诉AI"你们需要合作"。
浙大团队发现,现有的评估方法存在根本性缺陷。它们就像在测试一个人的驾驶技能时只让他在空旷的停车场里开车,而不是在真实的交通环境中应对各种突发状况。这种测试方法无法反映AI在真实世界中的表现能力。
研究团队意识到,要真正评估AI的体感推理能力,需要创建一个全新的评估框架,这个框架必须能够模拟真实世界的复杂性和不确定性,同时又要足够高效以便进行大规模测试。
二、构建虚拟的"现实世界实验室"
为了解决现有评估方法的局限性,研究团队开发了一套创新的文本基础环境建模系统。这就像是用文字构建了一个详细的虚拟世界,但这个世界拥有真实的物理属性和复杂的空间关系。
他们将环境表示为一个有向图,其中每个节点代表空间位置、物体或智能体,每条边表示它们之间的关系。这种方法的巧妙之处在于,它避免了传统3D仿真的巨大计算开销,同时保留了进行物理推理所必需的核心信息。就像用建筑图纸代替实体模型来规划房屋布局一样,这种文本表示既高效又准确。
更重要的是,这个系统实现了动态能力管理。在传统评估中,AI的行动能力在开始时就已经固定,就像给一个工人🧑🏭一个固定的工具箱🧰,无论遇到什么任务都只能使用这些工具。而在OmniEAR框架中,AI可以通过获取新工具来动态扩展自己的能力。当AI拿起一个扳手🔧时,它就获得了修理能力;当它放下扳手🔧时,这种能力就会消失。这种机制更真实地反映了现实世界中人与工具的交互方式。
协作机制的设计也非常巧妙。系统不会明确告诉AI什么时候需要合作,而是通过物理约束来自然引发协作需求。比如,当一个物体的重量超过单个智能体的承载能力时,系统允许智能体主动发起协作请求。这就像现实生活中,当你发现桌子太重搬不动时,会自然而然地请朋友来帮忙一样。
这种人机结合的质量保证流程确保了所有任务既具有挑战性又是可解决的。就像制作高质量的考试试题一样,既要有足够的难度来区分不同水平的考生,又要确保优秀的考生确实能够找到正确答案。
三、七个层次的"智能体驾考"体系
研究团队精心设计了一个七级难度的任务分类体系,就像驾驶考试从基础的交通规则测试逐步提升到复杂路况的实际驾驶一样。这个体系沿着两个维度展开:智能体配置(单个vs多个)和认知复杂度(基础、中级、高级)。
在单智能体任务中,基础级别是"直接指令"任务,相当于最简单的"请把杯子放到桌子上"。这类任务主要测试AI的基本理解和执行能力,就像测试一个人是否能按照明确的指示完成简单动作。
高级的"复合推理"任务整合了多个挑战,比如"清洁最重的桌子",这同时需要属性比较、工具获取和多步骤规划能力。这就像要求一个人不仅要找到最重的桌子,还要准备合适的清洁工具,并制定完整的清洁方案。
多智能体任务遵循类似的复杂度递增模式。基础的"显式协作"任务提供明确的协作指令,比如"智能体A和智能体B合作打开重柜子"。这主要测试基本的同步和协调能力。
最具挑战性的"复合协作"任务结合了所有元素,比如"协作修理故障电视"。这需要智能体进行工具获取、能力评估和协调执行的全套复杂操作。
这种层次化的设计使得研究团队能够精确定位不同模型在哪个认知层面开始出现性能下降,就像医生通过系列检查来确定病症的具体位置一样。
四、令人震惊的测试结果
当研究团队将九个代表性的AI模型放入这个"智能体驾考"系统时,结果让所有人都感到意外。这些测试结果就像是给当前AI技术照了一面"照妖镜",暴露出了许多隐藏的问题。
在最基础的直接指令任务中,表现最好的模型能够达到85-96%的成功率,这看起来相当不错。但当任务复杂度稍有提升时,性能就开始急剧下降。在工具使用任务中,成功率跌落到73-86%;在属性推理任务中,更是下降到42-78%。这种下降幅度就像一个在平地上健步如飞的人,一旦遇到稍微倾斜的坡道就开始步履蹒跚。
最让人意外的发现是关于模型规模的影响。研究团队测试了从30亿参数到6710亿参数的各种规模模型,发现了一些出人意料的规律。直接指令和工具使用任务的性能随着模型规模急剧提升,从30亿参数模型的接近零成功率跃升到720亿参数模型的90%以上。但属性推理和复合推理任务的性能提升却在720亿参数后就趋于平缓,这表明单纯增加参数数量并不能解决所有问题。
更有趣的是,专门针对推理优化的模型表现出了截然不同的特征。这些模型在需要逻辑规划的任务上表现优异,但在需要将抽象概念映射到具体物理属性的任务上却表现不佳。比如,Deepseek-R1模型在复合协作任务上达到了48.5%的最高成功率,但在属性推理上只有41.9%,甚至低于GPT-4o的77.8%。这就像一个逻辑思维极强的数学家,在处理需要直觉和经验的实际问题时反而不如普通人。
研究团队还发现了一个令人困惑的现象:给模型提供更完整的环境信息反而会降低协作性能。这个被称为"信息过载效应"的现象表明,当前的注意力机制无法有效过滤与任务相关的约束信息。就像给一个已经信息超载的决策者更多资料,反而会让他更难做出正确决策。
在多智能体任务中,性能下降更加显著。即使是表现最好的模型,在隐式协作任务上的成功率也比显式协作任务低了10-15个百分点。而在最复杂的复合协作任务中,所有模型的成功率都不超过50%,大多数模型甚至低于40%。
为了验证这些问题是否可以通过训练来解决,研究团队对一个30亿参数的模型进行了监督微调。结果显示,虽然单智能体任务的性能从0.6%大幅提升到76.3%,但多智能体任务的改善微乎其微,从1.5%仅提升到5.5%。这表明协作推理需要的不仅仅是更好的训练数据,而是根本性的架构改进。
五、深层问题的根源分析
为了理解这些令人困惑的结果背后的原因,研究团队进行了详细的失效模式分析。他们发现,不同类型的任务失败有着截然不同的根本原因。
在工具使用任务中,最主要的失败原因是探索不足,占总失败案例的31.2%。这些模型往往无法系统性地搜索环境来定位所需的工具,就像一个人在找钥匙🔑时只看了几个显眼的地方就放弃了一样。有趣的是,参数少于70亿的模型在这类任务上的失败率高达84.2%,而较大模型的失败率只有31.2%,这表明存在一个关键的规模阈值。
复合推理任务的失败主要源于规划能力的退化,占28.7%的失败案例。模型在执行过程中会逐渐丢失对中间子目标的跟踪,就像一个人在做复杂菜谱时忘记了某些步骤一样。这种失败模式反映了当前模型在维持长期工作记忆方面的根本局限性。
最令人意外的是隐式协作任务的失败模式。35.8%的失败源于时机判断错误,模型要么过早启动协作,要么错过了协作的最佳时机。更重要的是,这种失败模式与模型规模没有相关性,这表明协作时机判断需要的是当前架构中完全缺失的推理机制。
研究团队还发现了执行效率方面的显著差异。通过比较模型解决方案与专家演示的相对步数比,他们发现单智能体任务显示出一致的中等效率(中位相对步数比0.40-0.55),而多智能体任务则表现出更低的效率和更高的变异性。
最引人注目的是复合协作任务中出现的双峰分布现象。模型要么采用简单的顺序执行策略,要么尝试复杂的并行协作,但很少有成功的中等复杂度策略。这种两极分化表明,当前模型缺乏适应性协作机制,无法根据任务约束选择合适的策略。
六、微调实验的意外发现
为了验证这些限制是否可以通过改进的训练方法来克服,研究团队进行了一系列监督微调实验。他们收集了1942个成功的专家演示轨迹,形成20346个指令-行动对,用于训练一个30亿参数的模型。
实验结果既令人鼓舞又让人担忧。在单智能体任务上,监督微调取得了戏剧性的改进。直接指令任务的成功率从0.6%跃升至76.3%,工具使用任务从1.8%提升至45.0%,属性推理从0.6%改善至33.5%。这表明较小的模型确实可以通过适当的训练学会体感推理的基础技能。
然而,多智能体任务的改进却微乎其微。显式协作任务仅从8.5%提升至22.5%,隐式协作从1.5%勉强改善至5.5%,而复合协作任务几乎没有变化,从0.5%仅上升至1.0%。这种巨大的差异表明,协作推理涉及的不仅仅是学习更好的行为模式,而是需要根本性的架构能力。
进一步分析显示,学到的行为无法泛化到需要自主评估物理约束和协作需求的场景中。模型能够很好地模仿专家的单智能体决策,但无法内化产生这些决策的底层推理过程。这就像教一个人背诵钢琴曲的指法,他可能弹得很好,但无法理解音乐理论来创作新曲子。
这个发现具有深远的意义。它表明当前的训练范式,无论是预训练还是监督微调,都无法充分解决体感推理的根本挑战。问题不在于缺乏数据或计算资源,而在于当前的架构缺乏理解和推理物理约束所需的基本机制。
七、对未来AI发展的深刻启示
这项研究的发现对人工智能的未来发展具有重要意义,它不仅揭示了当前技术的局限性,也为未来的研究方向提供了清晰的指引。
研究结果表明,体感推理需要与抽象推理根本不同的计算机制。当前的transformer架构在符号操作方面表现优异,但缺乏将抽象表示映射到连续物理属性所需的专门化组件。这就像试图用专门设计用来处理文字的大脑区域来理解音乐或视觉艺术一样,工具本身就不适合这项任务。
约束选择失效问题揭示了当前注意力机制的另一个根本局限。与抽象推理任务不同,在体感场景中,并非所有提供的信息都与任务相关。系统需要能够动态过滤空间和时间分布的约束集合,这是当前注意力机制无法有效处理的。
研究团队观察到的70亿参数阈值现象表明,体感推理需要足够的工作记忆容量来同时跟踪环境状态、能力约束和协作需求。这种计算瓶颈在纯语言任务中并不存在,因为语言任务通常不需要维持如此复杂的多维状态表示。
更深层次的问题在于,当前的训练目标和架构都是为了优化语言建模目标而设计的。语言具有离散的、符号的性质,而物理世界是连续的、多模态的。这种根本性的不匹配可能需要全新的训练范式和架构创新来解决。
研究团队建议,未来的体感AI系统可能需要结合符号推理和连续控制的混合架构。这种系统应该具备专门用于物理约束处理的组件、动态注意力机制来过滤任务相关信息,以及支持多智能体状态建模的架构元素。
从更广阔的视角来看,这项研究强调了在追求通用人工智能的过程中,我们不能仅仅依靠扩大模型规模和数据量。真正的突破可能需要对智能本身的理解有根本性的进步,特别是关于物理智能和社交智能如何与抽象推理能力相互作用的理解。
说到底,这项研究为我们描绘了一个更加现实的AI发展图景。虽然当前的大语言模型在许多任务上表现出色,但它们距离真正理解和操作物理世界还有很长的路要走。OmniEAR框架不仅为评估这些能力提供了标准化工具,更重要的是,它为未来的研究指明了具体的方向和挑战。
对于普通人来说,这意味着我们可能需要重新调整对AI能力的期望。在可预见的未来,AI更适合作为人类的助手和工具,而不是完全自主的物理世界操作者。同时,这也意味着在AI系统的设计和部署中,我们需要更加重视人机协作的模式,充分发挥人类在物理推理和社交协作方面的天然优势。
最终,这项研究提醒我们,智能的本质比我们想象的更加复杂和多面。体感智能不仅仅是抽象推理的简单扩展,而是需要全新的理论框架和技术方法来解决的独特挑战。浙江大学团队的这项工作为这一重要研究领域奠定了坚实的基础,相信它将激发更多创新性的研究,推动AI技术向更加实用和可靠的方向发展。
Q&A
Q1:OmniEAR基准测试是什么,它能测试AI的哪些能力?
Q2:为什么先进的AI模型在OmniEAR测试中表现这么差?
A:研究发现了几个关键问题。首先是信息过载效应,给AI更多环境信息反而让它更困惑,无法筛选出任务相关的重要信息。其次,当前AI架构缺乏理解连续物理属性的机制,只能处理离散的符号信息。最重要的是,这些模型无法将抽象推理能力转化为物理世界的约束理解,就像一个理论很强的学生🧑🎓无法解决实际动手问题一样。
Q3:这项研究对未来AI发展有什么启示?
A:研究表明单纯增加模型参数和数据量无法解决体感推理问题,需要全新的架构创新。未来AI系统可能需要结合符号推理和连续控制的混合架构,具备专门处理物理约束的组件。对普通人而言,这意味着短期内AI更适合作为助手而非完全自主的物理操作者,人机协作仍然是最现实的应用模式。