OPPO团队Chain-of-Agents：单模型实现多智能体协作(oppo团队多少人) #科技 #代码生成 #团队 #协作 #推理方法 #模型

今日霍州(www.jrhz.info)©️

这项由OPPOAI Agent Team开发的革命性研究于2025年8月发表，论文编号为arXiv:2508.13167v1，为人工智能领域带来了一个重大突破。传统的AI智能体系统就像一个需要多人协作的复杂工程项目，每个专家负责不同的任务，但他们之间的沟通协调往往效率低下，成本高昂。OPPO的研究团队提出了一个全新的解决方案：Chain-of-Agents（智能体链），这就像是把所有专家的技能都融合到一个超级专家身上，让他能够独自完成原本需要团队协作的复杂任务。

当前的多智能体系统虽然功能强大，但面临着四个根本性问题。首先，它们需要大量的计算资源，就像维持一个庞大的专家团队需要支付高昂的薪水一样。其次，这些系统很难适应新的任务领域，每次遇到新问题都需要重新设计和调整，就像每次换工作都要重新组建团队。第三，它们无法通过数据学习来改进自己，就像一个无法从经验中成长的团队。最后，这些系统底层的『大语言模型』并不是专门为多智能体协作而训练的，而是通过复杂的提示工程勉强实现协作功能。

传统的工具集成推理方法虽然有所改进，但仍然局限于简单的"思考-行动-观察"模式，就像一个只会按固定流程工作的『机器人』️。而真正的多智能体系统展现出的协作能力远超这种简单模式，但却无法实现端到端的训练优化。OPPO的研究团队敏锐地发现了这个gap，并提出了ChAIn-of-Agents这个突破性概念。

Chain-of-Agents的核心思想是让一个『大语言模型』内在地模拟多智能体系统的协作过程。这就像是培养一个全才，让他能够在需要时切换不同的专业角色，而不是真的雇佣多个专家。在这个系统中，模型会动态激活不同的"智能体角色"，包括负责高层推理的思考智能体、负责任务分解的规划智能体、负责自我反省的反思智能体，以及各种工具智能体如搜索智能体和代码生成智能体。这种设计既保留了多智能体协作的优势，又避免了传统系统的效率问题。

为了训练这样的模型，研究团队开发了一套创新的训练框架。首先，他们使用多智能体蒸馏技术，这就像是让新手通过观察专家团队的工作流程来学习协作技能。他们记录了先进多智能体系统OAgents的执行过程，将其转换为适合单模型学习的Chain-of-Agents轨迹。这个过程包含了严格的质量筛选机制，确保只有高质量、非平凡的样本被用于训练。

在有监督微调的基础上，研究团队进一步使用了智能体强化学习来优化模型性能。他们设计了巧妙的数据采样策略，专门选择那些真正需要工具协作才能解决的困难问题进行训练。对于网络智能体任务，他们使用了基于『大语言模型』判断的奖励函数；对于代码智能体任务，则采用了结合答案正确性和格式规范性的复合奖励函数。

研究团队将训练出的模型称为Agent Foundation Models（AFM），并在近20个不同的智能体基准测试中进行了全面评估。结果显示，AFM在各个领域都建立了新的技术水准。在网络智能体任务中，32B参数的AFM在GAIA基准上达到了55.3%的成功率，在BrowseComp上达到11.1%，在HLE上达到18.0%。在代码生成任务中，AFM在LiveCodeBench v5上达到47.9%，在CodeContests上达到32.7%。在数学推理方面，AFM在挑战性的AIME2025基准上达到59.8%的解题率，比之前最好的工具集成推理方法提升了超过10.5%。

更令人印象深刻的是，AFM在保持竞争性能的同时，将推理成本降低了84.6%。这就像是用一个超级专家替代了一整个专家团队，不仅效果不差，成本还大幅降低。研究还发现，AFM具有出色的泛化能力，即使在训练时没有见过某些工具，也能在推理时正确使用它们，这展现了真正的智能体推理能力。

在测试时扩展实验中，AFM展现了优秀的可扩展性。通过简单的"三选一最佳"策略，AFM在GAIA上的性能从55.3%提升到69.9%，在HLE上从18.0%提升到33.2%。这种提升幅度远超其他模型，说明AFM的核心架构更好地支持了测试时的性能优化。

这项研究的意义远不止于技术突破。它为AI智能体的发展指出了一条全新道路：与其不断增加系统复杂度，不如从根本上改变模型的训练方式，让单个模型具备多智能体协作的内在能力。这种方法不仅更加高效，也为未来的智能体应用开辟了更广阔的可能性。

更重要的是，OPPO团队将所有研究成果完全开源，包括模型权重、训练代码、评估代码和训练数据。这种开放的态度为整个AI社区的发展做出了重要贡献，为未来在智能体模型和智能体强化学习方面的研究提供了坚实的起点。

对于普通用户而言，这项研究意味着未来的AI助手将变得更加智能和高效。无论是帮助处理复杂的信息搜索任务，还是协助解决编程和数学问题，这种新型的智能体模型都能提供更好的用户体验。而对于开发者来说，Chain-of-Agents范式提供了一种全新的构建智能应用的方法，既保持了强大的功能，又大大降低了部署成本。

Q&A

Q1：Chain-of-Agents和传统多智能体系统有什么区别？

A：Chain-of-Agents是在单个『大语言模型』内部模拟多智能体协作，而传统多智能体系统需要多个独立的模型相互通信。这就像一个全才演员扮演多个角色，而不是真的雇佣多个演员。Chain-of-Agents效率更高，成本更低，还能通过训练不断改进。

Q2：Agent Foundation Models在实际应用中表现如何？

A：AFM在多个基准测试中都创造了新纪录。在网络搜索任务上，32B参数的AFM在GAIA基准达到55.3%成功率，在数学推理的AIME2025基准上达到59.8%解题率，比之前最好方法提升了10.5%以上，同时推理成本降低了84.6%。

Q3：这项研究对普通用户和开发者有什么意义？

A：对普通用户来说，未来的AI助手将更智能高效，能更好地处理复杂任务如信息搜索、编程协助等。对开发者而言，Chain-of-Agents提供了构建智能应用的新方法，既保持强大功能又大幅降低部署成本。而且OPPO团队完全开源了所有成果，为AI社区发展做出重要贡献。

OPPO团队Chain-of-Agents：单模型实现多智能体协作(oppo团队多少人)

猜你喜欢

女人每年吃一次安宫牛黄丸吗(女人每年吃一次四黄清心丸会怎么样)

《你好，星期六》巧妙融合年味怀旧与密集笑点，位列黄金档第一！(《你好,星期六》2026免费)

35包邮灰白色高温陶瓷牛奶杯：2026年买它值不值？(灰白色是什么色系)

边佑锡 × 芭莎三月开季｜冷感藏文气，普拉达启新章(边伯贤百科)

个人能否携带黄金制品进出国门海关🛃规定需知(个人携带黄金入境规定2019)