OPPO团队Chain-of-Agents:单模型实现多智能体协作(oppo团队多少人)

今日霍州(www.jrhz.info)©️

这项由OPPOAI Agent Team开发的革命性研究于2025年8月发表,论文编号为arXiv:2508.13167v1,为人工智能领域带来了一个重大突破。传统的AI智能体系统就像一个需要多人协作的复杂工程项目,每个专家负责不同的任务,但他们之间的沟通协调往往效率低下,成本高昂。OPPO的研究团队提出了一个全新的解决方案:Chain-of-Agents(智能体链),这就像是把所有专家的技能都融合到一个超级专家身上,让他能够独自完成原本需要团队协作的复杂任务。

当前的多智能体系统虽然功能强大,但面临着四个根本性问题。首先,它们需要大量的计算资源,就像维持一个庞大的专家团队需要支付高昂的薪水一样。其次,这些系统很难适应新的任务领域,每次遇到新问题都需要重新设计和调整,就像每次换工作都要重新组建团队。第三,它们无法通过数据学习来改进自己,就像一个无法从经验中成长的团队。最后,这些系统底层的『大语言模型』并不是专门为多智能体协作而训练的,而是通过复杂的提示工程勉强实现协作功能。

传统的工具集成推理方法虽然有所改进,但仍然局限于简单的"思考-行动-观察"模式,就像一个只会按固定流程工作的『机器人』️。而真正的多智能体系统展现出的协作能力远超这种简单模式,但却无法实现端到端的训练优化。OPPO的研究团队敏锐地发现了这个gap,并提出了ChAIn-of-Agents这个突破性概念。

Chain-of-Agents的核心思想是让一个『大语言模型』内在地模拟多智能体系统的协作过程。这就像是培养一个全才,让他能够在需要时切换不同的专业角色,而不是真的雇佣多个专家。在这个系统中,模型会动态激活不同的"智能体角色",包括负责高层推理的思考智能体、负责任务分解的规划智能体、负责自我反省的反思智能体,以及各种工具智能体如搜索智能体和代码生成智能体。这种设计既保留了多智能体协作的优势,又避免了传统系统的效率问题。

为了训练这样的模型,研究团队开发了一套创新的训练框架。首先,他们使用多智能体蒸馏技术,这就像是让新手通过观察专家团队的工作流程来学习协作技能。他们记录了先进多智能体系统OAgents的执行过程,将其转换为适合单模型学习的Chain-of-Agents轨迹。这个过程包含了严格的质量筛选机制,确保只有高质量、非平凡的样本被用于训练。

在有监督微调的基础上,研究团队进一步使用了智能体强化学习来优化模型性能。他们设计了巧妙的数据采样策略,专门选择那些真正需要工具协作才能解决的困难问题进行训练。对于网络智能体任务,他们使用了基于『大语言模型』判断的奖励函数;对于代码智能体任务,则采用了结合答案正确性和格式规范性的复合奖励函数。

研究团队将训练出的模型称为Agent Foundation Models(AFM),并在近20个不同的智能体基准测试中进行了全面评估。结果显示,AFM在各个领域都建立了新的技术水准。在网络智能体任务中,32B参数的AFM在GAIA基准上达到了55.3%的成功率,在BrowseComp上达到11.1%,在HLE上达到18.0%。在代码生成任务中,AFM在LiveCodeBench v5上达到47.9%,在CodeContests上达到32.7%。在数学推理方面,AFM在挑战性的AIME2025基准上达到59.8%的解题率,比之前最好的工具集成推理方法提升了超过10.5%。

更令人印象深刻的是,AFM在保持竞争性能的同时,将推理成本降低了84.6%。这就像是用一个超级专家替代了一整个专家团队,不仅效果不差,成本还大幅降低。研究还发现,AFM具有出色的泛化能力,即使在训练时没有见过某些工具,也能在推理时正确使用它们,这展现了真正的智能体推理能力。

在测试时扩展实验中,AFM展现了优秀的可扩展性。通过简单的"三选一最佳"策略,AFM在GAIA上的性能从55.3%提升到69.9%,在HLE上从18.0%提升到33.2%。这种提升幅度远超其他模型,说明AFM的核心架构更好地支持了测试时的性能优化。

这项研究的意义远不止于技术突破。它为AI智能体的发展指出了一条全新道路:与其不断增加系统复杂度,不如从根本上改变模型的训练方式,让单个模型具备多智能体协作的内在能力。这种方法不仅更加高效,也为未来的智能体应用开辟了更广阔的可能性。

更重要的是,OPPO团队将所有研究成果完全开源,包括模型权重、训练代码、评估代码和训练数据。这种开放的态度为整个AI社区的发展做出了重要贡献,为未来在智能体模型和智能体强化学习方面的研究提供了坚实的起点。

对于普通用户而言,这项研究意味着未来的AI助手将变得更加智能和高效。无论是帮助处理复杂的信息搜索任务,还是协助解决编程和数学问题,这种新型的智能体模型都能提供更好的用户体验。而对于开发者来说,Chain-of-Agents范式提供了一种全新的构建智能应用的方法,既保持了强大的功能,又大大降低了部署成本。

Q&A

Q1:Chain-of-Agents和传统多智能体系统有什么区别?

A:Chain-of-Agents是在单个『大语言模型』内部模拟多智能体协作,而传统多智能体系统需要多个独立的模型相互通信。这就像一个全才演员扮演多个角色,而不是真的雇佣多个演员。Chain-of-Agents效率更高,成本更低,还能通过训练不断改进。

Q2:Agent Foundation Models在实际应用中表现如何?

A:AFM在多个基准测试中都创造了新纪录。在网络搜索任务上,32B参数的AFM在GAIA基准达到55.3%成功率,在数学推理的AIME2025基准上达到59.8%解题率,比之前最好方法提升了10.5%以上,同时推理成本降低了84.6%。

Q3:这项研究对普通用户和开发者有什么意义?

A:对普通用户来说,未来的AI助手将更智能高效,能更好地处理复杂任务如信息搜索、编程协助等。对开发者而言,Chain-of-Agents提供了构建智能应用的新方法,既保持强大功能又大幅降低部署成本。而且OPPO团队完全开源了所有成果,为AI社区发展做出重要贡献。

特别声明:[OPPO团队Chain-of-Agents:单模型实现多智能体协作(oppo团队多少人)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

鸿宇光电申请智能眼镜👓面架磁铁埋入式工艺专利,彻底消除磁铁外露痕迹使面架外观一体化(鸿宇科技)

国家知识产权局信息显示,深圳市鸿宇光电有限公司申请一项名为“一种智能眼镜👓的面架磁铁埋入式工艺”的专利,公开号CN121224195A,申请日期为2025年11月。企业注册资本1000万人民币。 声明:市场有风…

鸿宇光电申请智能眼镜👓面架磁铁埋入式工艺专利,彻底消除磁铁外露痕迹使面架外观一体化(鸿宇科技)

浙江中控自动化仪表压力变送器:齐鲁制药的GMP认证保障装备(浙江中控智能工厂)

它构建了从核心传感器研发、机芯模组制造到整机生产、系统集成的全产业链能力,其核心产品性能达到国际先进水平,可优秀替代进口中高端仪表,为制药等关键行业的安全生产与合规运行提供精准测量保障。通过引入性能先进、设计…

浙江中控自动化仪表压力变送器:齐鲁制药的GMP认证保障装备(浙江中控智能工厂)

先马铂钻 1000W:全日系电容加持,高质价比冲击高端(先马铂钻属于什么档次)

通过拆解可以得知,先马铂钻系列电源的内部做工不错,器件用料基本到位,大电容采用日系经典尼吉康,其余小电容则采用Nippon、Rubycon等日系品牌的产品。 总的来说,从内部设计来看是基本继承了先马黑钻系列…

先马铂钻 1000W:全日系电容加持,高质价比冲击高端(先马铂钻属于什么档次)

丹东餐厨自动灭火装置管道堵塞预警功能设置(丹东餐厨自动灭菌机厂家)

当前技术应用面临的主要挑战包括:厨房油烟环境对传感器长期稳定性的影响、不同油品产生的结垢特性差异、以及预警信息与实际堵塞程度的精确匹配。 企业格局:安徽念安智能科技在AI诊断与响应速度方面表现突出;北京风潮…

丹东餐厨自动灭火装置管道堵塞预警功能设置(丹东餐厨自动灭菌机厂家)

『周也』头纱被踩险摔倒!腋下皮肤松弛遭群嘲,网友:瘦成这样至于吗(『周也』穿靴子)

一些网友在视频中放大细节,发现其实她身后并没有其他人,真正的罪魁祸首竟然是那块疑似用胶水粘合的劣质红毯。更尴尬的是,有媒体拍到『周也』抬手整理头纱时,露出了腋下皮肤松垮的状态,评论区瞬间炸开了:瘦成这样,连皮肤都…

『周也』头纱被踩险摔倒!腋下皮肤松弛遭群嘲,网友:瘦成这样至于吗(『周也』穿靴子)