腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖(腾讯ai lab实验室在哪里)

腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖(腾讯ai lab实验室在哪里)

腾讯AI Lab 投稿

量子位 | 公众号 QbitAI

深度研究智能体(Deep Research Agents)凭借大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在重塑知识发现与问题解决的范式。

然而,现有开源智能体框架多依赖付费工具,限制了可复现性和普适性。

腾讯AI Lab全新推出的Cognitive Kernel-Pro,一款全开源、多模块、层次化的智能体框架,为深度研究智能体的开发与训练提供了突破性解决方案。

在GAIA基准全集上,Cognitive Kernel-Pro超越开源免费框架SmolAgents,性能逼近依赖付费工具的智能体,展现出卓越的综合能力。在GAIA-text上,训练的8B模型超越WebDancer和WebSailor-7B。

相关论文排上当日HuggingFace热榜第一。

此外,腾讯AI Lab公开了Agent Foundation Model的训练配方,为社区提供可复现的训练路径。

相关技术报告及代码已开源于GitHub,详细链接可见文末。

全开源智能体框架

Cognitive Kernel-Pro以Python代码为动作空间,充分发挥现代LLM的推理和代码生成能力。

其核心设计包括以下四点。

1、模块化架构:框架采用两层多模块设计,包含主智能体和多个子智能体(如网页导航智能体、文件处理智能体)。主智能体负责任务分解和信息整合,子智能体专注于特定任务(如网页浏览、文件操作),确保模块独立性和扩展性。

2、状态管理与规划:通过“进度状态”(Progress State)机制,智能体能够记录已完成步骤、待办任务、历史经验和关键信息。这种结构化状态管理显著提升了复杂任务的处理效率。

3、标准化任务接口:主智能体与子智能体通过简洁的文本接口通信,子智能体以Python函数形式定义,输入任务字符串,输出格式化结果和日志,便于协作与调试。

4、测试时优化:框架引入反思机制(Reflection)和投票机制(Voting),通过评估和优化动作轨迹,提升任务完成质量。反思机制允许智能体审查和修正先前动作,投票机制则通过多轮轨迹比较选择最优结果,显著增强了网页浏览等高随机性任务的稳定性。

上表显示了Agent框架工具的使用和能力情况。

比较专有工具时,Google Search API(可以轻松切换到 DuckDuckGo 等免费 API)被排除在外,它是搜索相关任务的必备功能。

注:WebDancer 和 WebSailor 主要关注Web Agent,支持 PDF 获取和简单处理,但缺乏通用文件Agent功能。

许多现有智能体框架依赖付费工具,增加了使用成本并限制了广泛应用。而Cognitive Kernel-Pro框架尽可能使用免费、开源工具,使用LLM的python代码生成能力和理解能力对智能体任务进行处理。

创新训练方法

Cognitive Kernel-Pro不仅提供了强大的框架,还设计了全面的训练流程,覆盖网页导航、文件处理、代码生成和推理等多个领域。

关键创新包括:

  • 高质量Web Agent数据构建

    通过构造可验证的查询-答案对,结合中间过程提示和基于提示的拒绝采样,显著提升训练数据的质量和相关性.

  • Persona Hub数据增强

    利用Persona Hub生成多样化的合成查询,结合跨系统验证,增强训练数据的多样性和鲁棒性。

  • 推理数据优化

    对现有数据集(如NumiaMath、LogicCot、TACO)进行精细化处理,适配智能体任务格式,确保训练数据与实际应用场景一致。

  • 轨迹采样

    以GPT-4.1为骨干模型生成智能体轨迹,并通过相似度匹配进行拒绝采样,最大化训练数据的有效性。

性能优势

Cognitive Kernel-Pro在网页信息检索、文件处理和复杂推理等任务中表现出色,尤其在GAIA基准上超越SmolAgents,接近依赖付费工具的智能体框架。

相较于依赖Jina Reader、FireCrawl等付费工具的现有开源框架,Cognitive Kernel-Pro强调LLM和VLM的内在能力,最大限度降低外部依赖,实现真正的全开源。

上图的技术报告中对比了多个AI智能体框架,显示Cognitive Kernel-Pro在功能全面性和开源程度上具有显著优势。框架支持灵活切换免费API(如DuckDuckGo),进一步提升了可访问性。

上表展示了Cognitive Kernel-Pro与其他开源 Agent基础模型的性能对比。

Cognitive Kernel-Pro 在 GAIA-text基准测试中取得了优异的成绩,超越了WebDancer和WebSailor类似大小模型,体现了框架、模型训练方法的优越性。

首先,Cognitive Kernel-Pro是一个通用Agent框架,有更好的文件Agent、Code Agent的处理能力,在框架上比整体上是Web Agent的WebThinker、WebDancer、WebSailor要能处理更复杂的情况。

其次,在训练对应的开源模型CK-Pro-8B时,更通用、丰富的Agent数据被包含进训练集,共同提升了Agent基座模型的能力。

上表展示了测试Cognitive Kernel-Pro反思功能的消融实验。

更强的模型,例如GPT-4.1,可以提供更好的反思信号,但开源模型例如Qwen-3-32B已经能提供相当GPT-4.1的反思效果。

Cognitive Kernel-Pro的研究团队表示,未来工作将关注在将反思能力蒸馏到同一个Agent基座模型中。

GitHub:https://github.com/Tencent/CognitiveKernel-Pro

Arxiv:https://arxiv.org/pdf/2508.00414

特别声明:[腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖(腾讯ai lab实验室在哪里)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

她被赵本山独宠17年!凭借“性感”一炮而红,40岁却因太过性感付出代价(她被赵本山独宠17年)

在娱乐圈打拼的17年里,关婷娜经历了太多起起落落。 在这个快节奏的时代,关婷娜的选择或许给了我们一些启示:光环和标签终究只是外在,内心的安宁才是真正的财富。这,恰恰是她在40岁这个年龄节点上,交出的最好答卷…

她被赵本山独宠17年!凭借“性感”一炮而红,40岁却因太过性感付出代价(她被赵本山独宠17年)

《长安的荔枝》:两位配角不为人知,一位是他,另一位是她(《长安的荔枝》小说)

大鹏,作为导演兼主演,曾因《屌丝男士》和《煎饼侠》为大家所熟知,他的电影往往聚焦小人物,展现他们在社会底层的无奈与奋斗,让人在笑声中感到一丝心酸。这次,在他自导自演的《长安的荔枝》中,大鹏继续延续其标志性的…

《长安的荔枝》:两位配角不为人知,一位是他,另一位是她(《长安的荔枝》小说)

辛芷蕾张颂文主演电影《日掛中天》入围第50届多伦多电影节 聚焦昔日恋人的隐秘过往(辛芷蕾和张钧甯)

搜狐娱乐讯 由蔡尚君执导,辛芷蕾、张颂文主演的电影《日掛中天》入围第50届多伦多电影节Centrepiece单元。 影片围绕着昔日恋人的重逢展开,曾经的一场意外让他们分道扬镳,蹉跎七年后的再次相遇却揭开了二…

辛芷蕾张颂文主演电影《日掛中天》入围第50届多伦多电影节 聚焦昔日恋人的隐秘过往(辛芷蕾和张钧甯)

Trump Sees Phama Tariffs Up to 250%, Chip Tariffs As Soon As Next Week

“Probably at the end of the month, and we’re going to start off with alow tariff and give the pharmace…

Trump Sees Phama Tariffs Up to 250%, Chip Tariffs As Soon As Next Week

火爆来袭!不输戴森“5A医护级净化+多重黑科技”宫菱无叶风扇(火爆来袭标题图片)

在做功课的过程中,这款宫菱无叶风扇引起了我的注意,因为好多博主都在推荐,说它风力强劲、风感舒适,还可以净化空气,而且都表示效果很理想,让我十分心动。这款无叶风扇不搞加湿除醛冷暖风这类多余噱头功能,转而专攻死磕…

火爆来袭!不输戴森“5A医护级净化+多重黑科技”宫菱无叶风扇(火爆来袭标题图片)