腾讯AI Lab开源可复现的深度研究智能体，最大限度降低外部依赖(腾讯ai lab实验室在哪里) #科技 #数据 #训练 #Agents #深度 #工具

腾讯AI Lab 投稿

量子位 | 公众号 QbitAI

深度研究智能体（Deep Research Agents）凭借『大语言模型』（LLM）和视觉-语言模型（VLM）的强大能力，正在重塑知识发现与问题解决的范式。

然而，现有开源智能体框架多依赖付费工具，限制了可复现性和普适性。

腾讯AI Lab全新推出的Cognitive Kernel-Pro，一款全开源、多模块、层次化的智能体框架，为深度研究智能体的开发与训练提供了突破性解决方案。

在GAIA基准全集上，Cognitive Kernel-Pro超越开源免费框架SmolAgents，性能逼近依赖付费工具的智能体，展现出卓越的综合能力。在GAIA-text上，训练的8B模型超越WebDancer和WebSailor-7B。

相关论文排上当日HuggingFace热榜第一。

此外，腾讯AI Lab公开了Agent Foundation Model的训练配方，为社区提供可复现的训练路径。

相关技术报告及代码已开源于GitHub，详细链接可见文末。

全开源智能体框架

Cognitive Kernel-Pro以Python代码为动作空间，充分发挥现代LLM的推理和代码生成能力。

其核心设计包括以下四点。

1、模块化架构：框架采用两层多模块设计，包含主智能体和多个子智能体（如网页导航智能体、文件处理智能体）。主智能体负责任务分解和信息整合，子智能体专注于特定任务（如网页浏览、文件操作），确保模块独立性和扩展性。

2、状态管理与规划：通过“进度状态”（Progress State）机制，智能体能够记录已完成步骤、待办任务、历史经验和关键信息。这种结构化状态管理显著提升了复杂任务的处理效率。

3、标准化任务接口：主智能体与子智能体通过简洁的文本接口通信，子智能体以Python函数形式定义，输入任务字符串，输出格式化结果和日志，便于协作与调试。

4、测试时优化：框架引入反思机制（Reflection）和投票机制（Voting），通过评估和优化动作轨迹，提升任务完成质量。反思机制允许智能体审查和修正先前动作，投票机制则通过多轮轨迹比较选择最优结果，显著增强了网页浏览等高随机性任务的稳定性。

上表显示了Agent框架工具的使用和能力情况。

比较专有工具时，Google Search API（可以轻松切换到 DuckDuckGo 等免费 API）被排除在外，它是搜索相关任务的必备功能。

注：WebDancer 和 WebSailor 主要关注Web Agent，支持 PDF 获取和简单处理，但缺乏通用文件Agent功能。

许多现有智能体框架依赖付费工具，增加了使用成本并限制了广泛应用。而Cognitive Kernel-Pro框架尽可能使用免费、开源工具，使用LLM的python代码生成能力和理解能力对智能体任务进行处理。

创新训练方法

Cognitive Kernel-Pro不仅提供了强大的框架，还设计了全面的训练流程，覆盖网页导航、文件处理、代码生成和推理等多个领域。

关键创新包括：

高质量Web Agent数据构建
通过构造可验证的查询-答案对，结合中间过程提示和基于提示的拒绝采样，显著提升训练数据的质量和相关性.
Persona Hub数据增强
利用Persona Hub生成多样化的合成查询，结合跨系统验证，增强训练数据的多样性和鲁棒性。
推理数据优化
对现有数据集（如NumiaMath、LogicCot、TACO）进行精细化处理，适配智能体任务格式，确保训练数据与实际应用场景一致。
轨迹采样
以GPT-4.1为骨干模型生成智能体轨迹，并通过相似度匹配进行拒绝采样，最大化训练数据的有效性。

性能优势

Cognitive Kernel-Pro在网页信息检索、文件处理和复杂推理等任务中表现出色，尤其在GAIA基准上超越SmolAgents，接近依赖付费工具的智能体框架。

相较于依赖Jina Reader、FireCrawl等付费工具的现有开源框架，Cognitive Kernel-Pro强调LLM和VLM的内在能力，最大限度降低外部依赖，实现真正的全开源。

上图的技术报告中对比了多个AI智能体框架，显示Cognitive Kernel-Pro在功能全面性和开源程度上具有显著优势。框架支持灵活切换免费API（如DuckDuckGo），进一步提升了可访问性。

上表展示了Cognitive Kernel-Pro与其他开源 Agent基础模型的性能对比。

Cognitive Kernel-Pro 在 GAIA-text基准测试中取得了优异的成绩，超越了WebDancer和WebSailor类似大小模型，体现了框架、模型训练方法的优越性。

首先，Cognitive Kernel-Pro是一个通用Agent框架，有更好的文件Agent、Code Agent的处理能力，在框架上比整体上是Web Agent的WebThinker、WebDancer、WebSailor要能处理更复杂的情况。

其次，在训练对应的开源模型CK-Pro-8B时，更通用、丰富的Agent数据被包含进训练集，共同提升了Agent基座模型的能力。

上表展示了测试Cognitive Kernel-Pro反思功能的消融实验。

更强的模型，例如GPT-4.1，可以提供更好的反思信号，但开源模型例如Qwen-3-32B已经能提供相当GPT-4.1的反思效果。

Cognitive Kernel-Pro的研究团队表示，未来工作将关注在将反思能力蒸馏到同一个Agent基座模型中。

GitHub：https://github.com/Tencent/CognitiveKernel-Pro

Arxiv：https://arxiv.org/pdf/2508.00414

腾讯AI Lab开源可复现的深度研究智能体，最大限度降低外部依赖(腾讯ai lab实验室在哪里)

猜你喜欢

初代甜歌皇后巅峰时隐退，遭遇丈夫被抓：人要学会与自己和解(初代甜歌皇后是谁)

解读橡胶异形件生产商的价格，费用多少才合理呢？(异戉橡胶)

春节不停工，他们守护1.95亿人用水“生命线”(春节不停工措施)

结核菌素试验结果判断(结核菌素试验结果报告单)

从财报解码到资本运作：EMBA课堂上的真实并购案例复盘(手把手读财报)