阶跃星辰上线基于单智能体架构Step-DeepResearch !|上海新“模”样(阶跃力是什么)

转载自:阶跃星辰

比肩 Gemini、成本直降 90%!

向大家介绍我们最新端到端深度研究智能体模型:Step-DeepResearch。

它能做什么?

  • 会思考:懂规划、会反思、还能自主验证信息的真伪,不只是数据爬虫。

  • 更专业:结合高质量搜索 API,内置 2000 万+ 高质量文档库和 600+ 权威站点索引,过滤低信源信息干扰。

  • 更聪明:独特的原子能力训练法,让模型把“专家思维”内化在骨子里。

在针对真实复杂场景的 ADR-Bench 评测中,Step-DeepResearch 表现出极强竞争力,在多个维度上全面超越海内外一线 DeepResearch 产品和模型,包括基于千亿级甚至万亿级参数 MoE 架构的 Gemini DeepResearch、OpenAI DeepResearch 等模型。

而 Step-DeepResearch 仅基于单智能体架构实现。

在我们的技术报告全面公开后,立刻引发海内外社区热烈讨论,并入选 HuggingFace Daily Papers。

现在,我们开启 API 内测,欢迎大家踊跃体验!

  • 论文地址:https://arxiv.org/pdf/2512.20491

  • GitHub:https://github.com/stepfun-ai/StepDeepResearch

  • API 内测:https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc

  • 官方主页:https://www.stepfun.com/deep-research-invitation

专家级性能,比肩海外顶尖大模型

Step-DeepResearch 在多项权威基准测试中都达到全球顶尖水平。

在 Research Rubrics 上,Step-DeepResearch 得分 61.42%,仅次于 Gemini DeepResearch(约 63.69分),且超越了 OpenAI DeepResearch。

在“引用质量”和“沟通质量”两个维度上达到了行业最高水平。

在针对真实研究场景的 ADR-Bench 评测中,Step-DeepResearch 的人类 Elo 评分在多个维度处于第一梯队。

特别是在与 Gemini DeepResearch等顶尖模型的直接博弈中,其“胜+平”率高达 67.1%,证明了其生成的报告质量已达到当前最先进水平。

真实案例

  • GUI Agent 技术概述及落地应用场景深度研究报告

Step-DeepResearch 引用最新行业动态(Step-GUI、『豆包』手机等),来自上百条条高质量信源,内容覆盖底层技术、应用、挑战与争议,客观全面分析议题,达到标准调深度研报告水平。

▲上下详细内容

让基础模型快速成为深度研究专家

Step-DeepResearch 的主要创新可归纳为3方面:

  • 基于原子能力的数据合成策略

  • 渐进式智能体训练范式

  • 自建 ADR-Bench 评估体系

我们将深度研究能力拆分为四个原子能力,并针对性地合成数据进行强化。

  1. 规划与任务拆解:能将模糊、宏大的用户需求拆解为可执行的子任务,并根据环境反馈动态调整路径。

  2. 深度信息搜索:具备多跳推理能力,能在信息不完整时进行“主动拓扑行走”,挖掘隐藏实体。

  3. 报告生成:通过中期训练(Mid-training)学习专家写作风格,并利用 SFT 确保报告严格遵循规划结构和引用规范。

我们的智能体训练范式主要包含三个阶段:

  1. Agentic Mid-training:在预训练和微调之间加入 Mid-training,通过 32K 和 128K 两个阶段的上下文调度,注入原子能力,使模型内化“下一步行动”的决策逻辑,而非简单的“预测下一个 Token”。

  2. SFT侧重于长程决策轨迹的合成与领域适配,强化意图理解、规划执行及严格引用格式的遵循,解决模型在长时间研究任务中容易“分心”或“迷路”的问题。

  3. RL:引入 Checklist-style Judger 奖励设计,将复杂的报告质量评估转化为细粒度的信号,进一步优化长程决策的鲁棒性。

在系统架构上,我们采用单智能体 ReAct 架构,避免复杂多智能体系统协作带来的系统冗余。

欢迎转发,但请注明出处“上海经信委”

特别声明:[阶跃星辰上线基于单智能体架构Step-DeepResearch !|上海新“模”样(阶跃力是什么)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

春节给长辈发多少红包🧧最吉利?聊聊2026年的红包🧧新趋势(春节给长辈发多少红包🧧)

春节送长辈多少红包🧧才吉利?除了讨个好彩头,更应注重心意与文化内涵。本文详解金额选择、红包🧧款式,教你送出长辈真正想要的祝福。

春节给长辈发多少红包🧧最吉利?聊聊2026年的红包🧧新趋势(春节给长辈发多少红包🧧)

“观众的命也是命”!75岁『刘晓庆』演少女时期武则天,评论区炸锅了

75岁的『刘晓庆』又要演武则天了,这回不是长剧,而是10天拍完的短剧——消息一出,网友直接炸锅。科技加持下,她确实“年轻”了二十岁,可眼神里的故事感,终究和真正的少女不同。 不过话说回来,『刘晓庆』那句“只要不死,再…

“观众的命也是命”!75岁『刘晓庆』演少女时期武则天,评论区炸锅了

善良的嫂子》:现代家庭伦理中的温情实践与女性♀️力量(善良的嫂子中字头歌词韩国电影叫什么)

这部影片避开了戏剧化的冲突与极端的情节转折,选择聚焦于日常生活中那些容易被忽略的温情瞬间,通过“嫂子”这一传统家庭角色,探讨了现代社会中女性♀️在家庭伦理与个人价值之间的平衡艺术,展现了平凡中的不平凡人性光辉。这…

《<strong>善良的嫂子</strong>》:现代家庭伦理中的温情实践与女性♀️力量(善良的嫂子中字头歌词韩国电影叫什么)

刻章费用贵到头疼?三招教你立省30%还不踩坑(刻章大概多少钱一个)

刻章是企业注册和个人业务中必不可少的环节,它不仅是身份证🪪明的象征,还涉及法律效力然而,许多人常因刻章费用高昂而头痛,甚至延误正事本篇文章从科普角度出发,解析刻章费用的构成因素,并提供实用攻略,帮助您轻松省钱省…

刻章费用贵到头疼?三招教你立省30%还不踩坑(刻章大概多少钱一个)

港姐冠军住半亿豪宅,演戏不红却靠赛马赢254万,她到底靠啥翻身(25位港姐冠军今昔对比)

从一开始,她就没有依赖家族背景,而是靠自己的能力赚取收入,这和常见的港姐嫁入豪门的套路有所不同。赛马不仅仅是看人的财力,背后更涉及到资金的投入、风险的承担以及利润的分配,而黄嘉雯在这一切面前,做得非常清晰和透…

港姐冠军住半亿豪宅,演戏不红却靠赛马赢254万,她到底靠啥翻身(25位港姐冠军今昔对比)