机器之心报道
编辑:Panda
天气很热,WAIC 2025 也很热,来自中国的开源模型军团更是热上加热。
就在刚刚开始的 WAIC 2025(世界人工智能大会)前一天,被誉为「多模态卷王」的阶跃星辰率先投下一枚重磅炸弹,正式推出其新一代基座模型:Step 3。
这并非又一个普通的模型迭代。从各项数值上看,Step 3 无疑是开源 VLM 新晋之王,在 MMMU、MathVision 和 SimpleVQA 等基准上均超越了其它同类别开源模型。
即便与 OpenAI o3、Gemini 2.5 Pro、Claude Opus 4 等顶尖的闭源 VLM 相比,它的推理能力也有一战之力。
Step 3 一发布就吸引了海内外广泛关注,比如在我们的相关推文下方,就有多位网友表达赞誉。
机器之心也在阶跃星辰发布会现场,亲眼见证了这又一「国产之光」的诞生。
整场发布会下来,我们的感受是 Step 3 不仅是一个性能强大的模型,同时也是一个答案。它回答的是这样一个横亘在所有 AI 从业者面前的问题:什么样的模型才是真正能服务于千行百业、最适合商业化应用的理想形态?
如今,AI 的行业叙事已经清晰地从训练场转向了真实世界的推理任务。当顶尖模型的智能上限被不断拔高后,真正的瓶颈落在了应用侧。推理成本居高不下、特定场景适配难、多模态能力调用不全堪称阻碍 AI 技术走向大众的「三座大山」。因此,一个真正适合应用的推理模型,必须在智能、成本、效率和通用性之间找到最佳的平衡点。
而 Step 3 回答的方式可以凝练成四个字:多开好省。
- 多,即多模态。Step 3 具备文本和视觉的多模态能力,实现了多模合一。
- 开,即开源。阶跃星辰表示 Step 3 将于 7 月 31 日面向全球企业和开发者开源。
- 好,即性能优异。Step 3 是最强大的开源多模态推理模型。
- 省,即效率更高、成本更低。Step 3 的高效率和低使用成本使其非常适合商业部署和应用 —— 实现了行业最高的推理解码效率,在国产芯片上的推理成本仅为当前业界领先开源模型的三分之一 。
这一发布不仅是阶跃星辰自身从技术深耕迈向商业化成熟的宣言,更可能为深陷成本与应用难题的 AI 行业提供一个极具吸引力的新范式。Step 3 究竟能否凭借其「四字真言」成为推理时代的一个最优解?一切答案,正从这里揭晓。
机器之心实测
VLM 开源第一王实至名归
实践可以检验真理。Step 3 究竟能否戴上「开源 VLM 之王」的桂冠,同样需要实践验证。目前,Step 3 已经上线 stepfun.com 与阶跃 AI APP,我们也在第一时间对其进行了多维度测试。
我们的第一个测试颇具趣味性,可以考验其观察与分析能力:派出我家肥猫,让 Step 3 来对她进行「视觉称重」。
Step 3 的表现相当出色:它不仅准确识别出猫的品种(三花猫)及其身下的人体工学坐垫,还对猫的体型(体型匀称)进行了分析,最终给出了一个相当精准的体重估测。
Step 3 甚至还能帮你理解新鲜热梗,就以昨天堪称「最逆天的 NeurIPS 评审」的「Who's Adam?」为例,我们直接将推文截图交给 Step 3,然后问它为什么这个帖子这么火。
而 Step 3 的表现可以说超出了预期,不仅清晰地解释了「Who's Adam?」的内涵并解答了其火爆的原因,更是用一句「戳中了 AI 研究者们对审稿质量焦虑的痛点」做了恰到好处的犀利总结。
Step 3 也支持同时输入多个视觉内容,比如这里我们让 Step 3 根据四张歌词的截图编写了一个感人的故事:
Step 3 证明了其强大的多模态信息整合与创意生成能力后,我们又测试一下 Step 3 的深度推理能力:根据一张贴有贴纸的主机的侧面照片推测其上一共有多少贴纸。这个问题对当今的多模态模型来说还相对较难,而我们也将测试平台换到了网页端 stepfun.com。
可以看到,Step 3 首先准确地识别出了这些贴纸的角色,然后它又准确统计出了可见部分中贴纸的数量。之后 Step 3 进入了更深度的思考,考虑了提示词中提到的「对称」的各种可能性。最终,它正确地确定了最终答案,并相当准确地给出了可见部分贴纸中的内容。
我们还让 Step 3 挑战了一项终极任务:解读其自身的技术报告中的一张图,这将是对其专业视觉理解能力的极致考验。
可以看到,Step 3 基本正确地解读了 Step 3 技术报告中 AFD 架构的模块分解示意图。
经过一系列的实测,Step 3 的交互体验让我们印象深刻,甚至让我们一度惊叹:这么强的模型竟也开源?其响应流畅,视觉理解能力超强,在处理极其复杂的或有歧义的视觉问题时,其回答偶有偏差,这也在意料之中。但其强大的基础视觉理解、推理能力以及流畅的交互体验,已经足以证明它在当前的开源多模态模型中确实坐拥王者之位。Step 3 所展现的,是一个真正能「看懂」并「理解」物理世界的 AI 助手雏形。
顺带一提,在测试 Step 3 的过程中,我们还惊喜地发现了阶跃 AI App 上一个被许多用户忽视的功能:智能视频通话。在该功能下,用户只需在 App 内开启摄像头,手机便化身为一个强大的智能视觉助手。
我们实测发现,实时视觉理解能力非常惊艳!比如在下面这个案例中,阶跃 AI 不仅迅速识别出了这款桌游名叫「Splendor(璀璨宝石)」,还准确地阐述了其背景信息。
当一只好奇的猫突然闯入镜头,占据游戏盒时,我们实时打断了 Step 3 的介绍并发问。模型无缝切换了对话,并围绕这位「不速之客」给出了一些颇为有趣且有用的建议,展现了其强大的实时多模态对话与打断能力。
深度拆解
Step 3 是如何诞生的?
那么,如此「多开好省」的 Step 3 究竟是如何炼成的呢?翻开 Step 3 的系统和架构技术报告,我们可以看到答案并非单一技术的突破,而是源于一套完整且自洽的技术栈,涵盖了从底层原创架构到高层系统协同的全链路创新。
- 技术报告:Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding
- 报告地址:https://github.com/stepfun-ai/Step3/blob/main/Step3-Sys-Tech-Report.pdf
首先,底层架构上,Step 3 采用了阶跃星辰原创的 MFA 架构,即 Multi-matrix Factorization Attention(多矩阵分解注意力)。该架构在设计之时就兼顾了效率与性能,其中的创新之处包括增加注意力头的数量和维度、采用激进的低秩分解策略以及采用单键值(QK)头设计。这样一来,MFA 架构既能最大限度地节省资源,又能尽可能接近理论性能上限。
MFA 和 MFA-KR 架构与 MQA/GQA 架构的比较
Step 3 使用的MFA 还专门针对国产芯片进行了优化。这是 MFA 架构最关键的亮点之一。针对国产芯片在制程和 HBM(高带宽显存)限制下,算力与显存带宽受限的普遍痛点,MFA 进行了专门优化。其计算密度(128 倍于 KV 访存量)完美匹配国产芯片的特性,避免了主流架构 MLA(需要巨大算力)和 GQA(需要巨大访存)在国产芯片上会遭遇的计算瓶颈或访存瓶颈。
技术数据显示,在同尺寸和同等激活参数量下,Step 3 的 MFA 架构所需绝对 KV 量仅为 Qwen GQA 的 1/3,绝对计算量仅为 DeepSeek MLA 的 1/4 。这使得 Step 3 在国产芯片上的运行成本甚至比 DeepSeek 和 Qwen 在高端芯片上更低!这能真正从底层技术上助力国产芯片与国际顶尖芯片同台竞技。
更高层级上,Step 3 采用了 MoE(混合专家)架构,总参数量为 321B(其中 LLM 的参数量 316B,视觉编码器的参数量 5B),激活参数量则达到 38B。
Step 3 模型卡
这一规模可确保其算法效果与 DeepSeek(激活 37B)相当,并强于 Qwen(激活 22B)。
更重要的是,阶跃星辰还进一步对 MoE 的部署进行了深度优化:
- 先进的分布式推理:阶跃星辰实现了一套比 DeepSeek 的「大 EP」模式更先进的分布式推理方案 Attention-FFN Disaggregation (AFD),针对 Attention 和 FFN 的计算特点,分别分配给内存带宽大和算力强的 GPU 集群,实现资源精准匹配,从而进一步压缩成本。该方案可配合分享通信库的参考实现,无需依赖英伟达特有的 IBGDA 等功能,因此对各类国产芯片厂商更加友好。
- 网络部署友好:AF 分离方案相比大 EP,可用相对较小的部署规模,较好地缓解了大规模部署时跨 ToR 的网络抖动问题。
在 32k 上下文长度下,每个解码 token 的计算和内存理论使用量
正是在原创 MFA 架构、高效 MoE 方案以及软硬件协同创新的共同作用下,Step 3 最终得以「多开好省」的王者姿态呈现在世人面前。
在多模态方面,作为业内享有盛誉的「多模态卷王」,阶跃星辰这一次又在这个赛道上卷到了新的高度。Step 3 是阶跃星辰首个全尺寸的原生多模态推理模型,具备强大的视觉理解能力。Step 3 同时还有强大的推理能力,是开源模型中少有的即支持多模态又能深度推理的大模型。
而开源方面,继 DeepSeek 系列模型、Qwen 系列模型以及 Kimi K2 之后,Step 3 作为又一强大的开源模型,在独特的多模态赛道上为国产 AI 再次赢得了荣誉。
接下来的好,自然是性能卓越,Step 3 用 SOTA 成绩证明了自己。在 MMMU、MathVision 等多个权威多模态基准上,其成绩超越了 ERINE 4.5、GLM-4.1V-thinking 等一众开源模型。
最后,在至关重要的省方面,通过 AFD 等一系列极致的优化,阶跃星辰用 Step 3 交出了一份惊人的答卷!
- 根据原理分析,Step 3 在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%,且对所有芯片友好;
- 在基于 NVIDIA Hopper 架构的芯片进行分布式推理时,实测 Step 3 相较于 DeepSeek-R1 的吞吐量提升超 70%。
这一切并非通过补贴或牺牲性能实现的「价格战」,而是通过提升解码效率等核心技术创新带来的、可持续的成本效益革命。
事实上,Step 3 的横空出世并非一日之功,而是阶跃星辰在技术路线上长期积累与迭代的必然结果。回顾其 Step 系列基座模型的发展历程,我们可以清晰地看到一条从夯实基础、探索深度智能到聚焦商业化效率的进化路径。
这一切始于 Step-1,这是阶跃星辰自主研发的千亿参数语言大模型,其性能全面超越 GPT-3.5,为公司奠定了坚实的技术基石。之后,采用 MoE 架构的 Step-2 将探索的重点转向深度智能,成为国内首个由创业公司发布的万亿参数语言大模型,在多种任务的体感上全面逼近 GPT-4,并曾在「最难 LLM 评测榜单」LiveBench 上拿下中国第一、全球第五的佳绩。
从 Step-1 对标 GPT-3.5 到 Step-2 对标 GPT-4,正是这些在模型架构、算法与系统上的持续创新与深厚积累,最终成为 Step-3 在推理时代实现极致的商业化效能的有效支撑。
Not Just One More Thing
阶跃星辰可以更高调
在过去两年多的时间里,由微软前全球副总裁姜大昕博士创立的阶跃星辰,虽凭借其强大的模型矩阵被业内冠以「多模态卷王」的美誉,但其行事风格整体不算高调。
但这一次,随着开源 Step 3 的震撼发布,「阶跃星辰 / StepFun」这个名字注定将成为 AI 社区的一个热词。更重要的是,在本次发布会上,我们看到的远不止 Step 3 这一个模型。正如那句经典的「One More Thing」,阶跃星辰展示了其在技术生态与商业化落地上同样宏大的布局。
第一个 One More Thing 是阶跃星辰携手华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等 10 家芯片及基础设施厂商,共同发起「模芯生态创新联盟」。
这个堪称「豪华朋友圈」的联盟的意义远超一次简单的站台。它代表了一种更深层的行业思考:要真正推动大模型的普及,仅靠模型厂商之间的 API「价格战」远远不够,根本路径在于通过模型与芯片厂商的底层协同创新,真正可持续地降低成本。Step 3 模型对国产芯片的深度适配和极致的效率优化,可以说正是这一模式下诞生的首个硕果,它不仅让自身更具应用性,也为整个国产算力生态的发展注入了强心剂。
第二个 One More Thing 是一份极其亮眼的「商业化半年报」。
主要得益于在智能终端 Agent 领域(手机和汽车)的率先布局和量产落地,阶跃星辰的商业化应用在 2025 年增长迅猛。阶跃星辰开放平台数据显示,2025 年上半年来自智能终端的多模态模型调用次数和调用量,较去年下半年环比增长均超过 800%。预计阶跃星辰年内收入将接近 10 亿元!
在手机领域,Top 10 国产手机厂商中过半已和阶跃星辰达成合作。其多模态能力已落地多个智能手机品牌的量产旗舰机型,陪伴着上亿人的日常生活。在汽车领域,其端到端语音大模型在吉利银河 M9 上实现行业首发上车,并联合发布了新一代智能座舱 Agent OS(预览版)。在具身智能和 IoT 领域,阶跃星辰也已经与一些头部厂商建立了合作关系。
从深耕技术到广积粮草,再到如今手握王牌模型、联合生态伙伴并交出亮眼的商业答卷;这一次,一向「埋头做事」的阶跃星辰,完全有理由、也理应更高调。
从多模态卷王到推理时代的「最优解」
在过去一年多的时间里,阶跃星辰凭借其惊人的迭代速度和全面的模型矩阵,被业界冠以「多模态卷王」的称号 。截至今天,其发布的 26 款模型中有多达 20 款是多模态模型,在整体基座模型中占比超过七成,且在多个权威榜单上名列前茅。
而 Step 3 的发布,清晰地标志着这位「卷王」已进入新的战略层次。它不再仅仅是展示肌肉、追求单一维度的技术领先,而是将目光投向了整个行业最核心、最迫切的痛点:在 AI 全面进入应用的「推理时代」,如何提供一个真正好用、普惠且强大的商业化模型 。
阶跃星辰给出的答案就是 Step 3。它并非简单的打榜模型,而是一个试图将多模态能力(多)、开源生态(开)、顶尖性能(好)与极致效率(省)四个关键维度进行完美融合的「最优解」。通过填补「好用且开源的多模态推理模型」这一市场空白,它为万千开发者和企业提供了一个无需在性能与成本、开放与能力之间艰难取舍的全新选择。
更重要的是,阶跃星辰选择了一条更艰难但更具长期价值的路径。相较于容易引发恶性竞争的 API 价格战,其联合芯片及基础设施厂商成立「模芯生态创新联盟」 致力于通过「模型和系统联合创新」的模式,从根本上推动技术普及和成本降低 。这不仅展现了其作为技术公司的格局,也为行业探索出一条更可持续的良性增长之路。
从「卷王」到「解题者」,阶跃星辰用 Step 3 证明了其对产业的深刻洞察。这不仅是一家 AI 公司技术实力的体现,更标志着其走向商业成熟的决心,也就是为市场打造一个真正有诚意、有价值、用得起的大模型。
文中视频链接:https://mp.weixin.qq.com/s/t9HAQG6WD3BPwg95d4Y8Fw