实测爆火的阶跃星辰Step 3，性能SOTA，开源多模态推理之王(火爆测评)#科技#成本#能力#推理#视觉#模型

机器之心报道

编辑：Panda

天气很热，WAIC 2025 也很热，来自中国的开源模型军团更是热上加热。

就在刚刚开始的 WAIC 2025（世界人工智能大会）前一天，被誉为「多模态卷王」的阶跃星辰率先投下一枚重磅炸弹，正式推出其新一代基座模型：Step 3。

这并非又一个普通的模型迭代。从各项数值上看，Step 3 无疑是开源 VLM 新晋之王，在 MMMU、MathVision 和 SimpleVQA 等基准上均超越了其它同类别开源模型。

即便与 OpenAI o3、Gemini 2.5 Pro、Claude Opus 4 等顶尖的闭源 VLM 相比，它的推理能力也有一战之力。

Step 3 一发布就吸引了海内外广泛关注，比如在我们的相关推文下方，就有多位网友表达赞誉。

机器之心也在阶跃星辰发布会现场，亲眼见证了这又一「国产之光」的诞生。

整场发布会下来，我们的感受是 Step 3 不仅是一个性能强大的模型，同时也是一个答案。它回答的是这样一个横亘在所有 AI 从业者面前的问题：什么样的模型才是真正能服务于千行百业、最适合商业化应用的理想形态？

如今，AI 的行业叙事已经清晰地从训练场转向了真实世界的推理任务。当顶尖模型的智能上限被不断拔高后，真正的瓶颈落在了应用侧。推理成本居高不下、特定场景适配难、多模态能力调用不全堪称阻碍 AI 技术走向大众的「三座大山」。因此，一个真正适合应用的推理模型，必须在智能、成本、效率和通用性之间找到最佳的平衡点。

而 Step 3 回答的方式可以凝练成四个字：多开好省。

多，即多模态。Step 3 具备文本和视觉的多模态能力，实现了多模合一。
开，即开源。阶跃星辰表示 Step 3 将于 7 月 31 日面向全球企业和开发者开源。
好，即性能优异。Step 3 是最强大的开源多模态推理模型。
省，即效率更高、成本更低。Step 3 的高效率和低使用成本使其非常适合商业部署和应用 —— 实现了行业最高的推理解码效率，在国产芯片上的推理成本仅为当前业界领先开源模型的三分之一。

这一发布不仅是阶跃星辰自身从技术深耕迈向商业化成熟的宣言，更可能为深陷成本与应用难题的 AI 行业提供一个极具吸引力的新范式。Step 3 究竟能否凭借其「四字真言」成为推理时代的一个最优解？一切答案，正从这里揭晓。

机器之心实测

VLM 开源第一王实至名归

实践可以检验真理。Step 3 究竟能否戴上「开源 VLM 之王」的桂冠，同样需要实践验证。目前，Step 3 已经上线 stepfun.com 与阶跃 AI APP，我们也在第一时间对其进行了多维度测试。

我们的第一个测试颇具趣味性，可以考验其观察与分析能力：派出我家肥猫，让 Step 3 来对她进行「视觉称重」。

Step 3 的表现相当出色：它不仅准确识别出猫的品种（三花猫）及其身下的人体工学坐垫，还对猫的体型（体型匀称）进行了分析，最终给出了一个相当精准的体重估测。

Step 3 甚至还能帮你理解新鲜热梗，就以昨天堪称「最逆天的 NeurIPS 评审」的「Who's Adam?」为例，我们直接将推文截图交给 Step 3，然后问它为什么这个帖子这么火。

而 Step 3 的表现可以说超出了预期，不仅清晰地解释了「Who's Adam?」的内涵并解答了其火爆的原因，更是用一句「戳中了 AI 研究者们对审稿质量焦虑的痛点」做了恰到好处的犀利总结。

Step 3 也支持同时输入多个视觉内容，比如这里我们让 Step 3 根据四张歌词的截图编写了一个感人的故事：

Step 3 证明了其强大的多模态信息整合与创意生成能力后，我们又测试一下 Step 3 的深度推理能力：根据一张贴有贴纸的主机的侧面照片推测其上一共有多少贴纸。这个问题对当今的多模态模型来说还相对较难，而我们也将测试平台换到了网页端 stepfun.com。

可以看到，Step 3 首先准确地识别出了这些贴纸的角色，然后它又准确统计出了可见部分中贴纸的数量。之后 Step 3 进入了更深度的思考，考虑了提示词中提到的「对称」的各种可能性。最终，它正确地确定了最终答案，并相当准确地给出了可见部分贴纸中的内容。

我们还让 Step 3 挑战了一项终极任务：解读其自身的技术报告中的一张图，这将是对其专业视觉理解能力的极致考验。

可以看到，Step 3 基本正确地解读了 Step 3 技术报告中 AFD 架构的模块分解示意图。

经过一系列的实测，Step 3 的交互体验让我们印象深刻，甚至让我们一度惊叹：这么强的模型竟也开源？其响应流畅，视觉理解能力超强，在处理极其复杂的或有歧义的视觉问题时，其回答偶有偏差，这也在意料之中。但其强大的基础视觉理解、推理能力以及流畅的交互体验，已经足以证明它在当前的开源多模态模型中确实坐拥王者之位。Step 3 所展现的，是一个真正能「看懂」并「理解」物理世界的 AI 助手雏形。

顺带一提，在测试 Step 3 的过程中，我们还惊喜地发现了阶跃 AI App 上一个被许多用户忽视的功能：智能视频通话。在该功能下，用户只需在 App 内开启摄像头，手机便化身为一个强大的智能视觉助手。

我们实测发现，实时视觉理解能力非常惊艳！比如在下面这个案例中，阶跃 AI 不仅迅速识别出了这款桌游名叫「Splendor（璀璨宝石）」，还准确地阐述了其背景信息。

当一只好奇的猫突然闯入镜头，占据游戏盒时，我们实时打断了 Step 3 的介绍并发问。模型无缝切换了对话，并围绕这位「不速之客」给出了一些颇为有趣且有用的建议，展现了其强大的实时多模态对话与打断能力。

深度拆解

Step 3 是如何诞生的？

那么，如此「多开好省」的 Step 3 究竟是如何炼成的呢？翻开 Step 3 的系统和架构技术报告，我们可以看到答案并非单一技术的突破，而是源于一套完整且自洽的技术栈，涵盖了从底层原创架构到高层系统协同的全链路创新。

技术报告：Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding
报告地址：https://github.com/stepfun-ai/Step3/blob/main/Step3-Sys-Tech-Report.pdf

首先，底层架构上，Step 3 采用了阶跃星辰原创的 MFA 架构，即 Multi-matrix Factorization Attention（多矩阵分解注意力）。该架构在设计之时就兼顾了效率与性能，其中的创新之处包括增加注意力头的数量和维度、采用激进的低秩分解策略以及采用单键值（QK）头设计。这样一来，MFA 架构既能最大限度地节省资源，又能尽可能接近理论性能上限。

MFA 和 MFA-KR 架构与 MQA/GQA 架构的比较

Step 3 使用的MFA 还专门针对国产芯片进行了优化。这是 MFA 架构最关键的亮点之一。针对国产芯片在制程和 HBM（高带宽显存）限制下，算力与显存带宽受限的普遍痛点，MFA 进行了专门优化。其计算密度（128 倍于 KV 访存量）完美匹配国产芯片的特性，避免了主流架构 MLA（需要巨大算力）和 GQA（需要巨大访存）在国产芯片上会遭遇的计算瓶颈或访存瓶颈。

技术数据显示，在同尺寸和同等激活参数量下，Step 3 的 MFA 架构所需绝对 KV 量仅为 Qwen GQA 的 1/3，绝对计算量仅为 DeepSeek MLA 的 1/4 。这使得 Step 3 在国产芯片上的运行成本甚至比 DeepSeek 和 Qwen 在高端芯片上更低！这能真正从底层技术上助力国产芯片与国际顶尖芯片同台竞技。

更高层级上，Step 3 采用了 MoE（混合专家）架构，总参数量为 321B（其中 LLM 的参数量 316B，视觉编码器的参数量 5B），激活参数量则达到 38B。

Step 3 模型卡

这一规模可确保其算法效果与 DeepSeek（激活 37B）相当，并强于 Qwen（激活 22B）。

更重要的是，阶跃星辰还进一步对 MoE 的部署进行了深度优化：

先进的分布式推理：阶跃星辰实现了一套比 DeepSeek 的「大 EP」模式更先进的分布式推理方案 Attention-FFN Disaggregation (AFD），针对 Attention 和 FFN 的计算特点，分别分配给内存带宽大和算力强的 GPU 集群，实现资源精准匹配，从而进一步压缩成本。该方案可配合分享通信库的参考实现，无需依赖英伟达特有的 IBGDA 等功能，因此对各类国产芯片厂商更加友好。
网络部署友好：AF 分离方案相比大 EP，可用相对较小的部署规模，较好地缓解了大规模部署时跨 ToR 的网络抖动问题。

在 32k 上下文长度下，每个解码 token 的计算和内存理论使用量

正是在原创 MFA 架构、高效 MoE 方案以及软硬件协同创新的共同作用下，Step 3 最终得以「多开好省」的王者姿态呈现在世人面前。

在多模态方面，作为业内享有盛誉的「多模态卷王」，阶跃星辰这一次又在这个赛道上卷到了新的高度。Step 3 是阶跃星辰首个全尺寸的原生多模态推理模型，具备强大的视觉理解能力。Step 3 同时还有强大的推理能力，是开源模型中少有的即支持多模态又能深度推理的大模型。

而开源方面，继 DeepSeek 系列模型、Qwen 系列模型以及 Kimi K2 之后，Step 3 作为又一强大的开源模型，在独特的多模态赛道上为国产 AI 再次赢得了荣誉。

接下来的好，自然是性能卓越，Step 3 用 SOTA 成绩证明了自己。在 MMMU、MathVision 等多个权威多模态基准上，其成绩超越了 ERINE 4.5、GLM-4.1V-thinking 等一众开源模型。

最后，在至关重要的省方面，通过 AFD 等一系列极致的优化，阶跃星辰用 Step 3 交出了一份惊人的答卷！

根据原理分析，Step 3 在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%，且对所有芯片友好；
在基于 NVIDIA Hopper 架构的芯片进行分布式推理时，实测 Step 3 相较于 DeepSeek-R1 的吞吐量提升超 70%。

这一切并非通过补贴或牺牲性能实现的「价格战」，而是通过提升解码效率等核心技术创新带来的、可持续的成本效益革命。

事实上，Step 3 的横空出世并非一日之功，而是阶跃星辰在技术路线上长期积累与迭代的必然结果。回顾其 Step 系列基座模型的发展历程，我们可以清晰地看到一条从夯实基础、探索深度智能到聚焦商业化效率的进化路径。

这一切始于 Step-1，这是阶跃星辰自主研发的千亿参数语言大模型，其性能全面超越 GPT-3.5，为公司奠定了坚实的技术基石。之后，采用 MoE 架构的 Step-2 将探索的重点转向深度智能，成为国内首个由创业公司发布的万亿参数语言大模型，在多种任务的体感上全面逼近 GPT-4，并曾在「最难 LLM 评测榜单」LiveBench 上拿下中国第一、全球第五的佳绩。

从 Step-1 对标 GPT-3.5 到 Step-2 对标 GPT-4，正是这些在模型架构、算法与系统上的持续创新与深厚积累，最终成为 Step-3 在推理时代实现极致的商业化效能的有效支撑。

Not Just One More Thing

阶跃星辰可以更高调

在过去两年多的时间里，由微软前全球副总裁姜大昕博士创立的阶跃星辰，虽凭借其强大的模型矩阵被业内冠以「多模态卷王」的美誉，但其行事风格整体不算高调。

但这一次，随着开源 Step 3 的震撼发布，「阶跃星辰 / StepFun」这个名字注定将成为 AI 社区的一个热词。更重要的是，在本次发布会上，我们看到的远不止 Step 3 这一个模型。正如那句经典的「One More Thing」，阶跃星辰展示了其在技术生态与商业化落地上同样宏大的布局。

第一个 One More Thing 是阶跃星辰携手华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等 10 家芯片及基础设施厂商，共同发起「模芯生态创新联盟」。

这个堪称「豪华朋友圈」的联盟的意义远超一次简单的站台。它代表了一种更深层的行业思考：要真正推动大模型的普及，仅靠模型厂商之间的 API「价格战」远远不够，根本路径在于通过模型与芯片厂商的底层协同创新，真正可持续地降低成本。Step 3 模型对国产芯片的深度适配和极致的效率优化，可以说正是这一模式下诞生的首个硕果，它不仅让自身更具应用性，也为整个国产算力生态的发展注入了强心剂。

第二个 One More Thing 是一份极其亮眼的「商业化半年报」。

主要得益于在智能终端 Agent 领域（手机和汽车）的率先布局和量产落地，阶跃星辰的商业化应用在 2025 年增长迅猛。阶跃星辰开放平台数据显示，2025 年上半年来自智能终端的多模态模型调用次数和调用量，较去年下半年环比增长均超过 800%。预计阶跃星辰年内收入将接近 10 亿元！

在手机领域，Top 10 国产手机厂商中过半已和阶跃星辰达成合作。其多模态能力已落地多个智能手机品牌的量产旗舰机型，陪伴着上亿人的日常生活。在汽车领域，其端到端语音大模型在吉利银河 M9 上实现行业首发上车，并联合发布了新一代智能座舱 Agent OS（预览版）。在具身智能和 IoT 领域，阶跃星辰也已经与一些头部厂商建立了合作关系。

从深耕技术到广积粮草，再到如今手握王牌模型、联合生态伙伴并交出亮眼的商业答卷；这一次，一向「埋头做事」的阶跃星辰，完全有理由、也理应更高调。

从多模态卷王到推理时代的「最优解」

在过去一年多的时间里，阶跃星辰凭借其惊人的迭代速度和全面的模型矩阵，被业界冠以「多模态卷王」的称号。截至今天，其发布的 26 款模型中有多达 20 款是多模态模型，在整体基座模型中占比超过七成，且在多个权威榜单上名列前茅。

而 Step 3 的发布，清晰地标志着这位「卷王」已进入新的战略层次。它不再仅仅是展示肌肉、追求单一维度的技术领先，而是将目光投向了整个行业最核心、最迫切的痛点：在 AI 全面进入应用的「推理时代」，如何提供一个真正好用、普惠且强大的商业化模型。

阶跃星辰给出的答案就是 Step 3。它并非简单的打榜模型，而是一个试图将多模态能力（多）、开源生态（开）、顶尖性能（好）与极致效率（省）四个关键维度进行完美融合的「最优解」。通过填补「好用且开源的多模态推理模型」这一市场空白，它为万千开发者和企业提供了一个无需在性能与成本、开放与能力之间艰难取舍的全新选择。

更重要的是，阶跃星辰选择了一条更艰难但更具长期价值的路径。相较于容易引发恶性竞争的 API 价格战，其联合芯片及基础设施厂商成立「模芯生态创新联盟」致力于通过「模型和系统联合创新」的模式，从根本上推动技术普及和成本降低。这不仅展现了其作为技术公司的格局，也为行业探索出一条更可持续的良性增长之路。

从「卷王」到「解题者」，阶跃星辰用 Step 3 证明了其对产业的深刻洞察。这不仅是一家 AI 公司技术实力的体现，更标志着其走向商业成熟的决心，也就是为市场打造一个真正有诚意、有价值、用得起的大模型。

文中视频链接：https://mp.weixin.qq.com/s/t9HAQG6WD3BPwg95d4Y8Fw