时隔5年，OpenAI 再次开源2款推理模型！笔记本、手机可运行(时隔5年《老九门2》来袭)#科技#推理#gptoss#手机#模型#Mini

时隔 5 年，OpenAI 再次开源两款 AI 模型！

OpenAI 终于不再“Close”！继 Claude 推出 Opus 4.1 后，OpenAI 也不甘示弱，一下子发布了两款开源模型：gpt-oss-120b和gpt-oss-20b。

据 Sam Altman 称，此次开源的 gpt-oss 模型性能水平与 o4-mini 相当，并且能够在笔记本电脑上运行。

那么，gpt-oss 两款开源模型表现如何？

先说结论：

gpt-oss-120b 是大型开放模型，可在单个 H100 GPU 上运行，适用于生产环境、通用应用和高推理需求。

gpt-oss-20b 是中型开放模型，能够直接在笔记本甚至在手机上运行，适用于低延迟、本地或专业化场景。

OpenAI 此次开源的两款模型都是纯文本、非多模态的推理模型，支持128k上下文长度。两款模型都采用了混合专家（MoE）技术，gpt-oss-120b拥有1170亿参数，但通过MoE架构只激活51亿参数；gpt-oss-20b则拥有210亿参数，激活36亿参数。

模型主要亮点：

可调整的推理强度：模型原生支持不同推理模式，你可以根据任务复杂度选择低、中、高 3 种推理模式，在速度和性能之间灵活平衡。

完整的思维链展示：能够看到模型的推理过程，这一功能更方便开发者进行调试，同时也让输出内容可信度更高。

支持微调：开发者可以通过参数微调模型，使模型适用于不同应用场景。

智能 Agent 能力：模型原生功能支持函数调用、网页浏览、Python 代码执行和结构化输出。

原生 MXFP4 量化：模型在 MoE 层使用原生 MXFP4 进行了精度训练，gpt-oss-120b 可在单个 H100 GPU 上运行，gpt-oss-20b 能够在 16GB 内存内运行。

Apache 2.0 许可证：两款模型都采用了宽松的 Apache 2.0 许可证，非常适合做实验、定制以及商业部署。

两款模型性能测试

根据 OpenAI 提供的基准测试结果来看，gpt-oss-120b 优于 o3-mini 模型，在竞争编码、一般问题解决和工具调用方面与 o4-mini 相当。

在相同的测试中，gpt-oss-20b 性能评估与 o3-mini 相当，甚至在竞赛数学和健康方面优于 o3-mini。

在竞赛编程（Codeforces）测试中，gpt-oss-120b（带工具）超越了o3-mini，获得了 2622 Elo评分，性能与 o4-mini 不相上下。

在健康查询（HealthBench）测试中，gpt-oss-120b的表现甚至超过了o4-mini。作为一个开源模型居然能在某些任务上击败 OpenAI 自家的闭源产品！

此外，体积更加小巧的 gpt-oss-20b 在多项测评中也与 o3-mini 性能持平或超越 o3-mini。

完整评估结果：

时隔5年，OpenAI 再次开源2款推理模型！笔记本、手机可运行(时隔5年《老九门2》来袭)