时隔 5 年,OpenAI 再次开源两款 AI 模型!
OpenAI 终于不再“Close”!继 Claude 推出 Opus 4.1 后,OpenAI 也不甘示弱,一下子发布了两款开源模型:gpt-oss-120b和gpt-oss-20b。
据 Sam Altman 称,此次开源的 gpt-oss 模型性能水平与 o4-mini 相当,并且能够在笔记本电脑上运行。
那么,gpt-oss 两款开源模型表现如何?
先说结论:
gpt-oss-120b 是大型开放模型,可在单个 H100 GPU 上运行,适用于生产环境、通用应用和高推理需求。
gpt-oss-20b 是中型开放模型,能够直接在笔记本甚至在手机上运行,适用于低延迟、本地或专业化场景。
OpenAI 此次开源的两款模型都是纯文本、非多模态的推理模型,支持128k上下文长度。两款模型都采用了混合专家(MoE)技术,gpt-oss-120b拥有1170亿参数,但通过MoE架构只激活51亿参数;gpt-oss-20b则拥有210亿参数,激活36亿参数。
模型主要亮点:
可调整的推理强度:模型原生支持不同推理模式,你可以根据任务复杂度选择低、中、高 3 种推理模式,在速度和性能之间灵活平衡。
完整的思维链展示:能够看到模型的推理过程,这一功能更方便开发者进行调试,同时也让输出内容可信度更高。
支持微调:开发者可以通过参数微调模型,使模型适用于不同应用场景。
智能 Agent 能力:模型原生功能支持函数调用、网页浏览、Python 代码执行和结构化输出。
原生 MXFP4 量化:模型在 MoE 层使用原生 MXFP4 进行了精度训练,gpt-oss-120b 可在单个 H100 GPU 上运行,gpt-oss-20b 能够在 16GB 内存内运行。
Apache 2.0 许可证:两款模型都采用了宽松的 Apache 2.0 许可证,非常适合做实验、定制以及商业部署。
两款模型性能测试根据 OpenAI 提供的基准测试结果来看,gpt-oss-120b 优于 o3-mini 模型,在竞争编码、一般问题解决和工具调用方面与 o4-mini 相当。
在相同的测试中,gpt-oss-20b 性能评估与 o3-mini 相当,甚至在竞赛数学和健康方面优于 o3-mini。
在竞赛编程(Codeforces)测试中,gpt-oss-120b(带工具)超越了o3-mini,获得了 2622 Elo评分,性能与 o4-mini 不相上下。
在健康查询(HealthBench)测试中,gpt-oss-120b的表现甚至超过了o4-mini。作为一个开源模型居然能在某些任务上击败 OpenAI 自家的闭源产品!
此外,体积更加小巧的 gpt-oss-20b 在多项测评中也与 o3-mini 性能持平或超越 o3-mini。
完整评估结果: