Datawhale干货
作者:王振凯、宋志学,Datawhale成员
OpenAI 在 8 月 6 号的凌晨开源了两个 MoE 模型:gpt-oss-120b 和 gpt-oss-20b,并且原生支持 MXFP4 训练和推理,gpt-oss-20b 模型可以直接在一张 16G 的显卡上运行起来,在我的 macbook air 上也可以运行,并且速度还不错,每秒可以输出 17 个 token。
目前可以在openai提供的网站上进行测试:https://www.gpt-oss.com/
模型在AIME24、AIME25和人类最后测试(HLE)效果都挺好,AIME24、AIME25接近满分,HLE稍微逊色于o4-mini。
看上去曾经的“CloseAI”又变 Open 了,接下来我们来分析一下 OpenAI 这次开源模型可能使用的技术细节,看下开源诚意如何。
技术细节推断
如下图所示,gpt-oss 的思维链信息密度很大,每一段都是对某一个子任务的总结,deepseek-r1 的思维链就比较杂乱。
在使用 ORM(对推理的最终结果进行奖励)方式进行 RL 训练时,由于 ORM 只在最终答案正确时给予奖励,模型无法分辨出在整个推理过程中,哪一步才是“有用”的信息,思考过程中大量尝试的累积,会使得模型学到一个错误的关联,即输出长内容更容易获得奖励。这种错误的关联会使得模型输出大量冗余信息,表现出的现象就是推理时思维链非常发散。
因此在初看到 gpt-oss 的推理轨迹时,我们下意识的认为 openai 在训练时改用了 PRM(对推理过程进行奖励),对每个 step(关键 node)进行奖励,以获得高质量的推理轨迹。
但是仔细阅读 model card 后,我们发现 openai 在训练时并未对推理轨迹施加优化。
openai 的研究人员认为,对推理轨迹进行监督,禁止思考有害内容,反而会使得模型在隐藏自己思考内容的同时,依旧输出有害信息。为此,从可解释性和安全性角度考虑,他们决定不对推理轨迹进行任何操作处理。
排除了 PRM 的可能性后,我们在 model card 中找到了另一种可能:审议对齐(deliberative alignment)
论文地址:http://arxiv.org/abs/2412.16339
论文出现在去年 12 月份,在这篇论文中,openai 提出了一种新的训练范式用于安全对齐,这种范式被称为审议对齐。与传统方法中将所有安全规则作为上下文提供给模型的方式不同。在审议对齐中,旨在通过训练令模型内化这些规则,从而在推理时针对用户问题进行更精准的思考,以生成一个合规的答案。通过这种方式,模型不再需要为每一个问题都去“阅读”全部安全规则,从而极大地提升了效率。
具体的 SFT 数据构建流程如下图所示:
通过这种方法,OpenAI 可以生产出大量高质量的安全对齐数据,使得模型在安全对齐的可靠性上表现得更为出色。
既然该方法适用于安全规则,那同样可以运用此方法,为模型的推理轨迹设置一套规则,将其从安全领域拓展到推理轨迹质量上,核心目标是提高推理轨迹的信息密度,大幅减少冗余信息。
具体实现上,可以为推理轨迹设置一套质量规范,Base 模型会根据这套规范,输出推理轨迹和最终结果。再由一个专门评估推理质量的奖励模型,依据质量规范对推理轨迹进行打分,最终筛选出高质量的推理轨迹进行 SFT。通过该阶段,模型可以初步学会如何进行清晰、高效的思考。
在强化学习阶段,SFT 模型根据指令生成推理轨迹和答案后,由奖励模型对整个过程的效率和清晰度进行打分,激励模型去生成更简洁、高效的思考路径。
因此我们合理猜测,在 gpt-oss 训练过程中,openai 使用了审议对齐这一范式,构造了大量高质量的推理轨迹数据进行训练。
此外,gpt-oss 通过在 system prompt 中设置推理预算来控制模型思考长度的方式,侧面佐证了模型在训练时,关于“推理成本”的评价维度已经被内化为模型的对齐目标。虽然我们不能 100% 排除其他路径,但它们都远不如审议对齐的解释来得直接。
https://github.com/openai/harmony
实际体验下来,GPT-OSS 除了在数学推理上表现优秀(AIME 都给刷满分了),但是在简单通用任务、代码任务上简直是灾难性体验。
由此大胆推断:OpenAI 此次推出开源模型只是单纯想来用自己的安全审议技术炫技,甚至在 Kaggle 上创建了一个总奖金 50w 美元的寻找 gpt-oss-20b 模型安全漏洞和有害行为的比赛。
大胆猜测:gpt-oss 模型的预训练数据经过更严格的安全过滤,使其成为一个专注于安全的“特长生”。审议对齐这一新范式的引入,虽然限制了模型的自由发挥,但也迫使其养成了高度结构化、有条理的思考习惯。考虑到其训练数据可能仅是 o3/o4 庞大数据集中的一小块“切片”(例如,仅侧重于数学和科学推理),比起一次全面的技术开源,gpt-oss 的发布更像是安全对齐上的技术炫技。
Reference
1. https://www.gpt-oss.com/
2. http://arxiv.org/abs/2412.16339
3. https://github.com/openai/harmony
4. https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-teaming
大家怎么看此次的开源,欢迎在留言区讨论。