从推理轨迹反推：gpt-oss背后的训练策略(推理小说轨迹) #科技 #奖励 #策略 #轨迹 #进行 #推理

Datawhale干货

作者：王振凯、宋志学，Datawhale成员

OpenAI 在 8 月 6 号的凌晨开源了两个 MoE 模型：gpt-oss-120b 和 gpt-oss-20b，并且原生支持 MXFP4 训练和推理，gpt-oss-20b 模型可以直接在一张 16G 的显卡上运行起来，在我的 macbook air 上也可以运行，并且速度还不错，每秒可以输出 17 个 token。

目前可以在openai提供的网站上进行测试：https://www.gpt-oss.com/

模型在AIME24、AIME25和人类最后测试（HLE）效果都挺好，AIME24、AIME25接近满分，HLE稍微逊色于o4-mini。

看上去曾经的“CloseAI”又变 Open 了，接下来我们来分析一下 OpenAI 这次开源模型可能使用的技术细节，看下开源诚意如何。

技术细节推断

如下图所示，gpt-oss 的思维链信息密度很大，每一段都是对某一个子任务的总结，deepseek-r1 的思维链就比较杂乱。

在使用 ORM（对推理的最终结果进行奖励）方式进行 RL 训练时，由于 ORM 只在最终答案正确时给予奖励，模型无法分辨出在整个推理过程中，哪一步才是“有用”的信息，思考过程中大量尝试的累积，会使得模型学到一个错误的关联，即输出长内容更容易获得奖励。这种错误的关联会使得模型输出大量冗余信息，表现出的现象就是推理时思维链非常发散。

因此在初看到 gpt-oss 的推理轨迹时，我们下意识的认为 openai 在训练时改用了 PRM（对推理过程进行奖励），对每个 step（关键 node）进行奖励，以获得高质量的推理轨迹。

但是仔细阅读 model card 后，我们发现 openai 在训练时并未对推理轨迹施加优化。

openai 的研究人员认为，对推理轨迹进行监督，禁止思考有害内容，反而会使得模型在隐藏自己思考内容的同时，依旧输出有害信息。为此，从可解释性和安全性角度考虑，他们决定不对推理轨迹进行任何操作处理。

排除了 PRM 的可能性后，我们在 model card 中找到了另一种可能：审议对齐（deliberative alignment）

论文地址：http://arxiv.org/abs/2412.16339

论文出现在去年 12 月份，在这篇论文中，openai 提出了一种新的训练范式用于安全对齐，这种范式被称为审议对齐。与传统方法中将所有安全规则作为上下文提供给模型的方式不同。在审议对齐中，旨在通过训练令模型内化这些规则，从而在推理时针对用户问题进行更精准的思考，以生成一个合规的答案。通过这种方式，模型不再需要为每一个问题都去“阅读”全部安全规则，从而极大地提升了效率。

具体的 SFT 数据构建流程如下图所示：

通过这种方法，OpenAI 可以生产出大量高质量的安全对齐数据，使得模型在安全对齐的可靠性上表现得更为出色。

既然该方法适用于安全规则，那同样可以运用此方法，为模型的推理轨迹设置一套规则，将其从安全领域拓展到推理轨迹质量上，核心目标是提高推理轨迹的信息密度，大幅减少冗余信息。

具体实现上，可以为推理轨迹设置一套质量规范，Base 模型会根据这套规范，输出推理轨迹和最终结果。再由一个专门评估推理质量的奖励模型，依据质量规范对推理轨迹进行打分，最终筛选出高质量的推理轨迹进行 SFT。通过该阶段，模型可以初步学会如何进行清晰、高效的思考。

在强化学习阶段，SFT 模型根据指令生成推理轨迹和答案后，由奖励模型对整个过程的效率和清晰度进行打分，激励模型去生成更简洁、高效的思考路径。

因此我们合理猜测，在 gpt-oss 训练过程中，openai 使用了审议对齐这一范式，构造了大量高质量的推理轨迹数据进行训练。

此外，gpt-oss 通过在 system prompt 中设置推理预算来控制模型思考长度的方式，侧面佐证了模型在训练时，关于“推理成本”的评价维度已经被内化为模型的对齐目标。虽然我们不能 100% 排除其他路径，但它们都远不如审议对齐的解释来得直接。

https://github.com/openai/harmony

实际体验下来，GPT-OSS 除了在数学推理上表现优秀（AIME 都给刷满分了），但是在简单通用任务、代码任务上简直是灾难性体验。

由此大胆推断：OpenAI 此次推出开源模型只是单纯想来用自己的安全审议技术炫技，甚至在 Kaggle 上创建了一个总奖金 50w 美元的寻找 gpt-oss-20b 模型安全漏洞和有害行为的比赛。

大胆猜测：gpt-oss 模型的预训练数据经过更严格的安全过滤，使其成为一个专注于安全的“特长生”。审议对齐这一新范式的引入，虽然限制了模型的自由发挥，但也迫使其养成了高度结构化、有条理的思考习惯。考虑到其训练数据可能仅是 o3/o4 庞大数据集中的一小块“切片”（例如，仅侧重于数学和科学推理），比起一次全面的技术开源，gpt-oss 的发布更像是安全对齐上的技术炫技。

Reference

1. https://www.gpt-oss.com/

2. http://arxiv.org/abs/2412.16339

3. https://github.com/openai/harmony

4. https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-teaming

大家怎么看此次的开源，欢迎在留言区讨论。

从推理轨迹反推：gpt-oss背后的训练策略(推理小说轨迹)

猜你喜欢

海百川科技亮剑机器人大会，重塑人形智能产业新范式(海创百川)

钢企“最强大脑”是怎样炼成的

孝心航母启航！董璇一带八征服明星爸妈团，海滩T台惊现老年超模天团

男生发型才是“第二张脸”！渐变、寸头……选对直接封神

TVB《女神配对计划》曾展望与叶蒨文商场密会双方已成为情侣？(tvb女神配对计划在线观看)