从推理轨迹反推:gpt-oss背后的训练策略(推理小说轨迹)

Datawhale干货

作者:王振凯、宋志学,Datawhale成员

OpenAI 在 8 月 6 号的凌晨开源了两个 MoE 模型:gpt-oss-120b 和 gpt-oss-20b,并且原生支持 MXFP4 训练和推理,gpt-oss-20b 模型可以直接在一张 16G 的显卡上运行起来,在我的 macbook air 上也可以运行,并且速度还不错,每秒可以输出 17 个 token。

目前可以在openai提供的网站上进行测试:https://www.gpt-oss.com/

模型在AIME24、AIME25和人类最后测试(HLE)效果都挺好,AIME24、AIME25接近满分,HLE稍微逊色于o4-mini。

看上去曾经的“CloseAI”又变 Open 了,接下来我们来分析一下 OpenAI 这次开源模型可能使用的技术细节,看下开源诚意如何。

技术细节推断

如下图所示,gpt-oss 的思维链信息密度很大,每一段都是对某一个子任务的总结,deepseek-r1 的思维链就比较杂乱。

在使用 ORM(对推理的最终结果进行奖励)方式进行 RL 训练时,由于 ORM 只在最终答案正确时给予奖励,模型无法分辨出在整个推理过程中,哪一步才是“有用”的信息,思考过程中大量尝试的累积,会使得模型学到一个错误的关联,即输出长内容更容易获得奖励。这种错误的关联会使得模型输出大量冗余信息,表现出的现象就是推理时思维链非常发散。

因此在初看到 gpt-oss 的推理轨迹时,我们下意识的认为 openai 在训练时改用了 PRM(对推理过程进行奖励),对每个 step(关键 node)进行奖励,以获得高质量的推理轨迹。

但是仔细阅读 model card 后,我们发现 openai 在训练时并未对推理轨迹施加优化。

openai 的研究人员认为,对推理轨迹进行监督,禁止思考有害内容,反而会使得模型在隐藏自己思考内容的同时,依旧输出有害信息。为此,从可解释性和安全性角度考虑,他们决定不对推理轨迹进行任何操作处理。

排除了 PRM 的可能性后,我们在 model card 中找到了另一种可能:审议对齐(deliberative alignment)

论文地址:http://arxiv.org/abs/2412.16339

论文出现在去年 12 月份,在这篇论文中,openai 提出了一种新的训练范式用于安全对齐,这种范式被称为审议对齐。与传统方法中将所有安全规则作为上下文提供给模型的方式不同。在审议对齐中,旨在通过训练令模型内化这些规则,从而在推理时针对用户问题进行更精准的思考,以生成一个合规的答案。通过这种方式,模型不再需要为每一个问题都去“阅读”全部安全规则,从而极大地提升了效率。

具体的 SFT 数据构建流程如下图所示:

通过这种方法,OpenAI 可以生产出大量高质量的安全对齐数据,使得模型在安全对齐的可靠性上表现得更为出色。

既然该方法适用于安全规则,那同样可以运用此方法,为模型的推理轨迹设置一套规则,将其从安全领域拓展到推理轨迹质量上,核心目标是提高推理轨迹的信息密度,大幅减少冗余信息。

具体实现上,可以为推理轨迹设置一套质量规范,Base 模型会根据这套规范,输出推理轨迹和最终结果。再由一个专门评估推理质量的奖励模型,依据质量规范对推理轨迹进行打分,最终筛选出高质量的推理轨迹进行 SFT。通过该阶段,模型可以初步学会如何进行清晰、高效的思考。

在强化学习阶段,SFT 模型根据指令生成推理轨迹和答案后,由奖励模型对整个过程的效率和清晰度进行打分,激励模型去生成更简洁、高效的思考路径。

因此我们合理猜测,在 gpt-oss 训练过程中,openai 使用了审议对齐这一范式,构造了大量高质量的推理轨迹数据进行训练。

此外,gpt-oss 通过在 system prompt 中设置推理预算来控制模型思考长度的方式,侧面佐证了模型在训练时,关于“推理成本”的评价维度已经被内化为模型的对齐目标。虽然我们不能 100% 排除其他路径,但它们都远不如审议对齐的解释来得直接。

https://github.com/openai/harmony

实际体验下来,GPT-OSS 除了在数学推理上表现优秀(AIME 都给刷满分了),但是在简单通用任务、代码任务上简直是灾难性体验。

由此大胆推断:OpenAI 此次推出开源模型只是单纯想来用自己的安全审议技术炫技,甚至在 Kaggle 上创建了一个总奖金 50w 美元💵的寻找 gpt-oss-20b 模型安全漏洞和有害行为的比赛。

大胆猜测:gpt-oss 模型的预训练数据经过更严格的安全过滤,使其成为一个专注于安全的“特长生”。审议对齐这一新范式的引入,虽然限制了模型的自由发挥,但也迫使其养成了高度结构化、有条理的思考习惯。考虑到其训练数据可能仅是 o3/o4 庞大数据集中的一小块“切片”(例如,仅侧重于数学和科学推理),比起一次全面的技术开源,gpt-oss 的发布更像是安全对齐上的技术炫技。

Reference

1. https://www.gpt-oss.com/

2. http://arxiv.org/abs/2412.16339

3. https://github.com/openai/harmony

4. https://www.kaggle.com/competitions/openai-gpt-oss-20b-red-teaming

大家怎么看此次的开源,欢迎在留言区讨论。

特别声明:[从推理轨迹反推:gpt-oss背后的训练策略(推理小说轨迹)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

冲上热搜!昨天刚买,今天就降价2000元!很多人“破大防”:离谱(昨晚热搜)

近日,有网友发文表示自己在青岛的苹果授权店原价购买iPhone Air后,第二天该手机就降价2000元。作为苹果史上最薄机型,其5.64mm厚度和165g重量虽刷新行业纪录,但为此牺牲了多项核心功能:仅配备单…

冲上热搜!昨天刚买,今天就降价2000元!很多人“破大防”:离谱(昨晚热搜)

印度是怎么好意思说得出口的?自诩与中美并列AI第一梯队,却理直气壮要求中国无偿转让锂电池技术,现在还想手伸向替华东重机(印度怎么发展起来的)

但项目刚启动,就卡在了技术环节。中国的锂电池技术是上千家企业、上万亿资金、十几年时间堆出来的成果,背后是完整的产业链和数万项专利。 日本技术贵得离谱,韩国工艺又和印度本地供应链不兼容。可技术不是商品,买了就能…

印度是怎么好意思说得出口的?自诩与中美并列AI第一梯队,却理直气壮要求中国无偿转让锂电池技术,现在还想手伸向替华东重机(印度怎么发展起来的)

在『娱乐圈』️里当巨婴,连个电梯都不会按,卢昱晓表示自己没学过(在『娱乐圈』️里当咸鱼的小说)

这一次,关于不会按电梯的话题一经曝光,团队随之推向了笨蛋美人的人设,依旧是『赵露思』、田曦薇等人曾经验证过的安全牌:既美丽又有点废,既怂又甜,职场新人自带恋爱buff。卢昱晓只是被拧进这台机器里的又一颗螺母…

在『娱乐圈』️里当巨婴,连个电梯都不会按,卢昱晓表示自己没学过(在『娱乐圈』️里当咸鱼的小说)

声起地平线》定档,迪玛希带队开启丝路音乐奇遇(声起地平线官宣成员名单)

由国家广播电视总局国际合作司指导、湖南卫视打造的丝路『青年文化』交流与音乐唱演节目《声起地平线》宣布定档,将从2月5日起每周四22时在湖南卫视、芒果TV播出。据悉,作为首档中哈共创的丝路文化交流音乐综艺,该节目将…

《<strong>声起地平线</strong>》定档,迪玛希带队开启丝路音乐奇遇(声起地平线官宣成员名单)

全球抛售美国 美元💵跌势难止(全球抛售美债的结果)

美国财政部长斯科特·贝森特确认了“强势美元💵政策”,但未能阻止美元💵的跌势。1月29日,美元💵指数一度下跌至96.03,跌幅约为0.3%。彭博新闻社报道指出,美元💵再次下跌的原因是投资者担心美元💵购买力将长期下降,转而寻求其他替代资产

全球抛售美国 美元💵跌势难止(全球抛售美债的结果)