大语言模型技能退化?北大阿里联合研究揭示AI训练中的隐藏危机(语言模型lm)

大语言模型技能退化?北大阿里联合研究揭示AI训练中的隐藏危机(语言模型lm)

这项由北京大学计算机学院董艺泓、蒋雪等研究人员与阿里巴巴通义实验室联合开展的研究发表于2025年7月,研究成果已在arXiv预印本平台发布(论文编号:arXiv:2508.00222v3)。有兴趣深入了解的读者可以通过https://github.com/YihongDong/RL-PLUS获取完整代码和详细技术资料。

当我们训练大语言模型解决数学问题时,会遇到一个令人困惑的现象:模型经过强化学习训练后,虽然在标准测试中表现更好了,但它的整体能力边界却在悄悄收缩。这就像一个学生通过大量刷题提高了考试成绩,但解决新题型的能力反而下降了。

研究团队发现,目前主流的强化学习方法存在一个被称为"能力边界塌陷"的问题。用一个简单的比喻来理解:假设AI模型的能力就像一个人的知识面,原本这个人虽然每个领域都不够精通,但涉猎广泛。经过强化学习训练后,这个人在某个特定领域变得非常专业,但其他领域的知识却逐渐遗忘了,整体的知识覆盖面实际上缩小了。

这种现象在评估指标上有明确体现。研究人员使用了一个叫做"pass@k"的测试方法,简单说就是给模型k次机会来解决同一个问题,看它是否能在这k次尝试中至少成功一次。奇怪的是,经过强化学习训练的模型在只给一次机会时(pass@1)表现很好,但当给予更多尝试机会时(比如pass@128),它的优势就消失了,甚至不如原始模型。这说明训练并没有真正扩展模型的能力边界,而是让模型在已有能力范围内表现得更加确定性。

造成这一问题的根本原因在于,现有的强化学习方法过分依赖模型自己的探索,就像让一个人只能通过自己的思考来学习新知识,而不能向外界学习。由于大语言模型的可能输出空间极其庞大,而正确答案又很稀少(就像在浩瀚的海洋中寻找珍珠),模型很难通过自己的随机探索找到全新的解题思路。因此,它只能不断优化已经掌握的方法,这就导致了能力边界的收缩。

为了解决这个问题,研究团队提出了一个名为RL-PLUS的创新方法。这个方法的核心思想可以用孔子的教育理念来概括:"学而不思则罔,思而不学则殆"。现有的强化学习方法只是在"思"(利用自身已有知识),而缺少"学"(从外部获取新知识)。RL-PLUS则将这两者巧妙结合,既保持了内在的推理优化,又引入了外部数据的学习。

然而,将外部数据融入强化学习训练并非易事,主要面临两大技术挑战。第一个挑战是"分布不匹配"问题。这就像你想学习一道新菜的做法,但手头只有不同厨师在不同条件下的烹饪记录,这些记录的风格和习惯与你现在的烹饪方式差异很大,直接照搬可能会出现问题。第二个挑战是如何从外部数据中高效提取有价值的信息。模型天生倾向于关注那些它认为概率高的内容,但真正的创新往往隐藏在那些看似不太可能但实际正确的解题路径中。

针对第一个挑战,研究团队开发了"多重要性采样"技术。传统的重要性采样方法在处理外部数据时要么产生系统性偏差,要么方差过大导致训练不稳定。多重要性采样的巧妙之处在于,它不是试图精确估计外部数据的来源分布,而是构建一个包含多个策略的混合分布。这就像在做菜时,不是试图完全复制某一个大厨的手法,而是综合多个大厨的技巧,形成一个更稳定可靠的烹饪方案。

研究团队从贝叶斯决策理论的角度为这种方法提供了理论支撑。他们将对未知外部策略的估计看作一个决策问题:既要相信现有的经验(用当前模型作为先验知识),又要承认存在未知的可能性(用均匀分布表示最大不确定性)。通过这种平衡,得到的估计器能够在偏差和方差之间达到最优权衡。理论证明表明,只要混合策略中至少包含一个与目标策略相近的成分,整个估计器就能保持较低的方差,即使其他成分与目标策略相差很大。

针对第二个挑战,研究团队设计了"基于探索的优势函数"。这个函数的设计灵感来源于焦点损失函数,其核心思想是根据当前模型对某个正确答案的探索难度来调整学习信号的强度。具体来说,如果一个正确的解题步骤在当前模型看来概率很低(即难以探索),那么这个步骤就会获得更高的学习权重;相反,如果模型已经很容易想到这个步骤,那么相应的学习信号就会被抑制。

这种设计的妙处在于它能自适应地引导模型关注那些真正有价值的新知识。用一个形象的比喻:这就像一个老师在批改作业时,对于学生已经掌握得很好的知识点只是轻轻带过,而对于学生还没有掌握但非常重要的知识点则会重点标注和讲解。通过这种方式,模型能够优先学习那些正确但不容易发现的推理路径。

将这两个核心技术整合后,RL-PLUS的训练目标函数变成了内部优化和外部学习的协调组合。内部优化部分继续使用标准的策略梯度方法来改进模型在已有数据上的表现,而外部学习部分则使用多重要性采样和探索优势函数来从外部数据中获取新知识。这两部分不是简单的相加,而是经过精心设计的协同工作,确保既不会因为外部数据的引入而破坏原有的学习稳定性,也不会因为过分保守而错失学习新知识的机会。

特别值得注意的是,研究团队在设计中去除了传统强化学习中的梯度裁剪机制。虽然梯度裁剪能够确保训练稳定性,但它也会抑制那些来自外部数据的强烈学习信号,而这些信号恰恰可能包含了模型最需要学习的新知识。通过移除这一限制,RL-PLUS能够在遇到有价值的外部信息时进行更大幅度的参数更新,从而更有效地扩展能力边界。

研究团队在六个数学推理基准测试上对RL-PLUS进行了全面评估,包括AIME 2024、AIME 2025、AMC、MATH-500、Minerva和Olympiad等。实验结果显示,RL-PLUS在所有测试中都达到了最先进的性能水平。以Qwen2.5-Math-7B为基础模型,RL-PLUS的平均得分达到了53.4分,相比传统的SFT+GRPO方法提升了5.2个百分点。更重要的是,这种提升不是通过牺牲能力广度来实现的,而是真正的能力扩展。

为了验证RL-PLUS确实解决了能力边界塌陷问题,研究人员详细分析了不同方法的pass@k曲线。结果表明,传统的强化学习方法(如GRPO)虽然在pass@1上表现不错,但随着k值的增加,其优势逐渐消失,在某些情况下甚至低于原始基础模型。这证实了能力边界塌陷现象的存在。相比之下,RL-PLUS在所有k值下都保持了对基础模型的显著优势,证明它确实扩展了模型的能力边界而不是简单地提高了确定性。

研究团队还测试了RL-PLUS在跨领域任务上的泛化能力。他们在六个与数学无关的任务上进行了评估,包括编程任务(HumanEval、LiveCodeBench、Codeforces)和科学问答(ARC-c、GPQA-diamond、MMLU-Pro)。结果显示,RL-PLUS不仅在训练领域表现优异,在完全不同的领域中也展现出了强大的泛化能力,平均性能提升了3.9个百分点。这表明RL-PLUS学到的不是特定领域的技巧,而是更基础的推理能力。

为了验证方法的普遍适用性,研究人员在多种不同的语言模型上测试了RL-PLUS,包括LLaMA-3.1-8B、Deepseek-Math-7B和不同规模的Qwen2.5-Math模型。结果表明,无论基础模型的架构和规模如何,RL-PLUS都能带来持续稳定的改进。特别值得一提的是,在某些传统强化学习方法难以取得改进的模型上(如LLaMA-3.1-8B),RL-PLUS仍然实现了显著的性能提升,相对改进幅度高达69.2%。

训练动态分析揭示了RL-PLUS的另一个重要优势:它能够维持模型的探索能力。传统强化学习方法在训练过程中会出现"熵崩塌"现象,即模型变得过于确定性,失去了探索新解法的能力。而RL-PLUS训练的模型始终保持着适度的随机性,这意味着它们仍然具备发现新推理路径的潜力。同时,RL-PLUS的响应长度随训练进程稳步增长,表明模型正在学习更复杂、更深入的推理过程。

为了深入理解RL-PLUS各组件的贡献,研究团队进行了详细的消融实验。结果显示,多重要性采样和探索优势函数都是不可或缺的关键组件。移除多重要性采样会导致性能从53.4分下降到45.5分,这凸显了稳定的外部数据整合机制的重要性。移除探索优势函数则导致性能下降到50.9分,说明有针对性的探索引导对于高效学习确实至关重要。

研究团队还比较了不同的外部策略估计方法。他们发现,使用简单的代理策略或将外部策略概率设为1的方法都无法达到理想效果,而基于贝叶斯理论的策略估计方法能够带来2.9分的额外提升,验证了理论驱动设计的价值。

在训练稳定性方面,研究人员通过延长训练时间(超过原来的10倍)验证了RL-PLUS的稳健性。实验结果显示,模型的关键指标在长期训练中保持了良好的稳定性和持续改进趋势。测试得分和奖励信号呈现稳定的上升趋势,而策略熵快速收敛到一个健康的非零范围,表明模型在变得更加有效的同时仍然保持着必要的探索能力。

从技术发展的角度来看,RL-PLUS代表了大语言模型训练方法的一个重要进步。它打破了传统强化学习只能在现有能力范围内优化的局限,为AI系统的能力扩展开辟了新的途径。这种方法不仅在数学推理领域取得了成功,其核心思想也可以推广到其他需要复杂推理的AI应用中。

说到底,RL-PLUS解决的是一个看似矛盾但实际上很现实的问题:如何让AI系统在变得更加精确的同时也保持开放性和创新能力。这就像培养一个优秀的学生,我们既希望他在考试中表现出色,又希望他能保持好奇心和探索精神,不断学习新的知识和技能。RL-PLUS通过巧妙地平衡内部优化和外部学习,为这个教育难题提供了一个技术层面的解决方案。

这项研究的意义远不止于技术本身。它揭示了AI训练中一个普遍存在但往往被忽视的问题,并提出了切实可行的解决方案。随着大语言模型在各个领域的应用越来越广泛,如何避免能力边界塌陷、保持系统的持续学习和创新能力,将成为AI发展中的一个关键问题。RL-PLUS为这个问题提供了重要的技术参考和理论基础。

Q&A

Q1:什么是大语言模型的"能力边界塌陷"问题?

A:能力边界塌陷是指大语言模型在强化学习训练后,虽然在标准测试中表现更好,但整体解决问题的能力范围实际上缩小了。就像学生通过刷题提高考试成绩,但面对新题型的能力反而下降。这种现象可以通过pass@k测试发现:模型在一次尝试时表现好,但给更多机会时优势消失。

Q2:RL-PLUS是如何解决能力边界塌陷问题的?

A:RL-PLUS采用"学思结合"的策略,既保持内部推理优化,又引入外部数据学习。它使用多重要性采样技术稳定整合外部数据,避免分布不匹配问题;同时用探索优势函数引导模型重点学习那些正确但难以发现的推理路径,从而真正扩展而非收缩模型的能力边界。

Q3:RL-PLUS在实际应用中效果如何?

A:RL-PLUS在六个数学推理基准测试中都达到了最先进性能,平均得分53.4分,比传统方法提升5.2分。更重要的是,它在跨领域任务中也表现出色,在编程和科学问答等完全不同领域平均提升3.9分,证明学到的是基础推理能力而非特定技巧。

特别声明:[大语言模型技能退化?北大阿里联合研究揭示AI训练中的隐藏危机(语言模型lm)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

惠州钢板桩公司(惠州钢板桩施工公司)

通常配备专业的钢板桩桩机和技术团队,能够根据工程特点提供定制化的施工方案。 在选择钢板桩公司时,施工队伍的专业能力和施工经验是重要考量因素。通过专业的施工队伍和完善的设备配备,钢板桩施工能够保障工程的安全与…

惠州钢板桩公司(惠州钢板桩施工公司)

黄晓明女友叶珂顶级身材颜值,杨颖跟她差距是一个杨幂加两个热巴(黄晓明娶谁)

本来杨颖都已经是非常漂亮在娱乐圈都已经能排进前10名,但是跟叶珂一比较网友说杨颖跟叶珂之间相差了一个杨幂和两个热巴。最后两人还是离婚了,当初是黄晓明利用自己的资源和实力捧红她,现在离婚了杨颖也没有之前那么红了…

黄晓明女友叶珂顶级身材颜值,杨颖跟她差距是一个杨幂加两个热巴(黄晓明娶谁)

如何创建暑假安全打卡?暑期防溺水、防蚊防疫、防洪防汛、出行安全...(暑假app怎么做)

支持收集定位、水印拍照、手写签名、音视频、图片等多种格式的打卡记录;支持导入学生名单,收集打卡信息,谁没打卡一目了然;支持在正文添加图文、视频、文件等安全宣传资料,让大家打卡学习;支持每天、每周循环打卡,老…

如何创建暑假安全打卡?暑期防溺水、防蚊防疫、防洪防汛、出行安全...(暑假app怎么做)

ULVAC爱发科OMI-100200油雾过滤器在线式疏水阀,用于过滤油雾、回收油分并自动排水(ULVAC爱发科蒸发台保养)

ULVAC(爱发科)的 OMI-100200 油雾过滤器(Oil Mist Filter) 和 在线式疏水阀(Auto DrainValve) 是真空系统中用于油润滑机械泵(如旋片泵、螺杆泵)的关键附件…

ULVAC爱发科OMI-100200油雾过滤器在线式疏水阀,用于过滤油雾、回收油分并自动排水(ULVAC爱发科蒸发台保养)

电动双梁桥式起重机的优势(电动双梁桥式起重机安装质量控制参考文献)

双梁桥式起重机凭借其强大的承载能力、高刚度和稳定性、运行平稳可靠、高效的起升和搬运能力、多样化的吊具选择、适应性强、安全性能高、使用寿命长、提升生产效率以及广泛的适用范围等优势,合肥春华起重机械的双梁桥式起…

电动双梁桥式起重机的优势(电动双梁桥式起重机安装质量控制参考文献)