1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

Archer团队 投稿

量子位 | 公众号 QbitAI

当大模型在数学题和代码任务里“卷”参数规模时,一支来自快手和清华的团队给出了不同答案——

他们用1.5B参数的小模型,在多个推理基准上干过了同量级SOTA。

秘密在于给模型的“学习过程”做了精细化管理:让该记牢的知识稳住,让该灵活的推理放开。

在多个挑战性的数学、代码评测基准上,该团队提出的Archer方法都展现出了强大的实力。

目前,Archer的代码已开源,详细链接可见文末。

“两难”:知识和推理难兼顾

通过预训练,LLM能记住海量的知识。但要让这些知识转化为解决数学题、写复杂代码的推理能力,还得靠后续的强化学习(RL)优化。

其中,带可验证奖励的强化学习(RLVR)是当前的主流方法——简单地说,就是让模型不断尝试解题,通过“是否做对”的反馈调整行为,有点像人类“做题纠错”。

但问题来了:模型输出的内容里,有些是“知识型”的(比如“1+1=2”这类事实),有些是“推理型”的(比如“先算括号里,再算乘除”这类逻辑规划步骤)。

过去的RLVR方法要么“一视同仁”,给所有内容用一样的训练信号;要么“粗暴分割”,用梯度屏蔽把两类内容拆开训练。

结果往往是:要么知识逐渐变差(比如把公式记错),要么推理放不开(比如总用老套思路解题)。

快手和清华团队发现:这两类内容在模型里其实有明显特征:

  • 低熵Token

    (确定性高):比如“3.14”、“def函数”,对应事实性知识,训练时不能乱改;

  • 高熵Token

    (不确定性高):比如“因此”、“接下来”、“循环条件”,对应逻辑推理,需要多尝试。

但关键在于,这两类Token在句子里是“绑在一起”的——比如解数学题时,“因为2+3=5(低熵),所以下一步算5×4(高熵)”,拆开会破坏语义逻辑。

Archer:给Token“差异化训练”

团队提出的Archer方法,核心是“双Token约束”——不拆分Token,而是给它们定制不同的训练规则。

简单说就是两步:

1.先给Token“贴标签”:用熵值分类型

通过计算每个Token的熵值(不确定性),自动区分“知识型”和“推理型”:

  • 高熵Token:比如数学推理里的“接下来”、“综上”,代码里的“循环”、“判断”,是逻辑转折点;

  • 低熵Token:比如“123”、“print”,是必须准确的事实性内容。

团队用“句子级熵统计”替代传统的“批次级统计”——比如同一道数学题,不同解法的Token熵分布不同,按句子单独划分,避免把“关键推理Token”误判成“知识Token”。

2.再给训练“定规矩”:差异化约束

对贴好标签的Token,用不同的规则训练:

  • 推理型(高熵)Token:松约束。用更高的裁剪阈值(允许更大幅度调整)和更弱的KL正则(减少对原始策略的依赖),鼓励模型多尝试不同推理路径;

  • 知识型(低熵)Token:紧约束。用更低的裁剪阈值和更强的KL正则,让模型“死死记住”正确知识,避免越训越错。

这样一来,知识和推理既能同步更新,又不互相干扰——就像老师教学生:基础公式要背牢,解题思路可以大胆试。

从数学到代码:全面碾压同量级模型

在最考验推理能力的数学和代码任务上,Archer的表现都很出色。

数学推理:解题正确率大幅提升

在AIME 2024/2025、Minerva等硬核数学基准上:

  • 相比同基座的原始模型,Archer在AIME24上正确率提升18.1%,AIME25提升10.3%;

  • 对比当前SOTA方法DAPO,Archer在AIME24上多对6.6%的题,AIME25多对5.2%;

  • 1.5B参数的Archer-Math,直接超过了FastCuRL、Nemotron等同量级SOTA模型,平均正确率登顶

代码生成:刷题能力显著增强

在LiveCodeBench(主流代码生成基准)v5/v6上:

  • 相比DAPO,Archer在v5上正确率提升3.4%,v6提升2.6%;

  • 超过了专门优化代码的DeepCoder-1.5B,成为同量级最佳代码生成模型之一。

效率方面,Archer只用单阶段训练、1900H800 GPU小时(对比Nemotron的16000 H100小时),就实现了这些提升。

没有复杂的多轮训练,达到了“花小钱办大事”的效果。

关键在“平衡”

Archer的核心洞察是:LLM推理能力不是“死记硬背”或“盲目试错”,而是知识稳定性和推理探索性的平衡

团队通过实验验证了这种平衡的重要性:

  • 若不给低熵Token加约束(KL=0),模型会很快“记混知识”,输出重复内容,性能崩塌;

  • 若给高熵Token加严约束(裁剪阈值太小),模型推理“放不开”,学不到新方法;

  • 只有让知识Token“”、推理Token“”,才能既不丢基础,又能提升逻辑能力。

这种思路也解释了为什么小模型能逆袭——大模型的参数优势能堆出更多知识,但如果训练时“管不好”知识和推理的关系,能力提升反而受限。

Archer用精细化的Token管理,让小模型的每一个参数都用在刀刃上,学会如何更好的组织使用已有的知识。

论文链接:http://arxiv.org/abs/2507.15778

GitHub:https://github.com/wizard-III/ArcherCodeR

特别声明:[1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

耳机圈炸了!华为FreeBuds 6开放式也能降噪?实测结果出乎意料(耳机铁圈)

华为的智能动态ANC3.0系统凭借其在减少环境噪音方面的出色表现,以及保持开放、自然的感觉,使这些耳机在长时间佩戴时依然舒适,真正让我感到惊讶。 总结华为FreeBuds 6在高端开放式耳机市场中提供了令…

耳机圈炸了!华为FreeBuds 6开放式也能降噪?实测结果出乎意料(耳机铁圈)

从传统到AI:英语免费跟读软件开启学习方式的进化之路(从传统意义上讲英语)

近期看到一份关于英语学习的调研报告,发现超70%的学习者渴望提升口语能力,但传统学习方式的瓶颈正在凸显,比如缺乏语言环境、练习机会少等。 总结一下,英语跟读的核心学习方法是选择合适的材料,采用先听后读的方式,…

从传统到AI:英语免费跟读软件开启学习方式的进化之路(从传统意义上讲英语)

学姐拍照新潮流,6个小心机姿势,让你秒变心动女神!(学姐街拍)

啊,钓系学姐的厉害之处就在于,她们能用这种最纯净的姿态,在镜头前投下石子,激荡起你心中的涟漪。钓系学姐们会捧起杯子,这个动作啊,就像给锋利的刀刃裹上了丝绸,一下子就变得温柔起来了。这个居家感的姿势啊,让人联想…

学姐拍照新潮流,6个小心机姿势,让你秒变心动女神!(学姐街拍)

63岁阿汤哥牵手小26岁“邦女郎”,忘年恋曝光!一个动作引全网争议…(63岁阿汤哥牵手视频)

在没有互联网,没有DVD的日子里,安娜接触电影的唯一途径,就是周末在邻居家看几部老片,这也让她燃起了对表演的渴望。 她也在采访中表示,自己知道这个角色会带来争议,但作为演员,她的职责是尽全力去理解和呈现角色…

63岁阿汤哥牵手小26岁“邦女郎”,忘年恋曝光!一个动作引全网争议…(63岁阿汤哥牵手视频)

碧梨 x AJ4 长这样!亲穿上脚曝光!(碧梨aj联名)

目前该鞋得到碧梨在演唱会的亲穿,各位觉得上脚效果怎么样呢? 以深色为主调,中底格纹图案、高低肩火柴人 Logo,彰显了联名身份。至于这次换成鞋圈的人气鞋型 Air Jordan 4,会有怎样市场表现不妨拭…

碧梨 x AJ4 长这样!亲穿上脚曝光!(碧梨aj联名)