1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升

Archer团队 投稿

量子位 | 公众号 QbitAI

当大模型在数学题和代码任务里“卷”参数规模时,一支来自快手和清华的团队给出了不同答案——

他们用1.5B参数的小模型,在多个推理基准上干过了同量级SOTA。

秘密在于给模型的“学习过程”做了精细化管理:让该记牢的知识稳住,让该灵活的推理放开。

在多个挑战性的数学、代码评测基准上,该团队提出的Archer方法都展现出了强大的实力。

今日霍州(www.jrhz.info)©️

目前,Archer的代码已开源,详细链接可见文末。

“两难”:知识和推理难兼顾

通过预训练,LLM能记住海量的知识。但要让这些知识转化为解决数学题、写复杂代码的推理能力,还得靠后续的强化学习(RL)优化。

其中,带可验证奖励的强化学习(RLVR)是当前的主流方法——简单地说,就是让模型不断尝试解题,通过“是否做对”的反馈调整行为,有点像人类“做题纠错”。

但问题来了:模型输出的内容里,有些是“知识型”的(比如“1+1=2”这类事实),有些是“推理型”的(比如“先算括号里,再算乘除”这类逻辑规划步骤)。

过去的RLVR方法要么“一视同仁”,给所有内容用一样的训练信号;要么“粗暴分割”,用梯度屏蔽把两类内容拆开训练。

结果往往是:要么知识逐渐变差(比如把公式记错),要么推理放不开(比如总用老套思路解题)。

快手和清华团队发现:这两类内容在模型里其实有明显特征:

  • 低熵Token

    (确定性高):比如“3.14”、“def函数”,对应事实性知识,训练时不能乱改;

  • 高熵Token

    (不确定性高):比如“因此”、“接下来”、“循环条件”,对应逻辑推理,需要多尝试。

但关键在于,这两类Token在句子里是“绑在一起”的——比如解数学题时,“因为2+3=5(低熵),所以下一步算5×4(高熵)”,拆开会破坏语义逻辑。

Archer:给Token“差异化训练”

团队提出的Archer方法,核心是“双Token约束”——不拆分Token,而是给它们定制不同的训练规则。

简单说就是两步:

1.先给Token“贴标签”:用熵值分类型

通过计算每个Token的熵值(不确定性),自动区分“知识型”和“推理型”:

  • 高熵Token:比如数学推理里的“接下来”、“综上”,代码里的“循环”、“判断”,是逻辑转折点;

  • 低熵Token:比如“123”、“print”,是必须准确的事实性内容。

团队用“句子级熵统计”替代传统的“批次级统计”——比如同一道数学题,不同解法的Token熵分布不同,按句子单独划分,避免把“关键推理Token”误判成“知识Token”。

2.再给训练“定规矩”:差异化约束

对贴好标签的Token,用不同的规则训练:

  • 推理型(高熵)Token:松约束。用更高的裁剪阈值(允许更大幅度调整)和更弱的KL正则(减少对原始策略的依赖),鼓励模型多尝试不同推理路径;

  • 知识型(低熵)Token:紧约束。用更低的裁剪阈值和更强的KL正则,让模型“死死记住”正确知识,避免越训越错。

这样一来,知识和推理既能同步更新,又不互相干扰——就像老师教学生:基础公式要背牢,解题思路可以大胆试。

从数学到代码:全面碾压同量级模型

在最考验推理能力的数学和代码任务上,Archer的表现都很出色。

数学推理:解题正确率大幅提升

在AIME 2024/2025、Minerva等硬核数学基准上:

  • 相比同基座的原始模型,Archer在AIME24上正确率提升18.1%,AIME25提升10.3%;

  • 对比当前SOTA方法DAPO,Archer在AIME24上多对6.6%的题,AIME25多对5.2%;

  • 1.5B参数的Archer-Math,直接超过了FastCuRL、Nemotron等同量级SOTA模型,平均正确率登顶

代码生成:刷题能力显著增强

在LiveCodeBench(主流代码生成基准)v5/v6上:

  • 相比DAPO,Archer在v5上正确率提升3.4%,v6提升2.6%;

  • 超过了专门优化代码的DeepCoder-1.5B,成为同量级最佳代码生成模型之一。

今日霍州(www.jrhz.info)©️

效率方面,Archer只用单阶段训练、1900H800 GPU小时(对比Nemotron的16000 H100小时),就实现了这些提升。

没有复杂的多轮训练,达到了“花小钱办大事”的效果。

关键在“平衡”

Archer的核心洞察是:LLM推理能力不是“死记硬背”或“盲目试错”,而是知识稳定性和推理探索性的平衡

团队通过实验验证了这种平衡的重要性:

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

  • 若不给低熵Token加约束(KL=0),模型会很快“记混知识”,输出重复内容,性能崩塌;

  • 若给高熵Token加严约束(裁剪阈值太小),模型推理“放不开”,学不到新方法;

  • 只有让知识Token“”、推理Token“”,才能既不丢基础,又能提升逻辑能力。

这种思路也解释了为什么小模型能逆袭——大模型的参数优势能堆出更多知识,但如果训练时“管不好”知识和推理的关系,能力提升反而受限。

Archer用精细化的Token管理,让小模型的每一个参数都用在刀刃上,学会如何更好的组织使用已有的知识。

论文链接:http://arxiv.org/abs/2507.15778

GitHub:https://github.com/wizard-III/ArcherCodeR

特别声明:[1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

打破虚实边界 让控制算法验证更高效(打破虚实边界的作文)

HIL_CONTROL控制板会预先在TMS320F28377D『芯片』内烧录好控制程序,『芯片』会根据程序从HILL1000上读取电压电流等参数,并计算出相应的PWM控制信号,最后将控制信号输入到HILL1000…

打破虚实边界 让控制算法验证更高效(打破虚实边界的作文)

血友病💊该怎么预防呢

血友病是一种遗传性凝血功能障碍疾病,通常由凝血因子基因突变引起。预防血友病的方法包括遗传咨询、产前诊断、避免外伤、预防性治疗和疫苗接种。 有血友病家族史的夫妇应在孕前进行专业遗传咨询。通过基因检测可以明确携带者状态,评估后代患病概率

血友病💊该怎么预防呢

大尖锹:园林工程中的多功能利器(什么是大锹甲)

为何一把看似简单的铁铲能深入园林作业的方方面面?本文带你深入了解这款集多功能于一身的大尖锹,解析其独特设计、应用场景以及在现代园艺发展中的重要地位。从园林施工到农耕作业,它正悄然成为高效劳动力的好帮手。

大尖锹:园林工程中的多功能利器(什么是大锹甲)

黄金连续飙涨后大跌6.3%释放啥信号 回调背后原因解析(黄金连续暴跌)

北京时间10月21日晚间至22日,国际黄金在连创新高后出现罕见跳水。10月21日,现货黄金一度下跌6.3%,跌至约4080美元💵盎司,创2013年4月以来最大单日跌幅;当日收盘时,黄金价格下跌5.31%,创出近12年来的最大单日跌幅

黄金连续飙涨后大跌6.3%释放啥信号 回调背后原因解析(黄金连续暴跌)

为什么总问女性♀️ "如何平衡家庭事业"?『马伊琍』答案扎心(总喜欢问为什么)

美国阿拉巴马州州长艾维在参议院通过的限制堕胎法案签字,反堕胎法案的通过,引起了全球范围内的焦虑与愤怒。许多人说,这些男性♂️议员只想到了婴儿的权益,却没有想到母亲的权益。目前,美国的单身妈妈数量是单身爸爸的三倍,而反堕胎法案正在缩减更多女性♀️的选

为什么总问女性♀️ "如何平衡家庭事业"?『马伊琍』答案扎心(总喜欢问为什么)