哥德尔-Prover超『DeepSeek』-Prover,陈丹琦团队造出最强形式化推理模型

编辑:佳琪、Panda

最近一段时间,以 『DeepSeek』-R1 为代表的大型推理模型可谓是「当红炸子鸡」,不过整体来说,这些模型所做的推理都属于非形式化推理(informal reasoning)。也就是说,它们主要是通过自然语言执行推理。

但是,这种推理模式有个缺点:难以通过机器来自动验证。也因此,非形式化推理在实际应用中的可靠性就大打折扣了。这还会让研究者更加难以进一步对推理模型进行改进。

解决方案也很直观:形式化推理(formal reasoning)。

近日,普林斯顿大学陈丹琦、Sanjeev Arora 和金驰领导的一个团队开源了一个用于自动定理证明的形式化推理模型 Goedel-Prover(哥德尔证明器),并且该模型在数学问题的自动形式化证明生成任务上达到了 SOTA。代码、模型还有在 Lean Workbook 中发现的新证明都已开源!

论文标题:Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving论文链接:https://arxiv.org/abs/2502.07640v1项目地址:https://github.com/Goedel-LM/Goedel-ProverHugging Face:https://huggingface.co/Goedel-LM/Goedel-Prover-SFT

首先,先简单解释一下什么是形式化推理:简单来说,形式化推理就是以机器可验证的格式进行推理。这一类别中,比较知名的证明助手包括 Lean、Isabelle 和 Coq,它们都具备各自的形式语言(formal language),能以可被机器验证的方式表达推理。因此,训练 LLM 用这些形式语言编写证明具有重要意义。

不过,训练 LLM 用形式化语言进行定理证明还存在一个重大挑战,即缺少形式化数学陈述和证明。

对于用形式语言表达的定理,为其编写证明的要求很高,需要相当多的领域专业知识。

正因如此,目前公开的形式语言数据集规模都很有限。例如,Lean Workbook 数据集共有 140K 条形式化陈述,其中的形式化陈述使用了 Lean 来陈述问题,但没有证明。这些陈述中,只有 15.7K 条带有形式化证明,这些证明是由 InternLM2.5-StepProver 和 InternLM-Math-Plus 发现的。此外,Open Bootstrapped Theorems 数据集包含 107K 条陈述,其证明来自 Mathlib44。

然而,该团队观察到 Mathlib4 的分布与一般的问题求解基准(例如广泛使用的 miniF2F)的分布存在显著差异。例如,miniF2F 中的陈述主要来自高中数学,需要复杂的推理能力才能解决,而 Mathlib4 中的陈述则侧重于对高级数学概念的简单操作。此外,他们还发现将 Mathlib4 数据纳入训练并不能持续提高模型在 miniF2F 上的性能。

与形式语言的数据稀缺相比,用自然语言书写的数学题却有着海量数据储备,高中生桌子上堆满的「五三」就是一座座富矿。Numina 数据集更是收录了 86 万个高质量的问答对,囊括国内外的中小学数学题、国际奥数竞赛题以及合成数据等等。

为了将这些数据转化为可用的形式语言,研究团队训练了两个形式化转换器。其中一个基于 Lean Workbook 中的非形式 - 形式语言对训练,另一个则采用 Claude-sonnet-3.5 标注的语言对进行训练。下图展示了这些形式化转换器的训练过程。

今日霍州(www.jrhz.info)©️

这两个转换器完成对原始语句的形式化后,团队还用 LLM 加了一道验证,确保形式化后的语句准确保留了原始内容的含义,成功构建了一个含有 164 万个形式语句的数据集。

利用这个大规模形式化定理数据集,研究团队采用了一种循环改进的方法,称为专家迭代(expert iteration):先用现有的最好模型(『DeepSeek』-Prover-V1.5-RL)去尝试解答大量数学题目,把解对的答案收集起来训练新模型,然后用新模型再去解题,不断重复这个过程。经过 8 轮这样的「以老带新」训练后,他们的新模型变得更加厉害了。下图展示了专家迭代的过程。

今日霍州(www.jrhz.info)©️

Goedel-Prover 表现如何?

具体有多厉害呢?如下图所示,在 miniF2F 上,新模型的解题正确率比之前的最优模型(『DeepSeek』-Prover-V1.5-RL)提高了 7.6%。在 Pass@32、64 直至 25600 测试中,都始终优于 『DeepSeek』-Prover-V1.5-RL。

今日霍州(www.jrhz.info)©️

新模型在 Lean Workbook 数学题库中成功解决了 29.7K 道题目,这个成绩差不多是其他顶尖模型(InternLM2.5-StepProver 和 InternLMMath-Plus)的两倍。在 PutnamBench 上,新模型解决了 7 个问题(Pass@512),位列排行榜第一。

今日霍州(www.jrhz.info)©️

论文共同一作、普林斯顿博士后 Yong Lin 在 𝕏 上表示他们目前正在开发这个哥德尔证明器的强化学习版本,并且还会有一个比之前更强大的检查点模型。此外,他们还将在开源这个强化学习版本的同时附带 164 万条形式化陈述。

今日霍州(www.jrhz.info)©️

真是让人期待。

特别声明:[哥德尔-Prover超『DeepSeek』-Prover,陈丹琦团队造出最强形式化推理模型] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

女演员与他同居5年,把最好的年华都给了他,他却转身和闺蜜结婚(女演员和男演员的同居生活结局)

她用最笨拙但最实在的方式,一点一点地赢回了尊重,也慢慢找回了当年在舞蹈房里不怕艰苦、拼命练功的自己。当初那段充满风波的感情故事早已被时间冲淡,徐梵溪依然活跃在荧幕上,可能不是每一部戏的女一号,但每一个角色都扎…

女演员与他同居5年,把最好的年华都给了他,他却转身和闺蜜结婚(女演员和男演员的同居生活结局)

超能馨香依兰洗衣液3.5kg大瓶7斤装适合2026年家庭使用吗?(超能馨香依兰洗衣液)

2026年的家庭清洁选择中,超能馨香依兰3.5kg大瓶装是否是理想之选?本篇文章将从产品特点、使用场景、性价比等方面为您深入分析,并揭示其适用人群及优劣之处,助您做出明智选择。 超能馨香依兰洗衣液3.5kg大瓶7斤装是否适合2026年的家庭

超能馨香依兰洗衣液3.5kg大瓶7斤装适合2026年家庭使用吗?(超能馨香依兰洗衣液)

花费400多万,整容200多回,沦落到坐轮椅,胸部险被切除(花了四百元)

这种变化代表了思想的开放以及医美技术的进步,但它也让许多人迷失了自己,渐渐忘记了原本的面貌。 随着整容失败,红粉宝宝的男朋友也离开了她,家里因此发生了多次争吵。这一次,红粉宝宝终于从这场虚假的美丽追求中彻…

花费400多万,整容200多回,沦落到坐轮椅,胸部险被切除(花了四百元)

亲妈是导演,干妈是导演,20年都捧不红他,却在娶妻改名后火了(女主妈妈是导演)

林雨申并不完全从零开始,母亲和干妈的帮助让他迅速获得了初次表演的机会,李少红为他安排了一部剧中配角的角色,虽然戏份不多,但他凭此第一次接触到了演戏。林雨申的成功,或许就是对所有努力奋斗者的一种鼓励,他的经历仿…

亲妈是导演,干妈是导演,20年都捧不红他,却在娶妻改名后火了(女主妈妈是导演)

金庸送她天下无敌的男友,她却喜欢自己的表哥,作风糜烂而死(说天下金庸)

她心机深沉,残害殷离,诬陷赵敏,还在屠狮大会上滥杀无辜,然而,她凭借着无与伦比的美貌,依然让张无忌为她倾心: 张无忌曾说:不,不,周姑娘倘若不美,天下哪里还有美人?最终,朱九真回到了表哥卫壁身边,而王语嫣则回…

金庸送她天下无敌的男友,她却喜欢自己的表哥,作风糜烂而死(说天下金庸)