OpenAI神秘新模型斩获IMO 2025金牌🥇,攻克奥数巅峰

OpenAI 的神秘通用推理模型,竟然攻克 IMO 2025 的 5 道难题,成功摘金了?这个消息,让 Greg Brockman 等一众大佬激动转发。也就是说,OpenAI 很可能已经研发出颠覆性的推理技术,彻底告别 CoT。还有一个炸裂消息:GPT-5 也要来了。

就在昨天,全世界的顶尖大模型还在 2025 年的 IMO 赛场上全军覆没,连铜牌🥉的边都没摸到。

然而,就在刚刚,OpenAI 投下了一枚重磅炸弹 —— 他们用一款全新的「通用推理模型」,成功夺下了 IMO 2025 的金牌🥇!

6 道题,解出 5 道,狂揽 35 分!

要知道,此前表现最好的 Gemini 2.5 Pro,也只得了 13 分。

今日霍州(www.jrhz.info)©️

联创 Greg Brockman、负责人 Alexander Wei,以及 OpenAI 的各路研究员,纷纷在推上激动宣布了这一里程碑式的成就!

对此,德扑之父 Noam Brown 表示,这个成绩的意义甚至超越了「AI 攻克 IMO」本身。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

消息一出,整个硅谷为之沸腾!

人们纷纷猜测,OpenAI 这次很可能祭出了一种颠覆性的推理技术,彻底告别了传统的 CoT 思维链。

这,不仅仅是一个模型的胜利,更是一个全新时代的开端!

更令人震惊的是,OpenAI 宣布,这个创造了历史的模型,并非传闻中的 GPT-5,而是一个全新的、实验性的模型!

而这个模型完全不会被发布,简直太神秘了!

神秘模型,拿下 IMO 金牌🥇

Alexander Wei 和他的团队,让模型在与人类完全相同的条件下进行比赛:

两个 4.5 小时的考试时段,没有工具,没有网络,仅凭对题目的理解,用自然语言写下完整的证明过程。

然后,由三位前 IMO 奖牌🏅得主严格评分。

最终,模型以 35/42 的惊人高分,达到了金牌🥇的水平。

今日霍州(www.jrhz.info)©️

相比之下,无论是在围棋、Dota 还是其他复杂任务,过去的 AI 想要获得胜利,往往都要在特定领域进行专门的训练。

但这一次,OpenAI 打破了这条铁律 —— 新模型不仅不是 IMO「特供」,而且还能进行长达数小时的思考。

相比之下,我们熟知的 o1 模型是以秒计算,Deep Research 也不过是以分钟计算。

这种深度的、持久的创造性思维能力,正是以往 AI 难以逾越的天堑!

今日霍州(www.jrhz.info)©️

这意味着什么?是否达到了 AGI 水平?拿下 IMO 有何特殊?

首先,与以往的基准相比,IMO 问题需要更高水平的持续创造性思维。

在推理时间范围方面,现在已经一路攀升:GSM8K(顶级人类约需 0.1 分钟)→ MATH 基准(约 1 分钟)→ AIME(约 10 分钟)→ IMO(约 100 分钟)。

其次,IMO 的提交内容是难以验证的多页证明。

在此领域取得进展需要超越具有明确、可验证奖励的强化学习范式。

通过这样做,OpenAI 研究团队获得了一个能够在人类数学家层面构建复杂且无懈可击论点的模型。

此外该模型并非通过在「特定任务(IMO)」训练达到这一能力水平,而是在通用强化学习和测试时计算扩展方面实现了新的突破。

今日霍州(www.jrhz.info)©️

所以,昨晚被曝光的 o3-alpha,难道只是前戏?

原来,这才是 OpenAI 真正憋着的大招!

完整解题过程

如果你有兴趣,可以看看 OpenAI 新鲜放出的 2025 年 IMO 赛题解答。

模型解出了第一题到第五题(P1-P5),但没能解出第六题(P6)。果然如传闻所说,这次的第六题难度极高,全球仅有 6 人破解。

仓库地址:https://github.com/aw31/openai-imo-2025-proofs/blob/main/README.md

下面我们来看看,这个新模型对于前五道题的具体解题过程。

第一题,是一道解析几何题。

今日霍州(www.jrhz.info)©️

可以看出,解答这道题的关键点,就是要找出覆盖点的 n 条线,以及阳光线的可能数量。

今日霍州(www.jrhz.info)©️

模型采用了独特的方法,确定了所有满足条件的非负整数 k。

引理:当 n≥4 时,任何覆盖 P_n 的 n 条直线必须使用三角形的一条边。

对 n=3 的情况进行精确分析。

对于一般的 n≥3,证明对于每个 n 存在 k=0、1、3 的配置。

利用归约引理完成主要结论的证明。

今日霍州(www.jrhz.info)©️

第二道题,是一道平面几何题。

示意图如下。

今日霍州(www.jrhz.info)©️

大神网友放出的解答中,想要直接证明过点 H 且平行于 AP 的直线与三角形 BER 的外接圆相切,是很困难的。

不过,这个问题可以换成另一种表述:定义 X 为不包含 B 的一侧的 EF 的中点,如果能够证明 HX 与 EF 平行,基本上就可以证明这个结论了。

另一方面,如果这条线的切线,那么它必须在中点处接触圆。

因此,只要证明这两点就足够了。

今日霍州(www.jrhz.info)©️

而模型在证明过程中,主要完成了以下四步:

解析设定和参数。设 P 为三角形 ACD 的外心。连接 AP 与两个圆 Ω、Γ 的交点分别为点 E、F。求过点 B、E、F 的外接圆方程。

今日霍州(www.jrhz.info)©️

第三道题,是一道函数题。

在人类选手的解法中,这道题的关键是证明下图中黄色的不等式。

今日霍州(www.jrhz.info)©️

模型对于这道题的解法,分为以下四步。

考虑 bonza 类型的函数,即满足性质 P_f 的函数。

当函数在某个素数处取值大于 1 时,考虑模素数意义下的同余关系。

推论:如果某个奇素数 p 满足 f>1,那么整个函数 f 必须是恒等函数。

进入主要的结构性引理:分析在非恒等函数的情况下,函数的结构。

今日霍州(www.jrhz.info)©️

第四道题,是一道数论问题。

它的解题关键步骤可以化为如下形式。

今日霍州(www.jrhz.info)©️

模型在解答过程中,也采用了类似思路。

今日霍州(www.jrhz.info)©️

第五道题,考察的是博弈论。

今日霍州(www.jrhz.info)©️

这道题的解法,包含以下三部分。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

模型在解题过程中,则是讨论了以下三种情况。

当 λ ≥ c(无防御)时,Alice 总是获胜。

当 λ > c 时,Alice 获胜。

当 λ < c(c = 1/√2)时,Bazza 获胜。

今日霍州(www.jrhz.info)©️

第六道题,涉及到了图形的组合数学。

这道公认的难题,人类参赛者也只有 6 人可以做出,o3、o4-mini、Gemini 2.5 Pro、Grok-4、『DeepSeek』-R1 六个大模型也全员零分,即使是 OpenAI 的这个超强模型,也同样折戟了。

目前看来,世界上还不存在能解出第六题的大模型。

一个彩蛋

Alexander Wei 宣布这个消息时,使用了「草莓」的形象。

「Strawberry」是 OpenAI 当初在内部研发时使用的代号,用于推动一项全新的推理模型项目,就是我们现在熟悉的「o」系列模型。

今日霍州(www.jrhz.info)©️

作者介绍

今日霍州(www.jrhz.info)©️

Alex Wei 是 OpenAI 的研究科学家,主要研究方向为『大语言模型』和推理。之前也曾研究过机器学习、博弈论和算法的交叉领域。

他在加州大学伯克利分校获得计算机科学博士学位,师从 Nika Haghtalab、Michael I. Jordan 和 Jacob Steinhardt;在哈佛大学获得学士学位和硕士学位,师从 Jelani Nelson 和 Scott Kominers。

他曾是 FAIR 团队的一员,参与构建了首个在《外交》(Diplomacy)游戏中达到人类水平的人工智能 ——CICERO。该成果在 2022 年发表于《科学》杂志。

特别声明:[OpenAI神秘新模型斩获IMO 2025金牌🥇,攻克奥数巅峰] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

源达:炒股助手赋能投资决策新体验(源达投顾炒股可靠吗)

通过实时追踪,投资者可以清晰了解投资组合的变化情况,及时评估投资策略的执行效果,为后续的决策调整提供依据。 河北源达财源滚滚软件作为炒股助手,通过策略自动运行、调仓与收益实时追踪以及权限分级合理等功能,为投资…

源达:炒股助手赋能投资决策新体验(源达投顾炒股可靠吗)

『刘恺威』没想到,『杨幂』1天连迎2个喜讯,离婚时说的那番话她做到了(『刘恺威』偶遇)

婚礼当天,『刘恺威』曾在访谈中提起岳父含泪的模样,表示自己抢走了岳父心头肉,也因此发誓要一辈子对『杨幂』好。在当初婚姻中,他将『杨幂』的付出视为理所当然,却忽视了她对于自我追求的渴望。她在《VOGUE》封面上的女骑士姿态…

『刘恺威』没想到,『杨幂』1天连迎2个喜讯,离婚时说的那番话她做到了(『刘恺威』偶遇)

重大利好!2026年微信IAP小游戏最高可拿120%收益(重大利好消息)

整体来看,在新政实施后,月流水50万元以下的新游至少可额外获得5%的收入增长;而对于流水表现更优的产品,收入增长幅度还将进一步提升。据官方数据,如今微信小游戏月活用户规模已破5亿大关,且平台上的核心用户跨月…

重大利好!2026年微信IAP小游戏最高可拿120%收益(重大利好消息)

蚂蚁阿福在通用大模型的夹缝中,重构“AI+医疗”的信任与价值

当用户询问病情后,AI能直接引导至就近医院挂号、通过医保账户支付诊疗费、甚至将处方药直接配送到家,这种从“问”到“办”的一站式能力,是纯技术型大模型难以逾越的生态壁垒。 但最终极的问题或许是:当『支付宝』的AI…

蚂蚁阿福在通用大模型的夹缝中,重构“AI+医疗”的信任与价值

89岁谢贤与小49岁女友Coco的爱恨纠葛,7年后女方罕见受访重提旧情(85岁谢贤6年后)

Coco回忆了她和谢贤相识的过程,她澄清两人并不是在香港的酒吧认识的,而是在上海的一家咖啡馆,通过朋友介绍,谢贤主动追求她,两人很快便走到了一起。两人相差了49岁,但Coco依然对谢贤有着深厚的感情,她称赞他…

89岁谢贤与小49岁女友Coco的爱恨纠葛,7年后女方罕见受访重提旧情(85岁谢贤6年后)