在人工智能领域,一个令人瞩目的消息悄然传出:OpenAI的一个小型团队仅凭三人之力,竟成功打造出一个在国际数学奥林匹克竞赛(IMO)中夺得金牌的模型。这一惊人成就的背后故事,在一次媒体访谈中逐渐浮出水面。
项目负责人Alexander Wei、新加入的研究工程师Sheryl Hsu以及高级研究科学家Noam Brown,构成了这个创造历史的核心团队。尽管Sheryl Hsu今年三月才加入团队,但他们的共同努力使得项目在短时间内取得了突破性进展。
据透露,该项目从构思到成型,仅仅用了两三个月的时间,其成果之显著,出乎所有人的预料。大型语言模型在IMO中摘金,不仅标志着AI数学能力的飞跃,更展现了其在应对复杂、难以验证任务时的技术进步。
访谈中,团队分享了项目的诸多细节。早在2025年,OpenAI内部就已开始讨论赢得IMO金牌的可能性,尽管相关算法和思路的酝酿已持续数月,但真正的集中攻关只在竞赛前的两三个月内展开。
核心团队的三人组合,由Alex主导技术开发。起初,他的新技术方案遭遇了质疑,但随着他在处理难以验证任务上展现出显著成效,方案逐渐获得了团队和公司的支持。Alex、Cheryl和Noam,他们共同书写了这段传奇。
关于AI生成的数学证明,团队坦言其风格独特,甚至可以被形容为“糟糕”或“富有创意”。这些证明充满了机器的逻辑,对人类而言晦涩难懂。然而,为了保持透明度,OpenAI并未对这些证明进行可读性优化,而是将它们原封不动地发布在GitHub上,供全球学者查阅。
在IMO竞赛中,模型面对传统上最为困难的第三题和第六题时,选择了对第六题“不作答”。团队并未将此举视为失败,反而认为它显示了模型对自身能力边界的清晰认知。在无法解决问题时,模型选择了放弃,而非像过去的AI那样编造错误答案,这一转变被视为积极的信号。
当被问及AI是否能在短期内解决“千禧年大奖难题”时,Alex表示这些难题仍遥不可及。他用量化对比来阐述差距:AI从解决简单的小学数学题,跃升至攻克IMO难题,但研究级数学难题的突破,可能需要天才数学家花费数千小时。因此,尽管团队对取得的进展感到兴奋,但也对未来挑战保持谦卑。
Noam指出,当模型“思考”时间极长时,评估本身成为巨大瓶颈。目前,团队正面临如何有效评估长时间思考的模型的挑战。同时,multi-agents系统在项目中扮演了重要角色,尽管具体技术细节不便透露,但团队强调了通用技术在项目中的应用。
对于为何不使用Lean这种形式化证明工具,团队解释说,他们的首要任务是发展通用的推理能力。虽然Lean对数学家有价值,但其局限性在于只能处理严格形式化的问题,而现实世界中的问题远不止于此。因此,团队选择了自然语言推理作为优先发展方向。
Cheryl证实,该项目是在与其他OpenAI产品相似的基础设施上构建的,这再次印证了其方法的通用性。团队期望这些技术能够被应用于推理的其他领域,从而持续改进包括ChatGPT在内的所有模型。
访谈最后,团队表示,让模型学会提出新颖的、有价值的问题,是继解决问题之后AI需要克服的下一个巨大障碍。同时,他们也期待数学家们能利用这个强大的新工具来挑战更多难题。