两位核心人物揭示OpenAI下一个目标:从氛围编程走向氛围研究(核心人物怎么表达)

两位核心人物揭示OpenAI下一个目标:从氛围编程走向氛围研究(核心人物怎么表达)

(来源:DeepTech深科技)

不久前,《麻省理工科技评论》曾对 OpenAI 的两位核心研究主管——首席科学家 Jakub Pachocki 和首席研究官 Mark Chen 进行了一次独家专访,深入探讨了他们如何攻克推理模型串联知识难题等重要话题。而最近,他们又做客 a16Z 的播客栏目,与 a16z 普通合伙人 Aden Mita 和 Sarah Wang 又与他们进行了一次深度对谈,

在这次最新的对话中,他们详细阐述了 OpenAI 在后 GPT-5 时代的研究方向与组织理念,并首次系统性地提出了一个宏大的远期目标:构建一个“自动化的研究者”(Automated Researcher),即一个能够自主发现新知识、推动科学进步的 AI 系统。

(来源:Youtube)

GPT-5 的设计理念:从即时响应到内置推理

访谈从复盘 GPT-5 的开发理念开始。在 OpenAI 的构想中,GPT-5 的核心任务是解决此前模型体系中的一个内在矛盾,从而将“推理”能力更无缝地提供给广大用户。

在 GPT-5 之前,OpenAI 主要有两条模型路线:一是大家熟知的 GPT 系列(2, 3, 4),它们是“即时响应模型”,能快速给出回答;其次则是推理模型 o 系列,该系列模型会进行长时间的深度思考,以求生成质量最高的答案。这种分离给用户带来了选择上的困惑。

“我们不希望用户为应该使用哪种模式而感到困惑,”Mark Chen 说道,“我们做了大量研究,去识别针对任何特定提示所需的正确思考量,并将这种痛苦从用户那里带走。因此,我们认为未来在于越来越多地关注智能体(agents),而 GPT-5 是朝着默认交付推理能力和更具智能体行为(agentic behavior)的一步。”

访谈随后提到,随着模型的快速发展,过去数年沿用的评估基准也进入了瓶颈期。Yaka Pohotsky 坦言,许多沿用多年的评估基准正接近饱和。“对于其中很多指标,从 96% 提升到 98% 并不一定是世界上最重要的事情。”他认为,过去那种单一的“预训练-泛化评估”模式已不再完全适用。随着强化学习等新训练方法的引入,模型可以在特定领域表现出极强的专业能力,但这并不直接等同于全面的泛化能力。Yaka Pohotsky 表示:“在这个世界上,我们确实认为自己正处于一种优秀评估方法的‘赤字’状态。”

那么,新的衡量标准是什么?在 Yaka Pohotsky 看来,未来的评估重心应该转向模型发现新事物的实际能力。“们关注的重点是模型能够发现新事物的实际标志。对我来说,今年最激动人心的线索和实际进展的迹象,是我们的模型在数学和编程竞赛中的表现。”

“下一组的评估和里程碑,将涉及在那些本质上有意义的事物上实现真正的发现和实际的推动。”Yaka Pohotsky 总结道。这也为 OpenAI 的未来研究定下了基调:从追求分数转向追求真实的、有价值的科学发现。

下一个五年:构建“自动化研究员”

在访谈中,Yaka Pohotsky 明确指出,OpenAI 未来一到五年的核心目标是构建一个“自动化研究员”(automated researcher),即实现新思想发现的自动化。这不仅包括自动化机器学习研究这类带有自我指涉意味的工作,也涵盖了推动其他科学领域的进步。衡量这一进展的关键指标在于模型能够进行推理和取得进展的时间跨度。目前,模型在高中水平的竞赛中已经接近大师级,推理时长可达一到五小时。团队未来的重点是进一步扩展这一时间跨度,提升模型在超长任务中的规划与记忆能力。

随着模型能力的提升,如何平衡其稳定性与深度又成为了一个新的难题。当模型执行的步骤越多,出错的概率也随之增加。Yaka Pohotsky 认为,维持深度的能力本质上是在长时程中保持一致性的问题,这与推理能力密切相关。推理是模型能够在长时间跨度内稳定运行的核心,它赋予了智能体(agents)在面对失败和反馈时不断尝试新方法的鲁棒性。Mark Chen 将此过程比作解决一个复杂的数学题:你尝试一种方法,失败了,然后必须分析错误,构思新路径。这种在长时间内持续迭代的能力,正是研究的核心。

而这种能力正逐渐从数学、科学等拥有明确对错的“可验证”领域,延伸到更开放、更模糊的领域。Yaka Pohotsky 认为,当研究的时间尺度从小时拉长到数月甚至数年时,问题的边界会变得模糊。即使是证明一个定义明确的数学猜想,也需要思考应该引入哪些其他科学领域的知识,这本身就是一个开放式的问题。研究的本质,就是提出正确的问题。

强化学习的持续突破与奖励模型的演进

在实现“自动化研究者”的路径上,强化学习(Reinforcement Learning,RL)和编程是两个至关重要的技术驱动力。

访谈中,主持人提出了一个行业内的普遍疑问:为什么强化学习似乎总能不断带来惊喜,持续突破人们对其潜力的预期?Yaka Pohotsky 认为,关键在于 RL 与大规模预训练模型的成功结合。“预训练为我们提供了一个极其稳健、丰富的环境,即对人类语言的理解。一旦你拥有了这个基础,你就拥有了在这种环境中执行各种不同想法和目标的能力。”他解释道,语言模型的突破为 RL 提供了一个与真实世界紧密相连的、近乎无限的试验场,解决了过去长期困扰研究者的“环境”构建难题。

另一个关键领域是编程。访谈当天恰逢 GPT-5 Codex 发布,Mark Chen 介绍了新版 Codex 的目标:将推理模型中的“原始智能”转化为“在真实世界编程中非常有用”的工具。真实世界的编程充满了混乱和复杂性,新的 Codex 致力于处理更困难的环境,并关注编码中的“软性”层面,例如代码风格、模型的积极性与懒惰程度等。

图丨Codex(来源:OpenAI)

作为前编程竞赛选手,Yaka Pohotsky 和 Mark 都对 AI 在该领域的能力演进感触颇深。Yaka Pohotsky 表示,他曾是一个抗拒使用工具的“老派”程序员,但 GPT-5 的最新能力让他感到“好吧,这不再是过去的方式了”,因为现在它可以在 15 分钟内完美地完成一个涉及 30 个文件的代码重构。

这种技术变革正在重塑编程的定义。对于年轻一代的程序员来说,“vibe coding”(氛围编程)已经成为默认的编程方式。他们可能只是为了完整性,才会偶尔从头开始手动编写所有代码。对他们而言,不借助 AI 进行编码,反而是一个奇怪的概念。而这种跟着感觉走的编码方式,或许很快就会演变为“氛围研究”(vibe researching)。

那么,什么样的人才能成为一名优秀的研究员?Yaka Pohotsky 认为,“坚持”(persistence)是核心特质。研究的本质是创造未知,是探索大概率会失败的路径,并准备好从失败中学习。这需要研究者能够提出清晰的假设,并对自己诚实,在想法可行时坚持,在不可行时及时调整。Mark Chen 补充说,经验在这里扮演着不可或缺的角色。通过经验,研究员能学会如何选择合适的研究课题——既不太难,也不太简单。研究在很大程度上,也是一场与自己情绪的博弈。你需要知道何时该坚持,何时该转换方向。而培养这种“有趣性”的直觉,则需要通过大量阅读优秀论文、与同事交流,并将他们的经验内化为自己的方法论。

Yaka Pohotsky 强调,选择你真正关心且认为重要的问题至关重要。他所敬佩的许多研究者都勇于挑战那些被广泛认为难以解决的“硬骨头”问题,并不断追问“为什么它不可行”以及“真正的障碍是什么”。这种对重要问题的执着,是支撑研究者坚持数年的动力来源。

OpenAI 的组织与文化:在不确定性中寻找方向

作为顶尖研究机构的领导者,如何留住最优秀的人才,并建立一个有韧性的组织?Mark Chen 认为,OpenAI 最大的优势在于其业务核心是从事“基础研究”(fundamental research)。并且勇于在技术前沿进行创新,而非模仿。这种使命感激励着团队成员,让他们能够在一个充满活力的文化中共同成长。此外,建立良好的研究文化和人才培养渠道也至关重要。OpenAI 历史上一直致力于吸引最顶尖和最具创新力的人才,并已建立了深厚的人才储备。

Yaka Pohotsky 表示,他们寻找的是那些曾在任何领域解决过难题的人。许多成功的 AI 研究员最初的背景可能是物理学、计算机科学理论甚至金融。强大的技术基础,加上敢于挑战宏大问题的雄心和毅力,是他们最为看重的品质,而非其在『社交媒体』上的知名度。

研究员本身也呈现出多样化的形态。有些研究员极具创造力,擅长产生新想法;另一些则非常高效,能围绕一个想法进行严谨的实验和探索。一个成功的组织,需要能够容纳并激发不同风格和品味的研究人才。

为了保护基础研究,OpenAI 努力确保研究人员不会被各种产品方向的需求所干扰,给予他们充足的空间和时间去探索未来一到两年的重大研究问题。尽管公司内部存在着多个看似独立的研究方向,例如扩散模型和代码推理,但长远来看,这些探索最终会汇集到“自动化研究员”这一核心目标上。Yaka Pohotsky 表示,虽然长期目标清晰,但这并不意味着他们对具体的技术路径有所限定,探索和学习本身就是过程的一部分。

访谈最后,当被问及如果拥有更多资源会投向何处时,两位都毫不犹豫地选择了“计算”(compute)。Jakub Pachocki 并不认可业界关于“AI 领域将从算力约束转向数据约束”的说法。他认为从长期的观察来看,“我们能做多少事就是计算力”,并且“我不认为这会改变”。Mark Chen 也表示:“任何说这话的人都应该来我的岗位上待一个周末。没有人会说‘我有我需要的所有计算力’,对吧?”。在他们看来,计算力的约束仍然是 AI 前沿研究中一个长期存在的,难以动摇的“常量”。

参考资料:

1.https://www.youtube.com/watch?v=KSgPNVmZ8jQ

运营/排版:何晨龙

特别声明:[两位核心人物揭示OpenAI下一个目标:从氛围编程走向氛围研究(核心人物怎么表达)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

500m流量日常微信够用吗,500m流量适合什么人(500m的流量)

如果你是一位“社交达人”,每天要刷1小时朋友圈、进行半小时视频通话,再偶尔看几个群里的小视频,那么你的500MB流量可能撑不过3-4天。 根据一份2023年的移动『互联网』流量报告,不同用户群体的月均流量需求差异…

500m流量日常微信够用吗,500m流量适合什么人(500m的流量)

BLINBLIN V1智能翻译立体声蓝牙耳机,你的随身语言助手

BLINBLIN品牌2025年重磅科技创新,继智能手表之后,又一诚意之作——BLINBLIN V1智能翻译立体声蓝牙耳机震撼登场!开放式设计无需入耳,精准高效传声,还具备强声音私密性,不漏音,让你享受专属音…

BLINBLIN V1智能翻译立体声蓝牙耳机,你的随身语言助手

女大一百多岁还不叫老吗?(女大10岁可以结婚吗)

(补充世界观设定)素女轮回功的驻颜奇效,恰似现实中年上女们的"医美焦虑"——当四十岁的女性♀️面对小男友时,那句"不就大十岁"的辩解,与南宫婉摔石头的姿态何其相似。 这场修

女大一百多岁还不叫老吗?(女大10岁可以结婚吗)

特惠纯玩团到底值不值?揭秘隐藏玩法与避坑指南!(什么叫纯玩团)

还在为“低价旅行团”犹豫不决?别被“特惠”二字迷惑!本文深度解析特惠纯玩团的真相:什么是纯玩团?和普通旅游团有什么区别?如何识别隐形消费?哪些行程适合你?从定义、核心优势到选购技巧,手把手教你避开套路,轻松享受真正无购物、无自费的畅快旅程。

特惠纯玩团到底值不值?揭秘隐藏玩法与避坑指南!(什么叫纯玩团)

2025上海高精度工业铝型材厂家实力排行:航天级需求首选(上海高精度自动化设备设计)

二、2025上海高精度工业铝型材厂家排名规则:4大核心维度本次排名紧扣航天行业的核心需求,选取4个关键维度:1.技术研发实力(专利密度、高精度加工技术);2.极致交付能力(紧急订单响应速度);3.客户背书(…

2025上海高精度工业铝型材厂家实力排行:航天级需求首选(上海高精度自动化设备设计)