OpenAI智能体背后的推理技术研发历程(ai智能体育)

OpenAI智能体背后的推理技术研发历程(ai智能体育)

2022年,研究员Hunter Lightman加入OpenAI时,同事们正忙于推出后来风靡全球的ChatGPT,而他则静默地在MathGen团队工作,致力于让OpenAI的模型解决高中数学竞赛题目。如今,这个团队被认为是OpenAI业界领先的AI推理模型开发的关键力量——这正是能够像人类一样在计算机上执行任务的AI智能体的核心技术。

"我们试图让模型在数学推理方面表现更好,当时它们在这方面还不是很擅长,"Lightman向TechCrunch描述MathGen早期的工作。

尽管OpenAI的模型今天远非完美——公司最新的AI系统仍会出现幻觉,其智能体在复杂任务中仍有困难——但其最先进的模型在数学推理方面已有显著改进。OpenAI的一个模型最近在国际数学奥林匹克竞赛中获得金牌,这是世界上最聪明的高中生参加的数学竞赛。OpenAI相信这些推理能力将转化到其他学科,并最终为公司一直梦想构建的通用智能体提供动力。

ChatGPT是一个意外之喜——从低调的研究预览变成了病毒式传播的消费者业务——但OpenAI的智能体是公司内部多年来深思熟虑努力的产物。

"最终,你只需要向计算机询问你需要什么,它就会为你完成所有这些任务,"OpenAI首席执行官Sam Altman在2023年公司首次开发者大会上说道。"在AI领域,这些能力通常被称为智能体。这带来的好处将是巨大的。"

## 强化学习的复兴

OpenAI推理模型和智能体的兴起与一种名为强化学习(RL)的机器学习训练技术密切相关。RL在模拟环境中为AI模型提供关于其选择是否正确的反馈。

RL已被使用数十年。例如,2016年,在OpenAI成立一年后,Google DeepMind使用RL创建的AI系统AlphaGo在击败围棋世界冠军后获得了全球关注。

大约在那个时候,OpenAI的首批员工之一Andrej Karpathy开始思考如何利用RL创建能够使用计算机的AI智能体。但OpenAI需要数年时间才能开发出必要的模型和训练技术。

到2018年,OpenAI在GPT系列中开创了其第一个大语言模型,在大量互联网数据和大型GPU集群上进行预训练。GPT模型擅长文本处理,最终催生了ChatGPT,但在基础数学方面表现不佳。

直到2023年,OpenAI才通过结合大语言模型、RL和称为测试时计算的技术实现突破,最初被称为"Q*",后来称为"Strawberry"。后者为模型提供了额外的时间和计算能力来规划和解决问题,在提供答案之前验证其步骤。

这使OpenAI能够引入一种称为"思维链"(CoT)的新方法,该方法提高了AI在模型未见过的数学问题上的表现。

"我能看到模型开始推理,"El Kishky说。"它会注意到错误并回溯,它会感到沮丧。这真的感觉像在阅读一个人的思想。"

虽然这些技术单独来看并不新颖,但OpenAI独特地将它们结合起来创建了Strawberry,这直接导致了o1的开发。OpenAI很快发现,AI推理模型的规划和事实检查能力对于为AI智能体提供动力很有用。

"我们解决了一个我已经苦思几年的问题,"Lightman说。"这是我研究生涯中最激动人心的时刻之一。"

## 扩展推理能力

通过AI推理模型,OpenAI确定了两个新的维度,使其能够改进AI模型:在AI模型的后训练期间使用更多计算能力,以及在回答问题时给AI模型更多时间和处理能力。

"作为一家公司,OpenAI不仅思考事物的现状,还思考事物的扩展方式,"Lightman说。

2023年Strawberry突破后不久,OpenAI成立了由研究员Daniel Selsam领导的"智能体"团队,以在这一新范式上取得进一步进展。虽然该团队被称为"智能体",但OpenAI最初并没有区分推理模型和我们今天所认为的智能体。公司只是想让AI系统能够完成复杂任务。

最终,Selsam智能体团队的工作成为开发o1推理模型的更大项目的一部分,领导者包括OpenAI联合创始人Ilya Sutskever、首席研究官Mark Chen和首席科学家Jakub Pachocki。

OpenAI必须转移宝贵的资源——主要是人才和GPU——来创建o1。在OpenAI的历史中,研究人员必须与公司领导谈判以获得资源;展示突破是获得资源的可靠方式。

一些前员工表示,这家初创公司开发AGI的使命是在AI推理模型方面取得突破的关键因素。通过专注于开发最智能的AI模型而不是产品,OpenAI能够将o1优先于其他努力。这种对想法的大量投资在竞争的AI实验室中并不总是可能的。

尝试新训练方法的决定被证明是有先见之明的。到2024年底,几个领先的AI实验室开始看到通过传统预训练扩展创建的模型的回报递减。今天,AI领域的大部分动力来自推理模型的进步。

## AI"推理"意味着什么?

在许多方面,AI研究的目标是用计算机重现人类智能。自o1发布以来,ChatGPT的用户体验中充满了更多听起来像人类的功能,如"思考"和"推理"。

当被问及OpenAI的模型是否真正在推理时,El Kishky犹豫了,说他从计算机科学的角度思考这个概念。

"我们正在教模型如何有效地消耗计算资源来获得答案。如果你这样定义的话,是的,这就是推理,"El Kishky说。

Lightman采取的方法是专注于模型的结果,而不是手段或它们与人脑的关系。

"如果模型在做困难的事情,那么它就在做任何必要的推理近似,以便做到这一点,"Lightman说。"我们可以称之为推理,因为它看起来像这些推理轨迹,但这都只是试图制造对很多人来说真正强大和有用的AI工具的代理。"

## 下一个前沿:主观任务的AI智能体

当今市场上的AI智能体在编码等定义明确、可验证的领域中表现最佳。OpenAI的Codex智能体旨在帮助软件工程师减轻简单的编码任务。同时,Anthropic的模型在Cursor和Claude Code等AI编码工具中变得特别受欢迎——这些是人们愿意付费的首批AI智能体之一。

然而,像OpenAI的ChatGPT智能体和Perplexity的Comet这样的通用AI智能体在许多人们想要自动化的复杂、主观任务中遇到困难。当试图使用这些工具进行在线购物或寻找长期停车位时,我发现智能体花费的时间比我期望的要长,并且会犯愚蠢的错误。

当然,智能体是早期系统,无疑会改进。但研究人员必须首先找出如何更好地训练底层模型来完成更主观的任务。

"像机器学习中的许多问题一样,这是一个数据问题,"当被问及智能体在主观任务上的局限性时,Lightman说。"我现在真正兴奋的一些研究是找出如何在不太可验证的任务上进行训练。我们对如何做这些事情有一些线索。"

OpenAI研究员Noam Brown帮助创建了IMO模型和o1,他告诉TechCrunch,OpenAI有新的通用RL技术,允许他们教AI模型不容易验证的技能。他说,这就是公司如何构建在IMO获得金牌的模型的。

OpenAI的IMO模型是一个更新的AI系统,它产生多个智能体,然后同时探索几个想法,然后选择最佳可能的答案。这些类型的AI模型正变得更受欢迎;Google和xAI最近使用这种技术发布了最先进的模型。

"我认为这些模型将在数学方面变得更有能力,我认为它们在其他推理领域也会变得更有能力,"Brown说。"进展非常快。我没有理由认为它会放缓。"

这些技术可能有助于OpenAI的模型变得更高性能,这些收益可能会出现在公司即将推出的GPT-5模型中。OpenAI希望通过GPT-5的发布来确立其对竞争对手的主导地位,理想情况下为开发者和消费者提供最好的AI模型来为智能体提供动力。

但该公司也希望让其产品更简单易用。El Kishky说OpenAI希望开发能够直观理解用户需求的AI智能体,而无需他们选择特定设置。他说OpenAI旨在构建理解何时调用某些工具以及推理多长时间的AI系统。

这些想法描绘了ChatGPT终极版本的图景:一个能够在互联网上为你做任何事情并理解你希望如何完成的智能体。这与今天的ChatGPT是一个截然不同的产品,但公司的研究正朝着这个方向发展。

虽然OpenAI无疑在几年前领导了AI行业,但该公司现在面临一批有价值的对手。问题不再只是OpenAI能否实现其智能体未来,而是该公司能否在Google、Anthropic、xAI或Meta击败他们之前做到这一点?

Q&A

Q1:MathGen团队是什么?它对OpenAI有什么重要意义?

A:MathGen是OpenAI内部专门教授模型解决高中数学竞赛题目的研究团队,由Hunter Lightman等研究员组成。该团队被认为是OpenAI开发业界领先AI推理模型的关键力量,这些推理能力正是AI智能体能够像人类一样在计算机上执行任务的核心技术基础。

Q2:OpenAI的o1模型是如何开发出来的?

A:o1模型的开发源于2023年的"Strawberry"项目突破。OpenAI将大语言模型、强化学习和测试时计算技术独特地结合起来,让模型在回答问题前有额外时间和计算能力进行规划和验证。这种方法引入了"思维链"技术,显著提高了AI在数学推理方面的表现。

Q3:目前AI智能体在哪些任务上表现较好,在哪些方面还有限制?

A:目前AI智能体在编码等定义明确、可验证的领域表现最佳,比如OpenAI的Codex和Anthropic在Cursor等编码工具中的应用。但在复杂主观任务上仍有困难,如在线购物或寻找长期停车位时会耗时较长并出现错误,主要原因是缺乏足够的训练数据来处理不太可验证的任务。

特别声明:[OpenAI智能体背后的推理技术研发历程(ai智能体育)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

私生子传闻真相大白不到24小时,何猷君老底被扒,招妓是冰山一角

早在2019年,何猷君便为“私生子”一事提供了一亿赏金,希望以近乎霸道的方式终结流言。 在所有公众焦点中,何猷君与奚梦瑶的婚姻无疑是最为引人注目的一部分。他在奚梦瑶面前显得像个依赖的“小男孩”,撒娇、依赖,完…

私生子传闻真相大白不到24小时,何猷君老底被扒,招妓是冰山一角

弹性体耐候性涂料,可成型与热收缩套有良好的粘结力。(耐候涂料与弹性涂料的区别)

弹性体耐候性涂料产品概述,产品指标合格,本产品性能稳定,实用好。 弹性体耐候性涂料运输仓储注意事项:储存在干燥的条件下 ,通风的地区,远离加热和不相容的物质,密封保存。我们始一直致力于为客户提供好的产品和完…

弹性体耐候性涂料,可成型与热收缩套有良好的粘结力。(耐候涂料与弹性涂料的区别)

蔡国庆56岁妻子竟是她,富婆身份气质出众,儿子教育得当(蔡国庆56岁妻子照片)

他们邀请游客品尝,而蔡国庆自己也不禁品尝了一口,表示赞不绝口。尤其是在春晚的舞台上,他22次的亮相无疑是他歌唱事业的最好见证。在参加亲子节目《爸爸去哪儿》时,秦娟也低调亮相,尽管没有露面,但她的支持和奉献无疑…

蔡国庆56岁妻子竟是她,富婆身份气质出众,儿子教育得当(蔡国庆56岁妻子照片)

十天内北京两次发布暴雨红警 主汛期降雨频繁(北京3天内做两次核酸检测)

今天13时,北京市气象台再次升级发布最高一级的暴雨红色预警。这是今年汛期北京发布的第二次暴雨“红警”。7月28日,本市发布了今年首个暴雨红色预警,时隔近一周后,第二个暴雨“红警”再度来袭

十天内北京两次发布暴雨红警 主汛期降雨频繁(北京3天内做两次核酸检测)

OPPO Find X9 Ultra再次被确认:1.5K极窄直屏+豪华影像,明年上半年登场

今年初,当多家安卓旗舰纷纷拥抱曲面屏时,OPPO却坚持在Find X8 Ultra上采用2K直屏设计,这一选择赢得了大批用户的青睐。 值得一提的是,此前有消息称一加14也会从2K分辨率降低到1.5K分辨率,或…

OPPO Find X9 Ultra再次被确认:1.5K极窄直屏+豪华影像,明年上半年登场