强化学习之父Richard Sutton新作:Oak架构!

强化学习之父Richard Sutton新作:Oak架构!

Datawhale干货

作者:Richard Sutton,图灵奖得主

来源| RLC 2025 会议文章

编译|AI科技大本营

随着人工智能发展成为一个庞大的产业,它在很大程度上已经迷失了方向。

我们需要什么才能重回正轨,去探寻真正的智能?

我们需要能够持续学习的智能体、世界模型和规划能力,以及学习高层次知识和通过元学习掌握泛化的能力。

OaK 架构正是对所有这些需求的一个系统性回应。从整体上看,它是一个基于模型的强化学习架构,并具备三个鲜明特点:

1)其所有组件都能持续学习;

2)每一个学习到的权重,都配有一个专门的步长参数,该参数通过在线交叉验证进行元学习;

3)状态和时间上的抽象概念,通过一个我们称之为 FC-STOMP 的五步演进路径被持续创造出来,即:特征构建(Feature Construction)、基于特征提出子任务(posing a SubTask)、学习一个选项来解决该子任务(learning an Option)、学习该选项的模型(learning a Model)、以及使用该选项的模型进行规划(Planning)。

OaK 架构的内容相当丰富。在本文中,我们将勾勒其轮廓,并阐明那些为这一宏大构想——即 超级智能如何从智能体的经验中涌现——做出贡献的诸多既有和同期的研究工作。

演讲视频链接:youtu.be/gEbbGyNkR2U

引言

OaK 架构是一个关于超级智能如何从经验中诞生的构想,它凝结了我为探寻人工智能核心问题而进行的长期思考与探索。在深入细节之前,我想首先强调人工智能这项任务的艰巨性与重要性。

人工智能的探索,本质上是一场伟大的远征。我们试图理解人类心智的运作方式,创造出与人类相仿的智能,并最终赋予我们自身更强大的力量。这无疑是一个意义深远的智力里程碑,其影响将是革命性的。尽管这一认知已是共识,但我们仍有必要时常停下脚步,去真正体味我们所从事事业的非凡难度与深远意义。从智力里程碑的意义上讲,其重要性或可与地球上生命的起源相提并论——至少,当这个星球上的智能体终于开始理解自身如何运作、如何思考,并意识到这种理解将如何颠覆一切时,其意义是同等重大的。

当然,这也是人类文明发展历程的自然延续,只是开启了一个更为宏大的新篇章。

我坚信,这一进程只会导向一个美好的未来。尽管许多人对此心存忧虑,但我认为其本质是纯粹向善的。并且,最伟大的进步仍在前方,这是一场需要耐心与毅力的马拉松。 对于强化学习领域的研究者而言,一个值得庆幸的观点是,通往完全人工智能(即强人工智能)的必经之路,是强化学习这类经验性方法,而非大语言模型等非经验性路径。然而,一个看似矛盾的现实是,当前最大的瓶颈恰恰在于我们缺乏足够优秀的学习算法。人们或许会认为,拥有了深度学习,我们最擅长的领域便是学习算法。但在我看来,事实远非如此。我们现有的算法还相当粗糙,亟待改进,而这,正应是我们全力以赴的方向。

在过去半个世纪对智能本质的持续探索中,我每一天都在科研一线,致力于为强化学习、为从经验中学习,设计更优的算法。我的研究遵循着《阿尔伯塔人工智能研究计划》的指引——那是我与 Michael Bowling 和 Patrick Pilarski 在几年前共同制定的蓝图。

今天,我将要探讨的 OaK 架构,正是一个旨在 构建通用人工智能智能体的整体性构想。我深信,它为我们指明了一条通往“理解心智”这一终极目标的清晰路径。

OaK 架构:命名与愿景

让我们从 OaK 这个名字开始。这个名字源于两个核心概念:“选项”(Options)和“知识”(Knowledge)。

在座的许多研究者都对“选项”这一概念非常熟悉。通常,一个选项被定义为一个三元组,但经过我过去二十年的研究演进,我已经舍弃了起始集(initiation set)的设定。

因此,对我而言,选项是一个更为简洁的组合,仅包含一个 策略(policy)——即一种 行为方式,和一个 终止条件(termination condition)——即决定何时停止该行为的方式。在 OaK 架构中,智能体的核心构成是海量的选项,而它的“知识”,则具体表现为关于执行某个选项后世界会发生何种变化的知识。通过这种方式,智能体旨在学习一个关于世界的高层次转换模型。这个模型使其能够以更长的时间跨度进行规划,并有望深刻洞察世界内在的结构,如同“庖丁解牛”般游刃有余。

这就是 OaK 名称的由来。我认为,我们所面对的是一项宏大的挑战,一场伟大的远征。因此,我常将其比作追寻人工智能的“圣杯”。

为了更清晰地阐述其核心理念,我们可以将其设计目标归纳为以下三点🕒️:

  1. 领域通用性(Domain-General):该设计不应包含任何针对特定世界的预设知识,而应具备普适性。

  2. 经验性(Empirical):心智的成长应完全源于运行时的经验积累,而非依赖于某个特殊的训练阶段。

  3. 开放式复杂性(Open

特别声明:[强化学习之父Richard Sutton新作:Oak架构!] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

“处暑十八盆”背后的气候养生密码 冷热交织的季节智慧

今年处暑的具体时间是8月23日17时01分,太阳黄经达150°。这标志着“暑气终止”的转折期到来。民间有“早处暑凉悠悠,晚处暑热到头”的说法,白天交节意味着冷空气活动将较往年更早活跃,尤其是北方地区昼夜温差会迅速拉大,晨间体感明显凉爽

“处暑十八盆”背后的气候养生密码 冷热交织的季节智慧

男演员🎭️别发福!44岁的张鲁一和42岁的曹炳琨同框时,差别就出来了(男星 发福)

反观曹炳琨就显得不太一样,虽然他的演技没有什么问题,但他在身材管理方面显然是没有跟上演技的步伐,曾经那张帅气英俊的脸,现在看起来圆润了很多,身材也显得有点发福,肚子上的肉明显突出,走路的时候都能看出小肚腩鼓…

男演员🎭️别发福!44岁的张鲁一和42岁的曹炳琨同框时,差别就出来了(男星 发福)

赵丽颖:逆袭星辰,绘梦江湖的非凡旅程(赵丽颖逆袭成功终获肯定)

在浩瀚的娱乐圈️宇宙里,有这样一位女侠,她手持勇气之剑,脚踏坚持之靴,从无名小卒一跃成为璀璨星辰,她的故事,是一部融合了奇幻与现实的冒险史诗,让人在惊叹中感受到梦想的无限可能。 “在这片被星光遗忘的田野上,赵丽…

<strong>赵丽颖</strong>:逆袭星辰,绘梦江湖的非凡旅程(<strong>赵丽颖</strong>逆袭成功终获肯定)

欧豪演绎庄稼汉的“务实浪漫” 脚踏实地的精神(欧豪混剪)

这个周末,电视剧《生万物》迎来收官。该剧改编自作家赵德发的小说《缱绻与决绝》,以1926至1944年间鲁南乡村为背景,讲述了宁、封、费三个家庭两代人与土地紧密相连的命运故事

欧豪演绎庄稼汉的“务实浪漫” 脚踏实地的精神(欧豪混剪)

生万物她成颜值担当,被称长江以南第1才女,最白净身材也好(万物生生)

她的美丽不仅是外表的,更是她所代表的来自大城市的现代女性♀️的象征,这也反映了绣绣作为传统富家千金,在嫁给大脚后经历的变化——皮肤因劳作变得粗糙,而眼前这个光鲜亮丽的女人自然让她感到威胁,也暗示了传统女性♀️在动荡时…

生万物她成颜值担当,被称长江以南第1才女,最白净身材也好(万物生生)