强化学习之父Richard Sutton新作：Oak架构！ #科技 #新作 #进行 #架构 #选项 #模型

Datawhale干货

作者：Richard Sutton，图灵奖得主

来源| RLC 2025 会议文章

编译｜AI科技大本营

随着人工智能发展成为一个庞大的产业，它在很大程度上已经迷失了方向。

我们需要什么才能重回正轨，去探寻真正的智能？

我们需要能够持续学习的智能体、世界模型和规划能力，以及学习高层次知识和通过元学习掌握泛化的能力。

OaK 架构正是对所有这些需求的一个系统性回应。从整体上看，它是一个基于模型的强化学习架构，并具备三个鲜明特点：

1）其所有组件都能持续学习；

2）每一个学习到的权重，都配有一个专门的步长参数，该参数通过在线交叉验证进行元学习；

3）状态和时间上的抽象概念，通过一个我们称之为 FC-STOMP 的五步演进路径被持续创造出来，即：特征构建（Feature Construction）、基于特征提出子任务（posing a SubTask）、学习一个选项来解决该子任务（learning an Option）、学习该选项的模型（learning a Model）、以及使用该选项的模型进行规划（Planning）。

OaK 架构的内容相当丰富。在本文中，我们将勾勒其轮廓，并阐明那些为这一宏大构想——即超级智能如何从智能体的经验中涌现——做出贡献的诸多既有和同期的研究工作。

演讲视频链接：youtu.be/gEbbGyNkR2U

引言

OaK 架构是一个关于超级智能如何从经验中诞生的构想，它凝结了我为探寻人工智能核心问题而进行的长期思考与探索。在深入细节之前，我想首先强调人工智能这项任务的艰巨性与重要性。

人工智能的探索，本质上是一场伟大的远征。我们试图理解人类心智的运作方式，创造出与人类相仿的智能，并最终赋予我们自身更强大的力量。这无疑是一个意义深远的智力里程碑，其影响将是革命性的。尽管这一认知已是共识，但我们仍有必要时常停下脚步，去真正体味我们所从事事业的非凡难度与深远意义。从智力里程碑的意义上讲，其重要性或可与地球上生命的起源相提并论——至少，当这个星球上的智能体终于开始理解自身如何运作、如何思考，并意识到这种理解将如何颠覆一切时，其意义是同等重大的。

当然，这也是人类文明发展历程的自然延续，只是开启了一个更为宏大的新篇章。

我坚信，这一进程只会导向一个美好的未来。尽管许多人对此心存忧虑，但我认为其本质是纯粹向善的。并且，最伟大的进步仍在前方，这是一场需要耐心与毅力的马拉松。对于强化学习领域的研究者而言，一个值得庆幸的观点是，通往完全人工智能（即强人工智能）的必经之路，是强化学习这类经验性方法，而非大语言模型等非经验性路径。然而，一个看似矛盾的现实是，当前最大的瓶颈恰恰在于我们缺乏足够优秀的学习算法。人们或许会认为，拥有了深度学习，我们最擅长的领域便是学习算法。但在我看来，事实远非如此。我们现有的算法还相当粗糙，亟待改进，而这，正应是我们全力以赴的方向。

在过去半个世纪对智能本质的持续探索中，我每一天都在科研一线，致力于为强化学习、为从经验中学习，设计更优的算法。我的研究遵循着《阿尔伯塔人工智能研究计划》的指引——那是我与 Michael Bowling 和 Patrick Pilarski 在几年前共同制定的蓝图。

今天，我将要探讨的 OaK 架构，正是一个旨在构建通用人工智能智能体的整体性构想。我深信，它为我们指明了一条通往“理解心智”这一终极目标的清晰路径。

OaK 架构：命名与愿景

让我们从 OaK 这个名字开始。这个名字源于两个核心概念：“选项”（Options）和“知识”（Knowledge）。

在座的许多研究者都对“选项”这一概念非常熟悉。通常，一个选项被定义为一个三元组，但经过我过去二十年的研究演进，我已经舍弃了起始集（initiation set）的设定。

因此，对我而言，选项是一个更为简洁的组合，仅包含一个策略（policy）——即一种行为方式，和一个终止条件（termination condition）——即决定何时停止该行为的方式。在 OaK 架构中，智能体的核心构成是海量的选项，而它的“知识”，则具体表现为关于执行某个选项后世界会发生何种变化的知识。通过这种方式，智能体旨在学习一个关于世界的高层次转换模型。这个模型使其能够以更长的时间跨度进行规划，并有望深刻洞察世界内在的结构，如同“庖丁解牛”般游刃有余。

这就是 OaK 名称的由来。我认为，我们所面对的是一项宏大的挑战，一场伟大的远征。因此，我常将其比作追寻人工智能的“圣杯”。

为了更清晰地阐述其核心理念，我们可以将其设计目标归纳为以下三点🕒️：

领域通用性（Domain-General）：该设计不应包含任何针对特定世界的预设知识，而应具备普适性。
经验性（Empirical）：心智的成长应完全源于运行时的经验积累，而非依赖于某个特殊的训练阶段。
开放式复杂性（Open

强化学习之父Richard Sutton新作：Oak架构！

猜你喜欢

“处暑十八盆”背后的气候养生密码冷热交织的季节智慧

男演员🎭️别发福！44岁的张鲁一和42岁的曹炳琨同框时，差别就出来了(男星发福)

赵丽颖：逆袭星辰，绘梦江湖的非凡旅程(赵丽颖逆袭成功终获肯定)

欧豪演绎庄稼汉的“务实浪漫” 脚踏实地的精神(欧豪混剪)

生万物她成颜值担当，被称长江以南第1才女，最白净身材也好(万物生生)