Datawhale干货
作者:Richard Sutton,图灵奖得主
来源| RLC 2025 会议文章
编译|AI科技大本营
随着人工智能发展成为一个庞大的产业,它在很大程度上已经迷失了方向。
我们需要什么才能重回正轨,去探寻真正的智能?
我们需要能够持续学习的智能体、世界模型和规划能力,以及学习高层次知识和通过元学习掌握泛化的能力。
OaK 架构正是对所有这些需求的一个系统性回应。从整体上看,它是一个基于模型的强化学习架构,并具备三个鲜明特点:
1)其所有组件都能持续学习;
2)每一个学习到的权重,都配有一个专门的步长参数,该参数通过在线交叉验证进行元学习;
3)状态和时间上的抽象概念,通过一个我们称之为 FC-STOMP 的五步演进路径被持续创造出来,即:特征构建(Feature Construction)、基于特征提出子任务(posing a SubTask)、学习一个选项来解决该子任务(learning an Option)、学习该选项的模型(learning a Model)、以及使用该选项的模型进行规划(Planning)。
OaK 架构的内容相当丰富。在本文中,我们将勾勒其轮廓,并阐明那些为这一宏大构想——即 超级智能如何从智能体的经验中涌现——做出贡献的诸多既有和同期的研究工作。
演讲视频链接:youtu.be/gEbbGyNkR2U
引言
OaK 架构是一个关于超级智能如何从经验中诞生的构想,它凝结了我为探寻人工智能核心问题而进行的长期思考与探索。在深入细节之前,我想首先强调人工智能这项任务的艰巨性与重要性。
人工智能的探索,本质上是一场伟大的远征。我们试图理解人类心智的运作方式,创造出与人类相仿的智能,并最终赋予我们自身更强大的力量。这无疑是一个意义深远的智力里程碑,其影响将是革命性的。尽管这一认知已是共识,但我们仍有必要时常停下脚步,去真正体味我们所从事事业的非凡难度与深远意义。从智力里程碑的意义上讲,其重要性或可与地球上生命的起源相提并论——至少,当这个星球上的智能体终于开始理解自身如何运作、如何思考,并意识到这种理解将如何颠覆一切时,其意义是同等重大的。
当然,这也是人类文明发展历程的自然延续,只是开启了一个更为宏大的新篇章。
我坚信,这一进程只会导向一个美好的未来。尽管许多人对此心存忧虑,但我认为其本质是纯粹向善的。并且,最伟大的进步仍在前方,这是一场需要耐心与毅力的马拉松。 对于强化学习领域的研究者而言,一个值得庆幸的观点是,通往完全人工智能(即强人工智能)的必经之路,是强化学习这类经验性方法,而非大语言模型等非经验性路径。然而,一个看似矛盾的现实是,当前最大的瓶颈恰恰在于我们缺乏足够优秀的学习算法。人们或许会认为,拥有了深度学习,我们最擅长的领域便是学习算法。但在我看来,事实远非如此。我们现有的算法还相当粗糙,亟待改进,而这,正应是我们全力以赴的方向。
在过去半个世纪对智能本质的持续探索中,我每一天都在科研一线,致力于为强化学习、为从经验中学习,设计更优的算法。我的研究遵循着《阿尔伯塔人工智能研究计划》的指引——那是我与 Michael Bowling 和 Patrick Pilarski 在几年前共同制定的蓝图。
今天,我将要探讨的 OaK 架构,正是一个旨在 构建通用人工智能智能体的整体性构想。我深信,它为我们指明了一条通往“理解心智”这一终极目标的清晰路径。
OaK 架构:命名与愿景
让我们从 OaK 这个名字开始。这个名字源于两个核心概念:“选项”(Options)和“知识”(Knowledge)。
在座的许多研究者都对“选项”这一概念非常熟悉。通常,一个选项被定义为一个三元组,但经过我过去二十年的研究演进,我已经舍弃了起始集(initiation set)的设定。
因此,对我而言,选项是一个更为简洁的组合,仅包含一个 策略(policy)——即一种 行为方式,和一个 终止条件(termination condition)——即决定何时停止该行为的方式。在 OaK 架构中,智能体的核心构成是海量的选项,而它的“知识”,则具体表现为关于执行某个选项后世界会发生何种变化的知识。通过这种方式,智能体旨在学习一个关于世界的高层次转换模型。这个模型使其能够以更长的时间跨度进行规划,并有望深刻洞察世界内在的结构,如同“庖丁解牛”般游刃有余。
这就是 OaK 名称的由来。我认为,我们所面对的是一项宏大的挑战,一场伟大的远征。因此,我常将其比作追寻人工智能的“圣杯”。
为了更清晰地阐述其核心理念,我们可以将其设计目标归纳为以下三点🕒️:
领域通用性(Domain-General):该设计不应包含任何针对特定世界的预设知识,而应具备普适性。
经验性(Empirical):心智的成长应完全源于运行时的经验积累,而非依赖于某个特殊的训练阶段。
开放式复杂性(Open