Andrej Karpathy回应强化学习之父Sutton最新观点「LLM是“死路一条”」 #科技 #老爷子 #观点 #训练 #Andrej #Sutton

（来源：网易科技）

国庆节快乐！大家从sora 2的震惊中缓过来没？

前几天我写了一篇文章，介绍了图灵奖获得者，强化学习之父Richard Sutton最新采访观点，老爷子认为当前热门的『大语言模型』是“死路一条”。他的核心观点是，LLMs 的架构从根本上缺乏从实际互动（on-the-job）中持续学习的能力。无论我们如何扩大其规模，它们本质上仍然是在模仿人类数据，而不是通过与世界直接互动来理解世界并实现目标，老爷子的作为大神和先驱思考都是终极问题，就像老爷子自己说的他是古典主义者。详细请看我之前的文章

今天AI大神Andrej Karpathy分享了他对 Sutton老爷子观点的看法，总体上Karpathy认同老爷子对当前LLM研究的批评，并且认为老爷子的观点有趣且具有启发性，但当前的LLM更像是一个向现实妥协的东西，Karpathy对此进行了详细解读，并提出了一个比喻：当今的LLM研究并非在创造“动物”，而是在召唤“幽灵“，至于如何理解“动物”和“幽灵“且看下文分解，哈哈

Andrej Karpathy首先点明了一个背景：Sutton的“苦涩教训”（The Bitter Lesson）一文，如今已成为前沿LLM圈子里的“圣经”。研究者们会经常讨论某个方法或想法是否足够“bitter lesson pilled”（意即一个方法能够随着算力的增加而自然受益），以此作为判断其是否有效或值得追求的依据

这背后的基本假设是，LLM本身就是“苦涩教训”的绝佳范例——看看LLM的缩放定律（scaling laws）就知道了，只要把算力放在X轴上，性能指标就会一路向右上角增长

然而，有趣的是，Sutton本人作为理论的提出者，却并不确定LLM是否真的符合“苦涩教训”

Sutton指出，LLM是在巨型数据集上训练的，而这些数据本质上是人类数据，这意味着它有两个特点：1）由人类生成；2）数量有限。当数据耗尽时该怎么办？如何避免人类偏见？

这就很有趣了：信奉‘苦涩教训’的LLM研究者们，貌似被‘苦涩教训’的作者本人给打脸了

Sutton老爷子的“古典主义”愿景：构建“儿童机器”

Karpathy分析，在某种意义上，采访老爷子的Dwarkesh（代表LLM研究者观点）和Sutton有点鸡同鸭讲。因为Sutton心中有一个完全不同的AI架构，而LLM打破了其许多原则

Sutton称自己为古典主义者，并援引了艾伦·图灵最初构建“儿童机器”的构想——一个能够通过与世界动态互动、从经验中学习的系统

在这个构想中，没有模仿网页内容的巨型预训练阶段。也没有监督微调，Sutton指出这在动物界是不存在的（这是一个微妙但正确的观点：动物可能会观察演示，但它们的行为不会被其他动物直接强行控制或遥控操作）

Sutton还强调了一个重要观点：即使你只是将预训练视为强化学习微调之前的先验知识初始化，这种方法也已经被人类偏见所“污染”，从根本上偏离了轨道。他以AlphaZero（从未见过人类棋局）击败AlphaGo（从人类棋局中初始化）为例

在Sutton的世界观里，AI的一切都源于与世界的强化学习互动。奖励函数部分来自环境，部分是内在驱动的，例如“乐趣”、“好奇心”，以及与世界模型预测质量相关的因素。并且，智能体在测试时默认是始终在学习的，而不是训练一次就部署

总的来说，Sutton更关心我们与动物界的共同点，而非我们与它们的区别。他有名言：“如果我们理解了一只松鼠，那我们几乎就大功告成了。”

Karpathy的观点：预训练是我们蹩脚的进化

对于Sutton的观点，Karpathy分享了自己的看法

首先，他认为Sutton的批评并非毫无道理。当前的前沿LLM确实是高度复杂的产物，每个阶段都充满了人性的参与——基础（预训练数据）是人类文本，微调数据是人类策划的，强化学习的环境组合也是由人类『工程师』调整的

我们确实没有一个真正单一、干净、完全符合“苦涩教训”、可以“一键启动”并让其从纯粹的经验中自动学习的算法

那么，这样的算法存在吗？

Karpathy提到了两个常被用来证明其可能性的范例：

第一个是AlphaZero的成功。它完全从零开始，没有任何人类监督就学会了下围棋。但围棋的环境过于简单和封闭，很难将其类比到混乱的现实世界。在算法和分类学上，它本质上只是一个更难的井字游戏

第二个例子是动物，比如松鼠。对此，Karpathy个人也持保留态度。因为动物的产生是通过一种与我们在工业界实际可用的计算过程和约束截然不同的方式

动物的大脑在出生时远非一张白纸。首先，很多通常被归因于学习的东西，在他看来更像是“成熟”。其次，即使是明确属于“学习”而非“成熟”的部分，也更像是在一个强大预设基础上的“微调”

他举例说：一头小斑马出生后几十分钟内，就能在稀树草原上奔跑并跟随母亲。这是一个高度复杂的感官-运动任务，Karpathy认为这绝不可能是在“白板一块”的基础上从零开始实现的。动物大脑及其数十亿参数，其强大的初始化信息被编码在DNA🧬的ATCG序列中，并通过进化的“外循环”优化进行了训练。如果小斑马像一个随机初始化的强化学习策略那样乱动肌肉，它根本活不长

由此类比，我们现在的AI也拥有数十亿参数的神经网络。这些参数同样需要丰富、高信息密度的监督信号。我们不可能重新运行一次进化。但我们确实拥有堆积如山的『互联网』文档

Karpathy承认，这基本上是动物界所没有的监督学习。但它是一种实用的方法，可以为数十亿参数收集足够的软约束，从而避免从零开始

他给出了一个精辟的总结：“预训练是我们蹩脚的进化（Pretraining is our crappy evolution）。” 它是解决冷启动问题的一个候选方案，之后再通过更正确的框架（如强化学习）进行微调——这正是当前最先进的LLM实验室普遍在做的事情

召唤”幽灵”，而非创造“动物”

Karpathy认为，我们仍然值得从动物身上汲取灵感。LLM智能体在算法上仍然缺少许多可以从动物智能中借鉴的强大思想。同时，“苦涩教训”仍然是正确的，但他更将其视为一个值得追求的柏拉图式理想，而非在现实世界中必然能达到的目标。

这就引出了我们目前的处境。

Karpathy直言，今天的前沿LLM研究，并非在创造“动物”，而是在召唤幽灵

你可以将“幽灵”视为智能空间中一种截然不同的存在。它们被人类性所混杂，并被人类彻底地工程化。它们是一种不完美的复制品，一种人类文档的统计蒸馏，外加一些点缀

它们并非柏拉图式的“苦涩教训”产物，但与之前的许多方法相比，或许可以算是“实践上”的“苦涩教训”产物

Karpathy推测，随着时间的推移，我们或许可以进一步微调我们的“幽灵”，让它们越来越像“动物”；这可能不是根本性的不兼容，而只是智能空间中的初始化问题

但同样很有可能的是，它们会进一步分化，最终变得永久不同、不像动物，但仍然极具帮助并能真正改变世界

这可能是：幽灵之于动物，如同飞机之于鸟类。

最后，Karpathy总结道，Sutton的这期播客对于前沿LLM研究人员来说是一次扎实的“real talk”，他们可能过于沉浸在“利用模式”（exploit mode）中了。我们可能还不够遵循“苦涩教训”，很有可能存在比穷尽地构建和优化基准测试更强大的思想和范式。

而动物，或许就是一个很好的灵感来源。比如：内在动机、乐趣、好奇心、赋能、多智能体自我博弈、文化等等。这需要我们发挥想象力

Andrej Karpathy回应强化学习之父Sutton最新观点「LLM是“死路一条”」

猜你喜欢

2026年恩施州广播电视台少儿春晚招募啦！给孩子一个闪耀新春的舞台吧！(恩施州2025年政府工作报告)

2025 红绿灯厂家推荐榜：实力厂家技术与口碑全景解析，最新智能交通信号设备优选指南红绿灯杆交通红绿灯交通信号红绿灯厂家推荐(红绿灯制造厂家)

剃须刀🪒的危害有哪些？曝光四大缺点雷区！(剃须刀🪒安全吗)

76岁石修帅气依旧住奢华豪宅，妻子是19岁时的初恋，儿子也是演员(石修个人资料老婆)

迷你便携高压锅：征服高海拔的炊具奇兵(迷你便携高压锅安全吗)