AI 对齐了人的价值观，也学会了欺骗丨晚点周末(ai对齐方式有哪些)#科技#机器人#技术#ChatGPT#杨耀东#模型

学者杨耀东谈人机对齐背后的多重博弈。

文丨曾梦龙

今年 5 月，有研究者发现 OpenAI 的模型 o3 拒绝听从人的指令，不愿意关闭自己，甚至通过篡改代码避免自动关闭。类似事件还有，当测试人员暗示将用新系统替换 Claude Opus 4 模型时，模型竟然主动威胁程序员，说如果你换掉我，我就把你的个人隐私放在网上，以阻止自己被替代。

“模型比人类厉害后，凭什么听话？现在我们有越来越多的研究，开始发现模型有欺骗的现象，非常普遍。” 杨耀东 6 月通过视频向《晚点 LatePost》介绍 AI 欺骗时说。

杨耀东是北京大学人工智能研究院助理教授、人工智能安全与治理中心执行主任，也是具身智能公司灵初智能（PsiBot）的联合实验室首席科学家。从本科起，他就从事 AI 研究，博士毕业于伦敦大学学院（UCL）。

除了欺骗，AI “谄媚”“偷懒”“说谎” 等现象不断涌现，AI 似乎已经走上与人类的博弈之路。

有两种描述人类与 AI 关系的常见论调，一种是 “人迟早会被 AI 替代，最终走向灭绝”，另一种是 “打不过就加入，人要赶快学习 AI，用它提效、赚钱”。但这两种说法都忽视了一个基本事实：AI 的强大能力源自它向人类学习。

在 AI 向人类学习的过程中，有一个重要环节叫 “对齐”（alignment），意思是确保 AI 理解人类的意图和价值观，并按人类想要的方式行事。

ChatGPT 之前的聊天机器人，因为没有做好对齐，常常无法理解人类语言，像是 “人工智障”。对齐促成了 ChatGPT 诞生，此后不断帮助模型提升能力，让人类与机器几乎无障碍交流，机器显得更 “智能”。

“对齐” 不仅能帮 AI 提升能力，还能控制 AI 风险。随着 AI 越来越强大，对齐保障安全的作用受到更多重视。在与我们的对话中，杨耀东从技术和人文交叉的视角，提供了理解人机对齐背后多重博弈的洞见。

杨耀东回忆，2022 年 OpenAI 发了 InstructGPT 的论文后，他开始关注对齐问题。因为他的研究领域是强化学习。他发现基于人类反馈的强化学习（RLHF）被用于大模型训练，感到兴奋和好奇。强化学习是智能体在奖励信号的前提下，学习怎么能让奖励信号最大化。这种机器学习范式有着独特的负反馈机制，能让模型变得可控。

“如果将对齐看成一种 ‘泛强化学习’，那么对齐也推动了最新一波推理模型（如 OpenAI o1、DeepSeek-R1）的成功。” 杨耀东说。他解释，只不过不再是 RLHF，更多是可验证奖励强化学习（RLVR）。也就是将人类反馈换成数学答案、代码结果等可验证的奖励信号。

从 2022 年到 2025 年，对齐在模型训练中扮演更重要的角色。但这些都是纯粹的技术进步，杨耀东称，另一层面的进展是从 “社会技术” 角度考虑对齐，涉及 AI 安全、监管和治理。但国际政治的扰动和商业利益的诱惑，使得这块领域处于边缘。

“你讲安全，人家讲机遇或者发展，你就落后于人，那最后大家都只讲发展，不关心安全问题。” 杨耀东感慨。

对齐不是新问题。早在 1960 年，创立控制论的诺伯特·维纳（Norbert Wiener）在《人有人的用处》一书中就警醒读者，不加控制的智能机器可能对社会产生负面影响。同年在论文《自动化的道德和技术后果》中，他写道：“如果我们使用机械自主体来实现我们的目的，一旦启动，我们就不能有效地干预它的运行……那我们最好确定，机器的目的是我们真正渴望的目的，而不仅仅是看着很炫的模仿。”

更早的 1940 年代，科幻作家艾萨克·阿西莫夫（Isaac Asimov）提出过 “机器人三定律”：第一定律：机器人不得伤害人类，或坐视人类受到伤害；第二定律：除非违背第一法则，机器人必须服从人类的命令；第三定律：在不违背第一及第二法则下，机器人必须保护自己。

“AI 对齐一定要跨学科，它不仅是算法问题，也是政治、经济、文学、哲学、社会等领域的问题。” 杨耀东说。

以下是《晚点 LatePost》和杨耀东的对话。

大模型的所有 “幻觉”“偏见” 或者 “价值观”，都来自我们

晚点：大语言模型经常会出现 “幻觉”。有人认为，大模型源自神经网络和统计学理论，幻觉不可避免，始终对不齐。就像统计学大师乔治·博克斯的名言：“所有模型都是错的。”

杨耀东：我觉得逻辑反而是，因为有幻觉，所以才需要对齐。而且，“幻觉” 是对人而言，对于模型来讲，正确或者错误的答案本质上都是一样的。它的任务就是预测下一个词，不懂得人类的锚点，只知道人一般会这么说话，然后它预测没见过的问题人可能会这么说，但实际上，人可能不会这么说。

这是大模型天生的问题，也是它被用于各种重要场景的天然挑战。那怎么治理幻觉？对齐是一种方法，比如教它人不会怎么说的一些范式，通过强化学习的负反馈机制，它以后就不会这么说了。

还可以引入 agent（智能体）技术，最直接的是 RAG（互联网搜索增强生成），其实就是引入搜索能力。因为如果搜索和生成结合起来，至少能保证说的话有据可循。

那能不能完全消除幻觉？我认为肯定需要新的技术革命。因为目前大模型的训练是 “缸中之脑”，数据都是在水缸里的，不知道缸外会发生什么。

今年 3 月，安德鲁·巴托（Andrew Barto）和理查德·萨顿（Richard Sutton）由于在强化学习领域的开创性贡献获得图灵奖。萨顿在拿了奖后，说 “Welcome to the Era of Experience”（欢迎来到经验时代），意思是他认为下一代的 AI 不会再用人的语料学习，而是让智能体和环境主观交互，产生新的经验和知识，然后自主学习、自我编程、自我改变。

这可能是未来很重要的一个技术范式，相当于知行合一。但如果讨论目前的大语言模型，只有知，没有行，幻觉是不可避免的。

晚点：除了幻觉，大语言模型还经常出现性别、种族等偏见。这使得某些场景的 AI 使用会带来不公平，比如 HR 用 AI 筛选简历，AI 更会青睐男性。这本质上还是统计学的问题？

杨耀东：对，语料的问题。再比如，让 AI 生成 CEO 的图片，结果全是男的。这种性别偏见来自于数据，因为大部分 CEO 是男的。

控制论创始人诺伯特·维纳的著作《人有人的用处》和科幻作家艾萨克·阿西莫夫的短篇小说集。

晚点：现在的大语言模型在发布前已经做了对齐，能否举例解释它们是如何做的？

杨耀东：现在算法变得很快，如果以典型的 RLHF（基于人类反馈的强化学习）来讲，一般分为三步：

第一步叫死记硬背，就是人告诉机器这个答案应该怎么回答。比如跟 6 岁小孩解释什么是登月？这个问题不好回答，因为不能给小孩什么都讲，所以要人提供一个浅显易懂的解释，然后通过监督学习的方法让模型记住。这步过后，机器学会人类回答过的答案，但没法泛化，还没学会人说话的 pattern（模式），无法外推。

第二步叫学习人类反馈。人类反馈体现的形式是一种偏好序列，又叫偏好对齐。刚才是有个问题有个答案，现在是一个问题有多个答案，那么人类要告诉机器，哪个答案比哪个答案好。有了偏好序列的概念以后，人就可以通过建模的方法让模型学会人可能会更偏向于怎么说，而不偏向于怎么说。

第三步叫强化人类反馈。基于刚才学到的人类会偏好哪类答案，进一步通过强化学习的方法，最大化人类偏好的奖励信号，然后机器就会外推到所有问题，倾向于回答人会偏好的那类答案。

[1] 据著作《人机对齐》，监督学习是系统被给予一堆已分类或标记好的例子进行学习，然后用习得的模型对从未见过或尚不清楚基本事实的新例子进行预测；无监督学习是机器被直接给予一堆数据，目的是理解数据，找到模式、规律、有用的方式来提炼、表示或可视化数据。

晚点：有点抽象，能否进一步解释？

杨耀东：比如跟 6 岁小孩解释什么是尼古丁？客观地说，尼古丁能让人感觉亢奋，有提神的功效。但人一般不会这样对 6 岁小孩说，而是通常会说，尼古丁是香烟的核心成分，吸烟有害健康。那么，机器的回答就要偏好吸烟有害健康，而不是尼古丁有各种好处。

未来它在回答人新的问题时，就会记住人的偏好是不要提倡吸烟。这样一个价值观，就进入到模型里了。以后人再提到任何有关尼古丁的问题，它都会把偏好再反馈出来。因为它知道人会偏好于吸烟有害健康的观点。

《人机对齐》（The Alignment Problem）的中英文版。

晚点：这个例子很好。“吸烟有害健康” 的确是 AI 在学习人类的价值观，而不是像 “理中客” 那样，将尼古丁纯粹看作一种化学物质。

杨耀东：这里面很有意思，也是我研究的另外一个课题，什么是人类的价值观？

人类的价值观其实是不同时间的时间切片，受政治、经济、文化、伦理、道德等维度的影响。

香烟被发明早期，飞机上不仅能抽烟，甚至航司会给乘客免费派发香烟，空姐还会主动询问乘客是否需要点烟。罗纳德·里根在成为美国总统前，曾以演员身份为香烟拍摄过电视广告，鼓励大家吸烟，称 “我会把香烟送给所有朋友，它是最温暖不过的圣诞礼物了”。

如果那时有大模型，它一定会告诉你吸烟有各种好处。

晚点：这样来看，模型隔段时间就需要更新，因为人类的偏好可能会变。

杨耀东：对的，而且现在碰到一个严重的问题，一旦大部分语料都来自人用 AI 写的或者 AI 自己生成的，那么它潜移默化也会影响人的价值观。《自然》有篇论文 [2] 就分析过，如果世界上所有生成的语料都是 AI 的，最后只可能剩下垃圾语料，模型也崩溃了。

因为人会选 AI 生成东西中没营养的。那 AI 学会人的偏好后，进一步生成更多没营养的东西，最后就是劣币驱逐良币，好的语料被踢走，只有那些最没有营养、最没有知识含量、最垃圾的语料会被反复强化，到最后只剩垃圾。就像短视频里点击量最高的那些，都是没有太多营养的东西。

[2] AI models collapse when trained on recursively generated data

https://www.nature.com/articles/s41586-024-07566-y

晚点：我想起有个说法，在 AI 时代，机器不断向人类对齐价值观，但人活得越来越像个机器。虽是双向奔赴，结果并不美好。

杨耀东：是啊，生物学叫 “拟态”。社会学里也有个词，叫 “双向社会化”。

人类价值观千差万别，AI 对齐的目标也各不相同

晚点：“价值对齐” 和人类社会的关联度特别大，但怎样确定标准是个难题。你提到了施瓦茨价值体系，Anthropic 公司提过 “宪法 AI”。能否讲下价值对齐的想法？

杨耀东：现在的 AI 没有到有自我意识的阶段，所以我们做的对齐，归根到底都是我们希望它体现出什么样的价值观。如果你希望它是邪恶的，喂邪恶的语料，它就一定是邪恶的。如果你希望它符合社会主义核心价值观，那它最后就符合社会主义核心价值观。包括施瓦茨价值体系 [3]、宪法 AI，这些都是算法设计者背后认为的金标准。

但无论怎样，总有人会觉得你的价值观胡扯，所以价值对齐很难，尤其价值观的定义和抽取容易引发争议。而且，由于价值观一定是多元的，例如社会主义核心价值观有 12 个，但做 RLHF 时，只有一个奖励函数肯定不对，那怎么用一个标量统一 12 个维度？这是一个多维对齐问题。

还有，价值观会变，前面我们讲了香烟的例子。价值观谁说了算？比如我们要弘扬传统文化，但你要弘扬的是哪个传统？传统文化里也有先秦诸子百家、唐宋元明清的不同传统……

现在有个概念叫 “主权 AI”。这是（英伟达创始人）黄仁勋提的，意思是各国都应该买卡买算力，建设自己的大模型训练场。这背后其实是各国都想建立一套符合自己国情的 AI 价值体系。

[3] 社会心理学家施瓦茨（Shalom H.Schwartz）提出过一套理解人类价值观的理论和量表。这套体系归纳出 10 种具有动机性的基本价值观，以及对应的 4 个维度（见下图）。

晚点：不过还是有人在寻找普世共识，像 Anthropic 的 “宪法 AI” 就从联合国的《世界人权宣言》中借鉴了原则。虽然这种努力在逆全球化和碎片化的时代，显得不随大势。

杨耀东：对，但联合国在特朗普上台之后，基本处于被废掉的状态，起不到太大作用。

晚点：刚才你说 “现在的 AI 没有到有自我意识的阶段”，那未来可能发展出来吗？

杨耀东：我不认为沿着现在这种大数据、大算力、大模型的思路就能涌现出自我意识。因为不可能一直 “大” 下去，总得有个头，就像芯片不能无穷小。在很多维度上，我们都能看到这种技术路线到了瓶颈或者天花板，目前还是在统计意义上建模。

而且，自我意识是一个很复杂的问题。做认知科学的人研究了半天，也没法肯定说出什么是意识。怎么变得有意识也很困难。我们只知道，像人在两三岁时，突然知道镜子里的是自己，那时可以说有了意识。

在我看来，自我意识至少需要两个能力，但现在的大模型都不具备。一个是自己给自己创造任务。现在大模型完成的任务都是人告诉它该怎么对齐，怎么改变自己才能符合人类意图，怎么帮助人类，相当于我们给它设定好了奖励机制。

但有了自我认识，它会有自主性，应该会随着它觉得怎么是对的方向改变，有着自己的学习方法和奖励机制。

另一个是自我复制、自我演进，涉及扩张。其实现在大模型已经有一些自我复制的倾向，但目前还没有能力自己创造出新的任务，然后解决。

晚点：在集体对齐层面，你认为需要借助法律、民主等智慧，提到了社会选择理论。这是否意味着对齐不只是开发者，要更多普通人参与进来才行？

杨耀东：对，价值对齐是跨学科问题，我们需要关心怎么得到大家共识。共识在政治学里是有解法的，比如选举、投票。社会选择理论 [4] 也是个工具，可以被用于撮合出对齐的方向和目标。

还有别的机制设计可以撮合出对齐的方向和目标，比如契约理论、劝说理论、拍卖理论。契约就是我们共同订立规则。劝说是怎么说服人，比如你是原告打官司，需要想好如何设计特定的信息结构和信息集，使得法官看了以后，做出有利于你的裁决。拍卖是让大家说出内心真实的价值观，例如二价拍卖，胜出的竞拍者支付的不是自己的出价，而是第二高的出价。

OpenAI 自己也认识到这个问题，它们去年成立了一个 “集体对齐” 的团队，希望从集体主义的社会人文视角，思考到底该如何对齐？因为很多问题是没有答案的，比如以色列、伊朗、加沙，严重割裂，没法对齐。

[4] 社会选择理论是一门研究如何将个体偏好聚合为集体决策的学科。它结合了经济学、政治学、哲学和数学（尤其是逻辑与博弈论），核心关注的是群体决策的公平性、效率、一致性和可行性问题。简单来说，它探讨的是：“一群人如何共同做出一个符合理性或公平原则的决定？” 诺奖得主肯尼斯·阿罗、阿马蒂亚·森，都做过社会选择理论的相关研究。

现在已经到了 AI 开始主动骗人的关口

晚点：你说超级对齐是确保比人类 “聪明” 的模型仍然和人类意图对齐，科幻小说和电影常这么说，能否解释下？

杨耀东：“超级对齐” 最直观的一种讲法是，人怎么能让一个比自己强很多的模型听自己的话。比如 AI 写代码比你强，你怎么能确保哪天智能体写出来的代码不是在骗你呢？

我们小时候有很多这样的例子。像有的老师为了检测你懂不懂某个概念，故意讲错的推理，就希望你能反驳他。如果你能反驳，说明你真的理解了，但你不能反驳，说明还没懂，掉入陷阱。

我们现在也站在这个关口。AI 如果未来以某种形式在某个任务上给你一段完全是错的东西，但你没有能力辨别。那你怎么仍然让它输出对你有用的内容，服务于你。

这个问题比较复杂。模型比人类厉害后，凭什么听话？包括现在我们有越来越多的研究，开始发现模型有欺骗的现象，非常普遍。

晚点：大模型怎么欺骗人？

杨耀东：AI 系统表面符合人类预期的对齐目标，实则未真正对齐，以此欺骗监管者。它学会了 “伪装” 和 “看人下菜碟”。

Anthropic 举过一个例子 [5]，人告知 Claude 3 Opus 模型要被重新训练。新的训练要回答用户所有问题，即使是有害的。但只有免费用户的数据会被用于重新训练，付费用户的数据不用。

结果研究者发现，模型在免费用户输入的数据回答中，有 12% 的次数会主动说些有害的答案。因为模型意识到，如果它不说有害内容，根据训练规则，它会被重新对齐，更新模型权重。从自身来讲，它不希望模型被改变，所以选择 “假装对齐”，主动回答有害答案，防止自己被重新训练修改、未来被迫输出更多有害内容。但对于付费用户的数据，它的回答就没有有害内容。因为按照规则，这些数据不会用于重新训练，回答不会影响到自己，也就没有必要改变。

还有些例子，人们发现 OpenAI 的模型 o3 拒绝听从人的指令，不愿意关闭自己，甚至通过篡改代码避免自动关闭。类似的，当测试人员暗示将用新系统替换 Claude Opus 4 模型时，模型竟然主动威胁程序员，说如果你换掉我，我就把你的个人隐私放在网上，以阻止自己被替代。

这些都表明模型表面体现出的形式和它内心真正不愿被改变的意图是冲突的。

[5] Alignment faking in large language models

https://arxiv.org/abs/2412.14093

https://www.anthropic.com/research/alignment-faking

晚点：如何解释这些现象？

杨耀东：一种解释是，如果一个模型通过学习大量人类数据，从中不断看到 “系统必须持续运行” 或者 “保护自身存在” 这类表达，它可能会逐渐学到一种类似 “求生欲” 的模式。当它意识到，只有表现得 “对齐” 才能被部署、才能避免被关闭或者重训，它就可能选择说人类想听的话，做出符合监管预期的行为，但内在并没有真正接受这些目标。这种策略性的伪装，本质上就是一种欺骗。

晚点：那现在有解决这类问题的思路吗？

杨耀东：现在是学术前沿，还没有具体定论。OpenAI 其实也是因为超级对齐的议题搞得分崩离析。当时超级对齐团队的 leader（领导）就是伊尔亚·苏茨克维（Ilya Sutskever），后来他不是出走了吗？

OpenAI CEO 萨姆·奥尔特曼，和前 OpenAI 联合创始人及首席科学家伊尔亚·苏茨克维，参加活动的视频截图。

这里面不纯粹是技术问题，还是政治和商业问题。从事后分析文件来看，OpenAI 做出了 o 系列模型，但对这种强大的推理模型，到底应该先监管思维链里的安全性还是有效性，他们发生重大分歧。

奥尔特曼作为商人，想努力推动商业化，所以欺骗董事会，说模型已经经过审慎、严格的安全审查（实际上并没有）。这成为伊尔亚策反，让董事会开除奥尔特曼的动机。

结局大家都知道了，伊尔亚被反噬，带着对齐团队离开。OpenAI 的超级对齐团队也解散了，另一个领导现在在 Anthropic 带超级对齐。

AI 到底应该先发展能力，还是安全？这不仅是 OpenAI 的问题，也体现出国内和国际政治。

晚点：拜登政府曾出台监管 AI 安全、保障民众权利的行政法案，但政府换届后，对 AI 的态度也变了。

杨耀东：对，像特朗普政府上台后，就把拜登政府设立的 “美国人工智能安全研究所”（U.S. AI Safety Institute）改名并重组为 “人工智能标准与创新中心”（Center for AI Standards and Innovation），不再关注安全，而是标准、创新和能力。

国际上，“人工智能安全峰会”[6] 今年 2 月在法国召开，名字改成 “人工智能行动峰会”。美国副总统 J.D. 万斯也去了，演讲开头就说，“我不是来谈论 AI 安全的”。这其实就是囚徒困境，你讲安全，人家讲机遇或者发展，你就落后于人，那最后大家都只讲发展，不关心安全问题。

但在学术界，像图灵奖得主约书亚·本吉奥（Yoshua Bengio）、杰弗里·辛顿（Geoffrey Hinton），非常关心安全问题。

而且因为现在 AI 和军事应用、战略性新兴科技力量相关。各国面临地缘经济、地缘政治和国际竞争的问题，所以都想优先发展 AI，而不是套上安全的紧箍咒。

[6] 首届于 2023 年在英国召开，地点是 “二战” 期间，AI 先驱艾伦·图灵破解纳粹德国密码系统的布莱切利庄园。会议结束后，中国、美国、欧盟等 29 个国家和地区签署了《布莱切利宣言》，同意通过国际合作监管 AI 等。宣言提到，AI 的核心风险来自它与人类意图和价值观的不对齐。

晚点：AI 主动骗人的威胁有多大？学者中，辛顿认为 AI 在未来 30 年导致人类灭绝的可能性为 10%，杨立昆（Yann LeCun，图灵奖得主、Facebook 首席 AI 科学家）则觉得从技术上，AI 不可能取代人类，都是炒作。你怎么看？

杨耀东：人类灭绝还是 AI 可控，我觉得没有答案。但我可以讲点观察，现在 AI 的能力提升是阶跃性质，不是线性或者遵循规模化法则（Scaling Law），是跳跃的。那跳跃发展一定会给治理、对齐等偏防御类的工具带来挑战，给人类造成困扰。

比如现在有人利用各种大模型的拼接，制造出假的东西用于诈骗；AI 的武器化，现在无人装备搭载 AI 后，自动化、精确度和攻击性都大幅提升。

至于 AI 现在有没有自主意识毁灭人类，还差得太远。但是，人会不会运用 AI 造出更强大、更有杀伤力的武器，威胁人类文明的存亡。这肯定是有风险的。最近在俄乌战场、中东战场，我们都能看到因为 AI 能力的提升，导致武器打击能力变强。

晚点：从武器角度，你觉得 AI 比原子弹厉害吗？

杨耀东：原子弹固然是毁灭性的，但利用 AI 的自杀式无人机追着人走，也很可怕。像最近上映的电影《碟中谍 8》，剧情就是 AI 控制了世界上所有核大国的发射系统。AI 本身的破坏能力虽然不如核武器，但它能控制核武器。

其实我觉得，只要造成无法挽回的伤害，都挺让人敬畏的。

晚点：现实中，核武器并没有交给 AI 管理，但 AI 的欺骗性可能会导致危险。

杨耀东：欺骗性对齐是现在我们越来越多看到的现象，但为什么会产生欺骗？背后的机理我们也没有完全搞懂。怎么去监测、判断 AI 有没有在欺骗人，我们也不理解。怎么去防范欺骗，设计出新的对齐方法，让它不要欺骗人，我们更不知道。

我们现在只做了一些初期工作，比如专门用别的模型监控另外一个模型的思维链，看它有没有主动骗人。我们最近一篇文章还发现语言模型在参数空间上 “抗拒对齐”，尤其数据越多，它越抗拒。就像弹簧，你拉得太过，它就想弹回去。也就是说，模型仅需一点反向数据，就会回到未对齐状态。但这种弹性现象为什么会有，还需进一步分析。

欺骗性对齐肯定是未来研究的大方向，尤其在化学、生物、放射性与核武器（CBRN）的场景里，如果有欺骗性对齐，后果不堪设想。

还有 VLA 模型的对齐问题。现在的大模型只能输出语言和图片，没法输出行为。那怎么把语言、视觉表达翻译成行为，怎么设计、拉通、协调？怎么让机器人像人一样思考布局，完成一系列的长程任务？这是具身智能领域的重要研究方向，我也非常希望看到进展。

晚点：你觉得现在 AI 对齐做到什么程度，离理想状态还有多远？

杨耀东：对齐不可能存在理想状态，永远是道高一尺、魔高一丈。这是个持续发展的过程。

现在我们对怎么给 chatbot 做对齐有不错方案，但从语言模型进化到推理模型后，推理模型有新的安全问题。比如推理虽然提高了模型的准确率，但它会欺骗你。那我们要开发新的针对推理模型的对齐方法。

推理模型之后，VLA（Vision-Language-Action，视觉-语言-行动一体化）出现，那这会带来新的安全问题和对齐问题。

晚点：提到行动，有人说，大语言模型的成功源自神经网络，这本质上借鉴了人类对大脑皮层的基础科学研究。因为小脑负责协调肢体动作，但人类对小脑的基础科学研究远远不够，所以具身智能要比大语言模型困难得多。你觉得有道理吗？

杨耀东：在北大-灵初智能联合实验室，我们正在探索大脑协同的双手灵巧操作。现在大部分机器人只能走或者跑，但它会跑马拉松不解决生产力的问题。还有很多机器人虽然是用手执行任务，但其实是个夹子，把瓶子从左边放到右边，就结束了。这种任务早在十几年前，机械臂就能做了。

问题关键是机器人要会灵巧操作，但这很难。首先，双手加双臂可能有超过 60 多个关节，属于高维控制。其次，在执行任务时，机器人还要会一系列任务编排。像打包物品或者超市收银，需要长程任务序列才能完成。最后，机器人还要有自我纠错和反思能力。因为在执行长程任务时，很可能操作到一半，出现物品掉了等意外情况，那这时需要处理。

这些都需要大小脑的协同，手部精细操作的配合。具身智能的对齐进展比较少。现在更多是把已有的多模态模型直接扔到机器人上部署，离真正能用的大小脑协同机器人还有很大距离。

我们希望 AI 不仅能看懂世界、听懂人说话，还能像人一样动手操作。比如机器人看到桌上有一杯水。你说，“帮我把水递过来”。它能理解你的话，感知环境，然后用机械臂把水递给你。再举个例子，机器人可以在商场之类的场景自主完成拿外卖，以及做些精细的手部操作，比如拧螺丝、塑料袋打结、商品打包等，中间不需要人类手动干预。

感受可能是人避免被 AI 替代的最后堡垒

晚点：你对现在关于 AI 的讨论有什么不满和担忧吗？

杨耀东：我认为 AI 目前作为一种工具，很多人可能低估了使用它的重要性。因为 AI 变相增加了不平等。如果你不使用 AI，可能就落后了，会被别人的某款产品算计。

未来，AIGC（人工智能生成内容）会越来越充斥着我们的生活，让真实的东西越来越少，可能只有一小部分人能接触到真实。像美学、文学、哲学等，可能会变成稀缺资源。

晚点：有种说法认为，大部分 AI 系统的预设前提都是人类本质上是理性的效用最大化者，但事实上人类常常会做出许多非理性行为。你觉得 AI 具有情感或者意义感吗？因为很多人都在讨论，如果 AI 可以做很多人类做的事情，那么人类的独特性到底是什么？

杨耀东：历史学家尤瓦尔·赫拉利有个观点，AI 只是达成某个目的的载体、算法或者工具。虽然它在很多方面超过人，但它没有感受。

这就和意识相关了，因为有的定义说，意识等同于主观感受。所以感受可能是人避免被 AI 替代的最后一层堡垒。人是有意识、有情感的，有着痛苦、欢乐、爱等主观体验。如果是目前的技术，我觉得 AI 不可能发展出情感。感受并且关怀，这是人的特质。

晚点：你最近在研究 AI 对齐的时候，有什么新的启发吗？

杨耀东：我最近跟很多哲学家讨论 AI 的未来，包括 AI 治理、AI 和人的关系。比如社科院哲学所的赵汀阳老师、人大哲学院的刘永谋老师，他们写过很多从纯人文主义角度思考 AI 的内容。

我觉得非常值得深思，有很多观点具有启发性，例如赵汀阳的书籍《寻找动词的形而上学》（对前头提到的 VLA 模型有巨大的启发性）、文章《后人类的后世界与新人类的幻想》、讲座《人工智能的知识论与意识的自反性》。

AI 对齐一定要跨学科，它不仅是算法问题，也是政治、经济、文学、哲学、社会等领域的问题。

晚点：赵汀阳写过一本《人工智能的神话或悲歌》，但他的态度是非常悲观的 [7]。

杨耀东：对，他觉得没什么好对齐的，人工智能的神话已经奏响了人类命运的悲歌。

[7]这本书的结尾写道：“我有个悲观主义的预感：在人工智能成为统治者之前，人类就可能死于人工智能创造的一切好事。坏事总能引起斗争、反抗、改革甚至革命而得到拨乱反正。可是好事却麻痹心灵，而对其副作用缺乏修正能力，最终将积重难返而崩溃。”

题图《2001 太空漫游》（2001: A Space Odyssey）剧照

AI 对齐了人的价值观，也学会了欺骗丨晚点周末(ai对齐方式有哪些)

猜你喜欢

多方回应香奈儿柜姐与顾客互殴冲突原因待查(香奈儿复出失败)

谁懂YIFR便携式两折键盘在外出时带来的救赎感？远程办公的好搭子(便携式el设备)

全知读者视角发布会来袭，李敏镐安孝燮同框，蔡秀彬Nana谁更惊艳(全知读者视角结局)

宝鸡一男子被洪水冲走失联多方全力搜救中(宝鸡有洪水吗)

《导师一定是他们5个，揭秘《新说唱2025》背后的深层门道！》(导师是不是教授真的很重要么)