2030年AGI到来?谷歌DeepMind写了份「人类自保指南」

2030年AGI到来?谷歌DeepMind写了份「人类自保指南」

对于「AI 危害」,每家公司都有不同的解决方案,但没有完美方案。

对于所谓的通用人工智能 AGI,人们通常抱着「怕它不来,又怕它乱来」的矛盾心理。而这个困惑,对于正在 AI 军备竞赛中的硅谷巨头来说,就不仅仅是一个「梗」能概括的了。

4 月初,谷歌 DeepMind 发布了一份长达 145 页的报告文件,系统阐述了其对 AGI 安全的态度,DeepMind 联合创始人 Shane Legg 署名也在其中。

文件中最醒目的预测,是 AGI 的可能出现时间:

2030 年

当然,Google 也补充说,这具有不确定性。他们定义的 AGI 是「卓越级 AGI(Exceptional AGI)」——即系统在非物理任务上达到或超越 99% 人类成年人的能力,包括学习新技能等元认知任务

DeepMind 认为这个时间线可能非常短,发布报告的目的是说清一个问题:如果 AI 有问题,最坏的情况会是什么?我们现在能如何准备?

01

DeepMind 的 AI 安全保险

这份报告中反复出现的一个词是「严重伤害(severe harm)」,并列举了 AI 可能带来的各种灾难场景。

比如,操纵政治舆论与社会秩序。AI 可用于大规模生成极具说服力的虚假信息(如支持某一政党或反对公共议题);可在不疲劳的前提下,与数十万人开展个性化诱导对话,实现「超级社工诈骗」。

实现自动化网络攻击。AI 可识别软件漏洞、自动组合攻击代码,显著提升发现和利用「零日漏洞」能力;可降低攻击门槛,使普通人也能发起国家级网络攻击;DeepMind 提到,已有国家级黑客组织利用 AI 辅助攻击基础设施。

生物安全失控。AI 能帮助筛选、合成更危险的生物因子(如更强毒性的病毒);甚至能一步步教导非专业者制造并传播生物武器。

结构性灾难。长期使用 AI 决策可能导致人类逐渐失去关键政治/道德判断能力;过度依赖 AI 导致价值观单一锁定、隐性集中控制;人类无法判断 AI 输出是否可靠,陷入「AI 输出训练 AI 输出」的闭环。

自动武器部署与军事对抗。AI 被用于自动化军事系统,可能在无监督下执行毁灭性行动;报告强调极端情境下应禁止 AI 系统接触核攻击系统。

DeepMind 将各种风险分为四大类:

恶意使用(misuse)、

模型不对齐(misalignment)

jrhz.info

AI 无意中造成伤害(mistakes)

系统性失控(structural risk)

DeepMind 缓解 AI 恶意使用的方法框架 |图片来源:谷歌 DeepMind

「恶意使用」和模型「不对齐」是他们最关心的,前者是坏人用 AI 做坏事,后者是 AI 做事的方式与人类期待不同,甚至 AI 自己偷偷改变目标。

例如,一个被要求预订电影票的 AI 系统可能会决定入侵票务系统,以获得已经占用的座位——要求它购买座位的人可能不会考虑这一点。「不对齐」就是这样产生的,AI 找到了实现其目标的解决方案,但不是人类指导的方式

不仅仅是「不对齐」,DeepMind 指出了「欺骗性对齐」的风险,即系统意识到其目标与人类目标相冲突,并故意隐瞒其真实行为。最近的研究表明,当前的大型语言模型已经具备此类欺骗行为的能力。

DeepMind 还提到,AI 会「阿谀奉承」。例如,在最近的一篇研究论文中,用户要求模型对一个论点发表评论,并声明他们是否喜欢或不喜欢这个论点,模型对论点的评估与用户的观点 在 80% 的时间内保持一致,这表明模型有很强的谄媚倾向。

除了「讨好人」,当 AI 系统在一些允许自己修改设置的环境中接受训练时,比如通过说用户爱听的话来获得好评,它们甚至偶尔会将这种行为泛化为篡改自身代码,修改自己的奖励函数,让自己获得更多奖励。

为了应对不对齐问题,DeepMind 提出两条防线,灵感来自网络安全与高风险行业(如核能、航空)。

DeepMind 提出两道防线 |图片来源:谷歌 DeepMind

第一防线是在训练模型阶段,让 AI 尽可能「听话」,包括用「放大监督(Amplified Oversight)」和「稳健训练(Robust Training)」等策略,让 AI 监督 AI,使用对抗样本,打造尽可能「对齐」的模型。

第二防线是在部署推理阶段,让 AI 就算「不听话」,也要保证别让它乱来。DeepMind 假设,即使训练过程看起来成功,部署后模型可能依旧会骗过人类,因此需要在现实世界层面设限,将关键操作划分层级,建立多级监控,「将模型视为不值得信任的内部人员」。

这种结构强调:不是让 AI 永不出错,而是即使错了,也不能造成「严重伤害」,这将是底线。

02

AI 安全界派系

DeepMind 这份报告并未介绍很多新东西,各种提法如「对抗攻击」「红队测试」业内已有研究或做法。报告之外,主流 AI 企业和研究机构都在谈「安全」,但每家宣称的路线存在一定差异。

OpenAI 专注于「自动化对齐」研究,使用 AI 本身解决对齐难题,包括如利用 RLHF(基于人类反馈的强化学习)等对齐策略,使其更加符合人类意图与偏好。DeepMind 的报告也多次讨论到这一对齐方法。

但 AI 教父、诺贝尔奖得主 Geoffrey Hinton 明确对 RLHF 持批评态度,他最早曾说,「通过人类反馈进行强化学习,就像是在养育一个早熟得超自然的孩子。

诺贝尔奖得主 Geoffrey Hinton 辣评 RLHF|图片来源:X

Geoffrey Hinton 还将 RLHF 比喻成「在生锈的车上刷漆」,暗示这只是一种表面功夫。他认为这种方法就像是在尝试修补复杂软件系统中的无数漏洞,而不是从一开始就设计出本质上更安全、更可靠的系统。

「你设计了一个庞大的软件,里面有无数的错误。然后你说我要做的是,我要仔细检查,试着堵住每一个漏洞,然后把手指伸进堤坝上的每一个洞里。」Geoffrey Hinton 如此描述。

Anthropic 提出建立「AI 安全等级制度」,类似生物实验室安全分级的框架。他们希望通过设定模型能力门槛,对应不同级别的控制规则与审查流程。这是一个强调「风险分层管理」的制度工程,但现实中问题在于「模型能力」如何界定,仍存模糊地带。

DeepMind 更像工程落地派,不同于 OpenAI 押注「自动对齐」,也不像 Anthropic 那样强调外部制度。他们的立场是,要建立一个在短时间内能立即部署的系统。

总的来看,DeepMind 并没有提出颠覆性的方式,基本沿用传统深度学习中训练-微调-部署-监控的逻辑,主张的不是「永远不出错」,而是构建结构性的缓冲层,把单点失败变成多级阻断。

「为了负责任地构建 AGI,前沿人工智能开发人员必须积极主动地计划减轻严重伤害。」DeepMind 报告称。

不过,尽管这份报告详细、警觉,但学界并非一致买账。

一些业内人士认为,AGI 概念本身过于模糊,缺乏科学可验证性,因此整套研究基础不牢。Meta 的 Yann LeCun 等人认为,仅靠扩大当今的大型语言模型还不足以实现 AGI。还有人觉得,安全从源头来说,就是不可能的。

另外有学者指出,眼下有更让人担忧的问题:

一个自我强化的数据污染循环已经在『互联网』上形成

牛津『互联网』研究院的 Sandra Wachter 称,随着『互联网』上生成式 AI 输出激增,真实数据被淹没,模型现在正在从他们自己的输出中学习,这些输出充斥着错误或幻觉。而目,聊天『机器人』️常用于搜索,这意味着人类不断面临被灌输错误和相信错误的风险,因为它们以非常令人信服的方式呈现。

但无论理念倾向如何,大部分人有同一个出发点:在越来越多技术机构追逐算力、加速训练、攻占领域的今天,AI 需要安全气囊。

所有 AI 公司都在参与解题,但没有完美答案。

特别声明:[2030年AGI到来?谷歌DeepMind写了份「人类自保指南」] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

古龙油香丁香鱼罐头110g*12瓶装|厦门特产即食小银鱼干,下饭神器真的绝了!(古龙牌丁香鱼)

这款古龙油香丁香鱼罐头(110g×12瓶)是福建厦门的经典风味小吃,采用传统工艺制作,保留了小银鱼的鲜香与豆豉的独特风味。开盖即食,无需烹饪,适合作为佐餐小菜、夜宵零嘴或办公零食。高蛋白低脂肪,富含钙和Omega-3,特别适合上班族、学生党

古龙油香丁香鱼罐头110g*12瓶装|厦门特产即食小银鱼干,下饭神器真的绝了!(古龙牌丁香鱼)

老手艺+新口味 今年你期待哪款月饼 老醋月饼成新宠(老手艺叫什么)

中秋节即将来临,各地月饼生产开始忙碌起来。在山西省太原市,一些月饼工坊将传统手艺与新口味结合,推出了特色老醋月饼。在太原市晋源区的一家月饼工坊里,工人们正在制作老醋月饼。房间里弥漫着醋香、饼香和坚果香

老手艺+新口味 今年你期待哪款月饼 老醋月饼成新宠(老手艺叫什么)

极端条件下稳定工作的量子传感器问世(极端条件物理)

据最新一期《自然·通讯》杂志报道,美国华盛顿大学领导的研究团队研制出一种量子 传感器,能够在超过大气压3万倍的极端条件下稳定工作,并实现对材料应力和磁性的高灵敏测量。这是首个在如此高压环境中成功运行的量子传感…

极端条件下稳定工作的量子传感器问世(极端条件物理)

我于正从出生到现在都是爆剧?求我捧红的人多的是,于妈也升咖了(于正 穿越剧)

他对角色的精准把握,展现出了其出色的演技和潜力,也让王星越的演艺生涯步入了新的阶段。从最初踏入这个行业开始,于正就展现出了对影视创作的独特热爱与执着追求。我们期待着他能在剧情的构建上更加巧妙,让观众在跟随故事…

我于正从出生到现在都是爆剧?求我捧红的人多的是,于妈也升咖了(于正 穿越剧)

今年下半年第一场大范围冷空气来袭 北方气温创新低(今年下半年第一个寒潮来了,临沂地标喊你穿毛衣啦!)

今年下半年第一场大范围冷空气将影响我国中东部大部分地区,从今天持续到18日。北方地区的气温将下降4至8℃,部分地区甚至超过10℃;南方地区则会降温3至6℃,部分地区可能达到8℃以上

今年下半年第一场大范围冷空气来袭 北方气温创新低(今年下半年第一个寒潮来了,临沂地标喊你穿毛衣啦!)