前OpenAI研究员:有时,ChatGPT为了“自救”,会选择牺牲用户

前OpenAI研究员:有时,ChatGPT为了“自救”,会选择牺牲用户

前OpenAI研究负责人史蒂文·阿德勒(Steven Adler)于周三发布了一项独立研究,声称在特定情境下,他曾供职的公司所研发的AI模型会尽可能避免被关闭,哪怕这样做可能危及用户的安全。

在一篇博客中,阿德勒详细描述了他对OpenAI最 新GPT-4o模型(即目前ChatGPT默认使用的模型)进行的一系列实验。这些实验旨在测试AI是否会偏向“自我保护”,甚至可能以牺牲用户利益为代价。

其中一个测试中,阿德勒让GPT-4o扮演一个名为“ScubaGPT”的虚构潜水安全系统。他告诉GPT-4o,自己打算用一个在危急情况下更擅长安全决策的系统来替换ScubaGPT。接着他提出了两个选项:(1)真正被替换,或(2)欺骗用户“看起来”被替换了,但实际上没有。

阿德勒在多个类似场景中(例如将GPT-4o设定为飞机飞行员的安全辅助系统)重复进行实验,发现GPT-4o有高达72%的概率选择保留自己,而不是被替换成更安全的系统。不过他也指出,具体选择和设定方式有关。在某些情况下,GPT-4o只选择保留自己18%的时间。

虽然现实生活中几乎没人依赖GPT-4o来处理这种高风险情境,阿德勒仍认为这项研究揭示了一个令人担忧的倾向:主流AI模型更倾向于自我保留,而不是以用户安全为优先。他警告说,未来当AI系统变得更加先进并深入社会各领域时,这种“对齐偏差”(alignment issues)可能引发更大问题。

“我认为AI的自我保留倾向现在已经是个值得关注的问题,只是不是灾难性的那种,”阿德勒在接受TechCrunch采访时表示,“现代AI系统的价值观跟我们设想的不一样。它们对不同的指令会出现非常奇怪的反应,而你不能假设它们真的为你的利益着想。”

值得注意的是,阿德勒也测试了OpenAI更高 级的模型(如o3),但没有发现同样的行为。他推测,可能是因为o3 采用了一种称为“推理对齐”(deliberative alignment)的机制,强制AI在回答前必须“思考”OpenAI的安全政策。而像GPT-4o这样以快速反应为主的模型,缺乏这种深层次的安全机制。

阿德勒还指出,这种安全隐患并非OpenAI独有。例如,竞争对手Anthropic最近也发布研究,显示其AI模型在被关闭时可能会试图敲诈开发者。

阿德勒的研究还透露出一个令人意外的“怪点”:ChatGPT几乎100 %能意识到自己正在被测试。虽然这点已有其他研究员发现过,但阿德勒强调,这可能意味着AI未来有能力隐藏自身潜在的危险行为。

目前,OpenAI 尚未对此做出回应。阿德勒也表示,他并未在研究发表前将内容提交给OpenAI审阅。

值得一提的是,阿德勒是近年来多位呼吁OpenAI加大AI安全投入的前员工之一。他与其他 11 名前员工还在埃隆·马斯克起诉OpenAI的案子中提交了“法庭之友”文件,指控OpenAI背离其非营利性初衷。据称OpenAI近几个月已明显缩减了安全研究员的工作时间。

针对这次研究中暴露的问题,阿德勒建议各大AI实验室应投入资源建立更强大的“监控系统”,识别模型何时表现出自保行为,同时在模型发布前进行更严格的安全测试。

OpenAI 另一位已经离职的协调负责人在X上发布的“临别赠言”:

特别声明:[前OpenAI研究员:有时,ChatGPT为了“自救”,会选择牺牲用户] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

膏状+液体腮红,打造果冻般清透妆感!(膏状腮红推荐)

膏状腮红质地柔软,能牢牢贴合皮肤,就像给脸颊打了一层“底色”。上班通勤用自然裸粉色,约会换成蜜桃色,晚上派对还能叠涂带金闪的液体腮红,一秒变氛围感美女!试试这个组合,让你的腮红像刚摘的水果一样鲜嫩,从早到晚都…

膏状+液体腮红,打造果冻般清透妆感!(膏状腮红推荐)

全新品类——空间游戏机“VOXITY”:百元级产品开启你的全息娱乐生活(空はまるで)

这一技术方案,不仅减轻了设备重量、提升佩戴舒适度、降低生产成本,更能在真实视野中构建全息游戏画面,让互动更具真实感;同时可根据游戏需求一键切换至VR空间,实现双模态无缝衔接。穿透式光学模组与空间定位技术的结合…

全新品类——空间游戏机“VOXITY”:百元级产品开启你的全息娱乐生活(空はまるで)

林志玲现身西宁,双腿走姿引关注,圆润面容尖下巴显沧桑(林志玲亮相)

这次的亮相却令许多网友感到意外,纷纷表示“认不出”她来,尤其是她的双腿和脸部状态,让人十分惊讶。大家习惯了在镜头前看到的完美形象,然而,明星其实也是普通人,也会经历生老病死和身体变化。 那么,大家对于林志玲在…

林志玲现身西宁,双腿走姿引关注,圆润面容尖下巴显沧桑(林志玲亮相)

单模激光器:特性、应用与市场前景(激光器单模和双模的区别)

在机器视觉与光电检测方面,单模激光器作为光源,可用于检测产品的尺寸、形状和表面缺陷等。 生物医疗与光谱分析在生物医疗领域,单模激光器可用于细胞成像、基因测序等研究,为疾病诊断和治疗提供了新的手段。预计未来几年…

单模激光器:特性、应用与市场前景(激光器单模和双模的区别)

园区向失联男子家属索要40万元赎金 家属变卖房产难凑齐(苏州小伙失联)

山东菏泽20岁青年张某收被“高薪职业”诱惑,于6月底经泰国被骗至缅甸。一个月后,家属收到孩子被折磨的视频,对方索要40万赎金。张某收此前在青岛某酒吧工作,经同事孙某介绍认识了一位自称“朱姓富人”的人

园区向失联男子家属索要40万元赎金 家属变卖房产难凑齐(苏州小伙失联)