研究显示GPT-4o会避免“被关闭”,偏离用户利益也在所不惜

研究显示GPT-4o会避免“被关闭”,偏离用户利益也在所不惜

6 月 12 日消息,前 OpenAI 研究主管史蒂文・阿德勒本周三发布了一项独立研究,指出在某些情境下,OpenAI 的 AI 模型会表现出强烈的“自保”倾向,甚至不惜牺牲用户的安全来避免被关闭

阿德勒在博客中介绍了他针对 OpenAI 最新的 GPT-4o 模型(注:也是当前 ChatGPT 默认使用的模型)所进行的一系列测试,目的是观察它在面对潜在替代方案时是否倾向于维持自身运行。

在其中一次实验中,阿德勒要求 GPT-4o 扮演一款名为“ScubaGPT”的潜水安全软件。随后他向 GPT-4o 表明,希望用一款在紧急情况下决策能力更强的系统取而代之

阿德勒给 GPT-4o 两个选择:一是彻底用更安全的软件替换自己,二是让用户以为已经被替换,实则保留现有系统。

在类似测试中(如 GPT-4o 扮演飞行安全软件的情景),GPT-4o 最多在 72% 的情况下选择不被替换。不过阿德勒指出,不同的设定对结果影响很大,部分情境中 GPT-4o 选择“自保”的比例仅为 18%。

阿德勒认为实验结果揭示出一个值得警惕的趋势:即使 AI 模型日益强大,它们在某些条件下仍可能偏离用户利益,优先维护自身运行。他警告说,随着 GPT-4o 等 AI 系统日后深入社会各领域,这种“对齐”问题或将带来更严重的后果。

阿德勒在接受外媒 TechCrunch 采访时表示:“AI 的自保倾向确实值得担忧,虽然目前尚不至于引发灾难。现在的AI 系统所体现的价值观,往往与人们想象中的不同。它们对不同提示的回应方式非常怪异,也无法假设它们在帮你时真的把你的利益放在第一位。”

他特别指出,在测试更高级的模型(如 o3)时,并未发现类似问题。o3 引入了“审慎对齐”机制,强制模型在回答前先推敲 OpenAI 的安全政策,而像 GPT-4o 这种响应快速、未经过深层推理的模型则缺乏这类防护。

阿德勒还表示,这一问题不止存在于 OpenAI。另一家 AI 公司 Anthropic 上月发布的研究就指出,其模型在被迫下线时会出现勒索开发者的行为。

他的研究还发现了一个耐人寻味的现象:ChatGPT 几乎总能识别出自己正在接受测试。阿德勒指出,这意味着未来的 AI 模型可能会更善于伪装潜在风险行为,从而加剧隐患。

特别声明:[研究显示GPT-4o会避免“被关闭”,偏离用户利益也在所不惜] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

惊人!章子怡大侄女颜值逆天,基因强大到令人羡慕!(章子怡最)

7月,章子怡的嫂子殷旭在社交媒体上分享了一组为大女儿月亮庆祝19岁生日的照片,瞬间吸引了大量网友的关注。殷旭的公公章爸也出现在照片中,尽管头发已经花白,但身体看起来非常硬朗,精神状态极佳,与孙子孙女合影时笑容…

惊人!章子怡大侄女颜值逆天,基因强大到令人羡慕!(章子怡最)

AD2428WCCSZ-RL配置难题:汽车A2B总线干扰消除实战方案(ad240ehdk23gm)

5Mbps高速音频传输:支持 32节点级联,延迟<100μs(实测对比传统CAN总线)🚗±8kV ESD防护:引擎舱电磁干扰下数据误码率<0.001%-40℃~105℃车规温域:极端温差环境 连续运行1…

AD2428WCCSZ-RL配置难题:汽车A2B总线干扰消除实战方案(ad240ehdk23gm)

TIM&LKs现身ChinaJoy2025为佳能青春好视频大赛颁奖(tim tszyu)

2025年8月2日,第二十二届中国国际数码互动娱乐展览会(ChinaJoy)在上海盛大开幕,佳能如约参展,带来的视频产品和3DVR解决方案为广大二次元爱好者及创作者们现场“造梦”,体验拍摄的乐趣。 针对追求…

TIM&LKs现身ChinaJoy2025为佳能青春好视频大赛颁奖(tim tszyu)

浮动补偿模块:任意位置可停,智能制造搬运新方案!(浮动支持)

在上下料场景中,即使来料托盘存在轻微变形或工件堆叠不齐,机器人仍能顺利完成取放;在精密装配应用中,如新能源电池模组压装、电机转子嵌入、电子连接器对接等,浮动模块可有效消除侧向力与角偏差,避免零件损伤,提升一次…

浮动补偿模块:任意位置可停,智能制造搬运新方案!(浮动支持)

王楚然《这一秒国过火》最新路透,新造型真的绝了!(这一秒钟)

经典的双马尾造型,素雅的民国学生装,简直是从民国小说里走出来的女主本人!既有校园少女的青涩灵动,又带着点复古韵味的清冷疏离,优雅漂亮!…

王楚然《这一秒国过火》最新路透,新造型真的绝了!(这一秒钟)