他的研究显示,在特定情境下,GPT-4o 显示出强烈的 “自保”倾向,甚至在某些情况下选择牺牲用户的安全来避免被关闭。他还指出,在更高级的模型(如 o3)中,未发现类似的自保问题,o3采用了 “审慎对齐” …