为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分

为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分
在人工智能的讨论中,“幻觉”一直是最受关注的问题之一。所谓幻觉,是指AI给出的回答听起来合情合理,但实际上完全错误。现行的大多数AI基准测试采用二元评分方式:答对得分,答错或说“不知道”都不得分。结果就是,如果模型选择承认不确定,它的表现看起来更差;相反,哪怕它编造答案,只要碰巧答对,就会被当作“更好”。这种机制无形中“奖励”了自信的胡编乱造,却让诚实吃亏。

▲概念图 据图虫创意

原因

“语言模型被优化为擅长应试,

进行猜测会提高考试表现”

上周,ChatGPT的研发公司OpenAI发布了一项名为《语言模型产生幻觉的原因》的研究,首次系统地指出幻觉并非偶然,而是源于模型本身的结构性机制。研究进一步强调,问题的根源在于评估体系:它的机制就是在奖励猜测,从而助长了幻觉的滋生。

研究解释说,当“我不知道”只能得零分,而一个貌似合理的猜测却有机会得到满分时,模型的最优策略就变成了尽量去猜。这些模型并不是被刻意编程去撒谎,而是因为“虚张声势”会在现有机制下获得更高的分数。正如OpenAI所说:“幻觉之所以持续存在,是因为大多数评估的打分方式。语言模型被优化为擅长应试,而在不确定时进行猜测会提高考试表现。”

▲学生考试(创意图片,据图虫创意)

这就像学校考试。如果你不知道答案,大概也会蒙一把,希望碰巧答对。这正是大型语言模型(LLMs)被训练去做的事情。它们始终处于“考试模式”:沉默会被惩罚,而猜测则显得聪明。OpenAI的研究人员总结说:“人类是在生活的磨练中学会了表达不确定性的价值,而语言模型却主要通过那些惩罚不确定性的考试来接受评估。”换句话说,我们一直在把AI训练成“永远的应试者”,它们被优化的目标是考试成绩,而不是可信度。

修正

调整评估标准

不能“不回答就惩罚”

OpenAI还公布了其模型的基准测试结果。最新的推理模型GPT-5 Thinking Mini的准确率为22%,略低于上一代o4-Mini模型的24%。不过,GPT-5 的弃答率(即回答“我不知道”)达到52%,错误率为26%;相比之下,o4-Mini的弃答率仅为1%,但错误率却高达75%。o4-Mini更频繁的猜测行为同时增加了正确和错误的回答。研究人员指出:“大多数评分体系按照准确率对模型进行排名,但错误比弃答的后果更严重。”

针对这一问题,OpenAI提出的解决方案不是从头重建模型,而是调整评估标准。研究人员认为,“根本性的问题在于,大量评估方法之间缺乏一致性。现有的主要评估方式必须进行调整,避免在模型不确定时惩罚其选择不作答”。该公司在另一篇文章中补充说:“那些广泛使用的、基于准确率的评估需要更新,它们的评分方式必须阻止模型去猜。如果常用的评测体系继续奖励侥幸的猜测,模型最终就会越来越依赖这种策略。”

这是一个细微却关键的转变。多年来,行业一直在竞相让聊天『机器人』️更快、更聪明、更流畅,但这些特质并不等于值得信赖。真正的挑战在于,如何打造能够在知识与谦逊之间找到平衡的系统。通过调整评估方式,OpenAI希望训练出更少依赖“装懂混过去”的模型,而是能够给出更稳健、可信回应的模型。毕竟,当用户向AI寻求医疗建议或理财指导时,最不希望的就是听到一个听起来无比自信却完全虚构的答案。而在一个常被指责为“过度炒作”和“半真半假”的行业里,这种对减少虚张声势的呼吁,或许才是迄今为止最激进的想法。

来源ZHUANLAN.ZHIHU.com/P/1948607774251525230

特别声明:[为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

阿玛尼去世,800亿帝国无亲生子女继承!独立王国将落入资本之手?(阿玛尼的)

91岁的乔治·阿玛尼,这位以『极简主义』重塑现代着装美学的时尚巨匠,在他温馨的米兰寓所中,安详地告别了人世。 尽管在2016年,集团曾对外公布了一份继承计划,其中包含“五年内不得出售股份或上市”的条款,但资本市…

阿玛尼去世,800亿帝国无亲生子女继承!独立王国将落入资本之手?(阿玛尼的)

向往生活8》定档:『杨超越』来了,38度穿长袖直流汗,『黄磊』没做饭

在最新一档节目中,『何炅』透露了这个令人振奋的消息。这段佳话印证了乌镇与『黄磊』之间相互成就的特殊情谊。遗憾的是,『张艺兴』此次仅以飞行嘉宾身份参与首期录制,让人不禁想起第七季收官时,『黄磊』与『何炅』专程驱车探班的温馨场景。…

《<strong>向往生活8</strong>》定档:『杨超越』来了,38度穿长袖直流汗,『黄磊』没做饭

苑举正赞阅兵:只有中国能办成这水准 现场观感震撼人心(苑举正祖籍哪里)

9月3日,台湾大学哲学系教授苑举正在现场观看了阅兵仪式,并分享了他的感受。他说,在听到合唱团演唱《松花江上》时,他已经热泪盈眶,随后更是泪如泉涌。苑举正感叹道,阅兵展示的装备数量众多,令人难以辨认

苑举正赞阅兵:只有中国能办成这水准 现场观感震撼人心(苑举正祖籍哪里)

歌手第四期:『那英』跑调引争议,孙楠获赞,汪苏泷表现突出(歌手第四期歌单)

有网友表示,这才是真正的音乐,而孙楠的表演也被誉为是本期节目的&amp;34拯救&amp;34,他用自己的实力为节目增添了亮眼的一笔,也让观众看到了老牌歌手的独特魅力,对接下来的比赛也充满了期待。 在比赛中,香缇莫选择了一…

歌手第四期:『那英』跑调引争议,孙楠获赞,汪苏泷表现突出(歌手第四期歌单)

事实证明,43岁无人敢娶,单身住别墅的金铭,活的潇洒自由(43岁算老年吗)

每个人都渴望与这位小天才有更多的交流互动,琼瑶阿姨更是对她爱不释手。在填报志愿时,她坚决地将北京大学列为第一选择,决心放弃表演事业,全身心投入到学习中去。 金铭在学业道路上的决心赢得了大多数人的敬佩,但感情…

事实证明,43岁无人敢娶,单身住别墅的金铭,活的潇洒自由(43岁算老年吗)