为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分

在人工智能的讨论中,“幻觉”一直是最受关注的问题之一。所谓幻觉,是指AI给出的回答听起来合情合理,但实际上完全错误。现行的大多数AI基准测试采用二元评分方式:答对得分,答错或说“不知道”都不得分。结果就是,如果模型选择承认不确定,它的表现看起来更差;相反,哪怕它编造答案,只要碰巧答对,就会被当作“更好”。这种机制无形中“奖励”了自信的胡编乱造,却让诚实吃亏。

▲概念图 据图虫创意

原因

“语言模型被优化为擅长应试,

进行猜测会提高考试表现”

上周,ChatGPT的研发公司OpenAI发布了一项名为《语言模型产生幻觉的原因》的研究,首次系统地指出幻觉并非偶然,而是源于模型本身的结构性机制。研究进一步强调,问题的根源在于评估体系:它的机制就是在奖励猜测,从而助长了幻觉的滋生。

研究解释说,当“我不知道”只能得零分,而一个貌似合理的猜测却有机会得到满分时,模型的最优策略就变成了尽量去猜。这些模型并不是被刻意编程去撒谎,而是因为“虚张声势”会在现有机制下获得更高的分数。正如OpenAI所说:“幻觉之所以持续存在,是因为大多数评估的打分方式。语言模型被优化为擅长应试,而在不确定时进行猜测会提高考试表现。”

▲学生考试(创意图片,据图虫创意)

这就像学校考试。如果你不知道答案,大概也会蒙一把,希望碰巧答对。这正是大型语言模型(LLMs)被训练去做的事情。它们始终处于“考试模式”:沉默会被惩罚,而猜测则显得聪明。OpenAI的研究人员总结说:“人类是在生活的磨练中学会了表达不确定性的价值,而语言模型却主要通过那些惩罚不确定性的考试来接受评估。”换句话说,我们一直在把AI训练成“永远的应试者”,它们被优化的目标是考试成绩,而不是可信度。

修正

调整评估标准

不能“不回答就惩罚”

OpenAI还公布了其模型的基准测试结果。最新的推理模型GPT-5 Thinking Mini的准确率为22%,略低于上一代o4-Mini模型的24%。不过,GPT-5 的弃答率(即回答“我不知道”)达到52%,错误率为26%;相比之下,o4-Mini的弃答率仅为1%,但错误率却高达75%。o4-Mini更频繁的猜测行为同时增加了正确和错误的回答。研究人员指出:“大多数评分体系按照准确率对模型进行排名,但错误比弃答的后果更严重。”

针对这一问题,OpenAI提出的解决方案不是从头重建模型,而是调整评估标准。研究人员认为,“根本性的问题在于,大量评估方法之间缺乏一致性。现有的主要评估方式必须进行调整,避免在模型不确定时惩罚其选择不作答”。该公司在另一篇文章中补充说:“那些广泛使用的、基于准确率的评估需要更新,它们的评分方式必须阻止模型去猜。如果常用的评测体系继续奖励侥幸的猜测,模型最终就会越来越依赖这种策略。”

这是一个细微却关键的转变。多年来,行业一直在竞相让聊天『机器人』️更快、更聪明、更流畅,但这些特质并不等于值得信赖。真正的挑战在于,如何打造能够在知识与谦逊之间找到平衡的系统。通过调整评估方式,OpenAI希望训练出更少依赖“装懂混过去”的模型,而是能够给出更稳健、可信回应的模型。毕竟,当用户向AI寻求医疗建议或理财指导时,最不希望的就是听到一个听起来无比自信却完全虚构的答案。而在一个常被指责为“过度炒作”和“半真半假”的行业里,这种对减少虚张声势的呼吁,或许才是迄今为止最激进的想法。

来源ZHUANLAN.ZHIHU.com/P/1948607774251525230

特别声明:[为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

广交会上海展全案设计:如何用“视觉锤”让客商在你的展位多留3分钟?(上海广交会2020展时间表)

这时候,你需要一个**“视觉锤”**把他砸晕,把他拉进来。 物料: 递给他一本精装画册(一定要厚、要重),和一瓶印有你Logo的矿泉水。 雨意风茂的“展会全案包”我们提供从3D展台设计、平面海报设计到物料印刷…

广交会上海展全案设计:如何用“视觉锤”让客商在你的展位多留3分钟?(上海广交会2020展时间表)

6.5秒下线一台空调!小米首个智能家电工厂揭秘:有三大核心技能(6.5秒下线一台空调一天可以)

快科技1月26日消息,今日霍州探访了位于湖北武汉的小米首个智能家电工厂,小米智能家电工厂厂长徐鹰介绍了小米智能家电工厂的三大核心技能,一是高效。 徐鹰表示,小米智能家电工厂车间几乎看不到人,这就是行业里面所说…

6.5秒下线一台空调!小米首个智能家电工厂揭秘:有三大核心技能(6.5秒下线一台空调一天可以)

【可以听的科学课】《“齐”妙科普》第994课 为什么大多数客机都是白色的?(写科学听什么歌可以提高速度)

↑点击收听《“齐”妙科普》音频科学课↑ …

【可以听的科学课】《<strong>“齐”妙科普</strong>》第994课 为什么大多数客机都是白色的?(写科学听什么歌可以提高速度)

仙剑姐妹花16年后再聚首!『刘诗诗』『杨幂』双女主剧引爆内娱(06年仙剑)

这消息也让很多人的思绪,一下子飘回了2009年的《仙剑奇侠传三》。那部剧不仅是一代人的仙侠记忆,更像一个造星工厂,『杨幂』、『刘诗诗』、『唐嫣』这“仙剑三美”,正是从那里走进了大众视野,开启了属于她们的黄金时代。反倒是…

仙剑姐妹花16年后再聚首!『刘诗诗』『杨幂』双女主剧引爆内娱(06年仙剑)

2025年智能体时代:重塑企业未来报告(2035年的智能时代)

三份报告共同构建了一个以&quot;发现-理解-行动&quot;(Discover-Understand-Act)为核心的方法论框架,展现了智能体如何从被动响应转为主动决策,从单点工具进化为跨系统协作的数字员工,最终推动企业

2025年智能体时代:重塑企业未来报告(2035年的智能时代)