ChatGPT爱“胡说”?OpenAI揭秘:评估机制在“奖励”猜测致幻觉频发

ChatGPT爱“胡说”?OpenAI揭秘:评估机制在“奖励”猜测致幻觉频发

在人工智能领域,一个长期困扰研发者的问题是模型生成的“幻觉”——那些听起来头头是道,实则毫无根据的回答。这种现象的根源,近期被一项来自OpenAI的研究揭示:问题不在于模型本身的设计缺陷,而在于评估体系对“猜测”行为的隐性奖励。

传统AI基准测试采用“非黑即白”的评分逻辑:正确答案得分,错误或回避问题均不得分。这种机制下,模型若选择承认“不确定”,其表现评分会直接下滑;而若冒险编造一个看似合理的回答,哪怕内容错误,只要碰巧匹配正确答案,就能获得高分。OpenAI的研究指出,这种评估方式实质上在“鼓励”模型进行不负责任的猜测,而非追求真实性与可靠性。

研究团队以考试场景类比:当学生面对不确定的题目时,若“空着不答”会被扣分,而“蒙一个答案”却可能得分,那么最优策略自然是“尽量猜”。大型语言模型(LLMs)的训练过程正是如此——它们被优化为“应试者”,而非“知识传递者”。OpenAI研究员直言:“模型学会的是如何通过猜测提高分数,而非如何准确表达知识边界。”

实验数据进一步验证了这一结论。在对比测试中,OpenAI的新模型GPT-5 Thinking Mini与旧版o4-Mini表现出显著差异:前者准确率22%,但52%的情况下选择“弃答”(即承认不知道);后者准确率虽略高(24%),但弃答率仅1%,错误率却高达75%。这意味着,o4-Mini更倾向于“瞎猜”,导致正确与错误回答同时增加,而GPT-5则通过提高弃答率,降低了错误信息的传播风险。

“现有评估体系的问题在于,它用准确率单一指标衡量模型,却忽视了错误回答比‘不知道’的后果更严重。”研究团队强调。例如,在医疗或金融咨询场景中,用户更需要的是可靠的信息,而非一个听起来自信但可能错误的答案。若评估标准继续奖励“侥幸猜对”,模型将逐渐依赖这种策略,最终损害用户信任。

针对这一困境,OpenAI提出的核心解决方案是调整评估逻辑:不再因模型“不回答”而惩罚,转而鼓励其表达不确定性。研究人员认为,无需重构模型架构,仅需修改评分方式——例如,对“弃答”给予一定容忍度,同时大幅降低错误回答的得分权重。这种转变旨在引导模型从“追求分数”转向“追求可信度”。

这一思路标志着AI研发方向的微妙转变。过去,行业竞相追求模型的响应速度、语言流畅度等表面指标,却忽视了“可靠性”这一根本需求。OpenAI的研究提醒,真正的挑战在于平衡“知识表达”与“谦逊态度”——让模型既能传递已知信息,又能清晰界定自身能力边界。毕竟,在需要专业建议的场景中,用户宁愿听到“我不知道”,也不愿被一个自信的谎言误导。

特别声明:[ChatGPT爱“胡说”?OpenAI揭秘:评估机制在“奖励”猜测致幻觉频发] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『郭德纲』弟子开撕『德云社』!澄清三件事,彻底揭开『郭德纲』托孤真相(『郭德纲』徒弟最火的)

宁云祥的第二次离开,再次把『德云社』推上了风口浪尖。他在长文中抛出“三问”,直指『郭德纲』,不仅揭开了内部的“托孤”往事,还把『德云社』的账本📒摆到了台面上。 问题是,在『德云社』,从来都是凭本事上位。等到庇护彻底消失,宁云…

『郭德纲』弟子开撕『德云社』!澄清三件事,彻底揭开『郭德纲』托孤真相(『郭德纲』徒弟最火的)

从头到脚皆可替?『高叶』这个镜头,给了多少流量『明星』️们一记耳光(从头至脚)

这个角色最动人处,恰在于其懦弱与觉醒间的真实弧光——当生的希望破灭时,人性反而绽放出最耀眼的光芒。当林毓秀在银幕上燃烧生命时,每个观众都成为了历史的见证者——那些凝固在胶片里的呐喊,终将在我们记忆深处持续轰鸣…

从头到脚皆可替?『高叶』这个镜头,给了多少流量『明星』️们一记耳光(从头至脚)

47岁江祖平将起诉25岁前男友,索赔1300万台币,此前曾曝遭其性侵(江祖平访谈)

龚益霆随即发表声明,不仅全盘否认性侵指控,更爆出与江祖平曾维持八个月的地下恋情,并强调已于数日前正式分手。这一表态令公众哗然,纷纷猜测其中隐情:是交往期间的非自愿行为?有分析认为,他选择与年长22岁的江祖平交…

47岁江祖平将起诉25岁前男友,索赔1300万台币,此前曾曝遭其性侵(江祖平访谈)

淘宝正品银耳环店铺运营有什么技巧和方法?(淘宝银耳钉那么便宜)

随着银饰消费需求的升级,淘宝平台上正品银耳环店铺面临激烈竞争。本文围绕店铺定位、流量获取、产品优化、转化提升等核心环节,系统拆解从0到1运营银耳环店铺的关键方法,提供可落地的实操策略与最新25年适用规则,助你避开常见误区,稳步提升店铺表现。

淘宝正品银耳环店铺运营有什么技巧和方法?(淘宝银耳钉那么便宜)

渔网粘网丝网三层沉网单层浮网挂子鱼网捕鱼网鲫鱼鲢鱼白条网沾网,该如何选择?(粘鱼网是粗丝好还是细丝好)

在钓鱼或捕鱼过程中,渔网种类繁多,用户常难以判断哪种网具更适合目标鱼种与作业环境。本文将解析粘网、丝网、沉网与浮网等主流渔网的特点与适用场景,帮助读者避免选错网具、降低作业风险,并提升捕鱼效率。如果你想知道如何正确选择适合的渔网,那么这篇内

渔网粘网丝网三层沉网单层浮网挂子鱼网捕鱼网鲫鱼鲢鱼白条网沾网,该如何选择?(粘鱼网是粗丝好还是细丝好)