OpenAI研究人员:破解『大语言模型』“幻觉”需从评估指标入手,避免奖励猜测(openjoven研究)

OpenAI研究人员:破解『大语言模型』“幻觉”需从评估指标入手,避免奖励猜测(openjoven研究)

在人工智能领域,『大语言模型』的“幻觉”问题长期困扰着行业——这些模型有时会将错误信息当作事实输出,几乎所有主流产品都存在这一缺陷。近日,OpenAI的研究团队在最新论文中提出,该问题的根源在于现有训练机制过度鼓励模型“猜测答案”,而非坦诚表达不确定性。

研究指出,当前模型训练过程中,评估标准更倾向于奖励“自信回答”,即使答案错误也能获得较高分数。这种机制导致模型被优化为“考试型选手”,在面对不确定问题时倾向于猜测而非承认“不知道”。研究人员比喻称,模型如同被迫参加一场永远没有“不确定”选项的考试,而现实世界的问题往往没有绝对正确的答案。

不同模型在这一问题上的表现存在显著差异。OpenAI此前发布的对比数据显示,Claude模型在面对不确定信息时更倾向于拒绝回答,而非给出错误答案。但研究团队同时指出,这种策略虽然降低了幻觉风险,却也导致拒答率过高,可能影响用户实际使用体验。

论文强调,现有评估体系与真实场景需求严重脱节。人类在现实互动中会逐渐学会表达不确定性的价值,但模型依赖的标准化测试却惩罚了“不确定”的回答。研究人员认为,这导致模型始终处于“考试模式”,将复杂问题简化为非黑即白的选择。

“问题的核心在于评估指标的错位。”研究团队提出,必须重新设计评分机制,避免模型因拒绝回答不确定问题而被扣分。当前广泛使用的基于准确率的评估方式需要更新,新的打分体系应当抑制模型“乱猜”的冲动。

OpenAI在配套博文中进一步解释,如果排行榜继续奖励侥幸正确的回答,模型开发者就会持续优化猜测能力,而非提升真实理解水平。研究团队呼吁行业建立更符合现实需求的评估标准,例如引入对不确定性表达的奖励机制,或设计能区分“合理猜测”与“随意回答”的评分模型。

特别声明:[OpenAI研究人员:破解『大语言模型』“幻觉”需从评估指标入手,避免奖励猜测(openjoven研究)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

哇塞!『赵今麦』竟穿油丝丝袜,这性感漂亮模样谁能不爱?(my『赵今麦』)

00后小花突然走起女王路线,这反差感绝了歪头挑眉的瞬间,红唇勾出的弧度比爱豆舞台还带感,评论区都在刷"这是吃什么长大的,气场两米八"。但『赵今麦』硬是穿出了清纯感和性感的平衡,大概这就是00后小花的厉害之处吧

哇塞!『赵今麦』竟穿油丝丝袜,这性感漂亮模样谁能不爱?(my『赵今麦』)

渤海一货船与一渔船相撞造成人员失联 多部门联合搜救(渤海轮渡一艘船的造价多少钱)

今日15分许,渤海中部海域一艘货船与一艘渔船相撞,导致渔船翻扣,造成人员失联。应急管理部迅速作出部署,要求相关部门全力搜寻失联人员,科学组织救援,并查清事故原因,防止类似事件再次发生

渤海一货船与一渔船相撞造成人员失联 多部门联合搜救(渤海轮渡一艘船的造价多少钱)

同样是演农村妇女,将『杨幂』,『李沁』,『赵丽颖』放一起,差距就出来了(演过农村人的女『明星』️)

『杨幂』在《生万物》里的村妇造型刚曝光,评论区瞬间挤满看客——"这哪是下地干活,分明是仙女落难""磨皮滤镜开到十级,连田埂边的土都自动避让"。出道二十年的顶流花旦,

同样是演农村妇女,将『杨幂』,『李沁』,『赵丽颖』放一起,差距就出来了(演过农村人的女『明星』️)

汪小菲疑似有三胎?马筱梅小肚子明显隆起,用玩具小心遮挡(汪小菲怎么样)

直播镜头扫过甜品台时,她下意识侧身的角度,与汪小菲指间萦绕的哈瓦那雪茄烟雾,在慢镜头回放中构成了蒙太奇式的隐喻。但此刻,在数据洪流与道德边界交织的灰色地带,真正需要"保胎"的,或许是公众人物所剩无几的

汪小菲疑似有三胎?马筱梅小肚子明显隆起,用玩具小心遮挡(汪小菲怎么样)

为何秦始皇和刘邦的龙袍是黑色的,而后来的皇帝龙袍却是黄色的(秦始皇为什么罢相)

在中国古代服饰文化中,帝王龙袍的色彩选择蕴含着深厚的文化内涵。鲜为人知的是,历史上有两位开国帝王选择了与众不同的黑色龙袍——秦始皇嬴政和汉高祖刘邦。这一制度被后世王朝延续,最终形成了"黄袍加身"的帝王

为何秦始皇和刘邦的龙袍是黑色的,而后来的皇帝龙袍却是黄色的(秦始皇为什么罢相)