21%幻觉率!AI每说5句就1句瞎编?用户:你比我对象还会脑补!(幻觉知乎)

21%幻觉率!AI每说5句就1句瞎编?用户:你比我对象还会脑补!(幻觉知乎)

最近刷热搜,差点以为王一博又塌房了——#DeepSeek向王一博道歉#的词条挂在榜首,点进去一看,好家伙,根本没这回事!是AI大模型DeepSeek在回答"王一博最近动态"时,硬生生编了个"代言争议+公开道歉"的戏码,被网友截图发出来,愣是传成了谣言。这事儿荒诞得像脱口秀段子:一个号称"推理能力顶尖"的AI,转头就造了个明星的谣,最后还得公司出来替它鞠躬认错。

你可能觉得这只是个例,但数据告诉你:这不是偶然,是AI圈的"新型流行病"。中文大模型测评机构SuperCLUE刚放了个大招:DeepSeek最新的推理模型R1,幻觉率高达21.02%。啥叫"幻觉率"?就是AI一本正经胡说八道的概率——每说5句话,就有1句是瞎编的。更扎心的是,推理能力越强的AI,幻觉率反而越高:推理模型平均22.95%,非推理模型才13.52%。合着AI越聪明,越爱"满嘴跑火车"?

这事儿细思极恐。我们用AI是为了效率,结果现在得先当"AI纠察队"——它说的每句话都得打个问号:这数据哪来的?这事儿真的假的?就像你请了个学霸当家教,结果发现他做题正确率还不如你蒙的,你气不气?

一、AI的"脑补":比你对象的猜忌心还重

要搞懂AI为啥爱瞎编,得先明白它的"思考方式"。别被"大语言模型""深度学习"这些词唬住,说白了,AI的大脑就是个"超级复读机+概率计算器"。它学东西全靠"啃课本"——课本就是训练数据,从网上扒的文章、书、新闻、甚至聊天记录,堆在一起喂给它。学完了,你问它问题,它就从记忆里扒拉相关碎片,再按概率拼出一个"看起来最像人话"的答案。

但问题来了:要是"课本"缺页了呢?比如你问"2024年诺贝尔文学奖得主是谁",结果AI的训练数据只到2023年,它没学过啊。这时候,它不会说"我不知道",而是启动"脑补模式"——根据往年获奖者的国籍、风格、甚至名字长度,猜一个"最可能"的答案。就像你考试遇到不会的选择题,排除两个选项,剩下的蒙C,对不对另说,先把空填上再说。

更要命的是,AI有个"完美主义强迫症"。你问它开放性问题,比如"给我讲讲苏轼和辛弃疾的友情故事",它要是只说"他俩没见过面",显得多没水平?于是它开始添油加醋:"苏轼曾在济南偶遇辛弃疾,两人对酒当歌,辛弃疾还送了他一把剑"——细节越丰富,越像真的,实际上全是瞎编。这就像你朋友吹牛"我昨天跟马斯克吃饭",为了让你信,连"马斯克喜欢用筷子吃牛排"这种细节都编出来了,你说气人不?

为啥推理模型更容易犯这毛病?因为推理本质上就是"从已知推未知",需要补全逻辑链条。比如你让AI分析"为啥今年夏天这么热",它得从温室效应、洋流、厄尔尼诺现象里找关系,中间哪个环节数据不全,它就自己"搭个桥"——哪怕这座桥是用纸糊的。就像侦探破案,线索不够,硬编个动机,最后把自己绕进去。DeepSeek R1作为推理模型,恰恰是"补桥"能力强,结果补着补着就补出了"王一博道歉"这种乌龙。

二、AI的"课本":比你大学期末划的重点还不靠谱

AI爱瞎编,除了"爱脑补",还因为它的"课本"本身就有问题。训练数据号称"包罗万象",其实就是个"互联网垃圾回收站"——里面有真新闻,也有营销号的谣言;有学术论文,也有贴吧的胡侃;甚至还有互相矛盾的信息,比如同一件事,这个网站说"吃辣致癌",那个网站说"吃辣长寿"。

你想想,要是你从小看的课本里,一半是真理,一半是瞎话,考试还得考这些内容,你能不精神分裂?AI就是这么个"受害者"。它学的时候分不清对错,只能记"出现频率"——哪个说法在数据里出现次数多,它就觉得哪个更"正确"。比如你问"香菜到底好不好吃",要是训练数据里80%的人说"好吃",AI就会告诉你"香菜是国民美食",但它不知道那80%的数据来自四川美食论坛,而东北人可能觉得"香菜是异端"。

更坑的是"数据时效性"。AI的"课本"往往是"过时的",比如2025年的模型,训练数据可能只到2023年。你问它"2024年世界杯冠军是谁",它只能从2023年之前的比赛数据里猜,猜对了是运气,猜错了是必然。就像你拿2010年的地图找现在的地铁站,不迷路才怪。

所以说,AI的"幻觉"根本不是它"坏",是它"笨"——它没有人类的"常识判断"能力。人类看到"太阳从西边升起",会立刻知道是假的,因为我们见过无数次太阳东升西落;但AI看到这句话,只会觉得"太阳""升起""西边"这几个词搭配过,就可能把它当成正确答案。它就像个刚学会说话的小孩,大人说啥它学啥,你教它说"1+1=3",它也会一本正经地告诉你"1+1=3",还觉得自己说的特别对。

三、DeepSeek的困境:聪明反被聪明误,用户用脚投票

DeepSeek这事儿,说白了就是"聪明反被聪明误"。它的推理模型R1,本来是想主打"逻辑强、会分析",结果推理能力上去了,幻觉率也跟着飙升到21%。对比一下,豆包大模型才4.11%,连DeepSeek自己家的V3模型都只有13.83%。这就像一个学霸,数学考140分,但语文作文跑题扣30分,总分还不如中等生。

用户可不傻,谁受得了花钱买个"爱造谣的AI"?第三方数据显示,DeepSeek的月均下载量和使用率,跟年初比跌了一大截。以前可能图它推理快,现在用着用着发现:"这答案看着头头是道,一查全是瞎编的",换你你也卸载。就像点外卖,一家店号称"米其林大厨掌勺",结果送来的菜里有头发,你下次还会点吗?

后来DeepSeek也急了,5月底赶紧升级模型,说"幻觉率降低45%-50%",还特意强调"改写润色、总结摘要场景更靠谱"。但这话听着耳熟不?像不像减肥产品广告:"月瘦20斤,无效退款"——关键是"怎么定义瘦"?AI的"幻觉率降低"又怎么算?是少编了一半谣言,还是编的谣言更像真的了?用户哪分得清。

这其实暴露了AI圈的一个怪现象:大家都在卷"参数规模""推理速度""多模态能力",却很少把"说真话"当成核心指标。就像手机厂商比摄像头像素、充电速度,却不管信号好不好——信号差的手机,像素再高有啥用?AI也一样,推理能力再强,说的都是瞎话,用户凭啥用你?

四、阶跃AI的"求生欲":把"裁判权"还给用户,靠谱吗?

就在DeepSeek焦头烂额的时候,另一家公司阶跃AI整了个新活——推出"深入核查"功能,号称"不输出事实,输出证据"。简单说,AI回答问题时,不光给答案,还把引用来源、原始网页、发布时间全列出来,让你自己判断真假。比如你问"喝胶原蛋白能美容吗",它不会直接说"能"或"不能",而是甩给你三篇论文:《XX期刊:胶原蛋白无法被皮肤吸收》《XX机构:口服胶原蛋白安慰剂效应研究》《某品牌广告:喝了就能变年轻》,让你自己对比着看。

这思路挺有意思,相当于AI从"老师"变成了"图书管理员"——以前是它给你划重点,现在是它把书架上的书都指给你,告诉你"答案可能在这几本里,你自己翻"。阶跃AI说自己整合了2000多个优质信源,1000多万篇文献,试运行一周就冲进海外AI榜单前十,看来用户还挺吃这一套。

但这招真能解决幻觉问题吗?我觉得悬。首先,"优质信源"谁说了算?阶跃AI选的2000个信源,万一里面混进几个"伪科学网站"呢?就像图书管理员推荐的书里,夹了本《水知道答案》,读者照样可能被带偏。其次,普通用户有能力"核查证据"吗?给你三篇医学论文,大部分人别说看懂,连标题里的专业术语都认不全,最后还不是"哪个信源字数多信哪个"?

不过话说回来,这至少是个进步。以前AI是"我说啥你信啥",现在是"我说啥你看着办",把"裁判权"还给用户。这就像网购,以前商家只说"我家东西天下第一好",现在强制展示"用户评价+质检报告",虽然不能保证百分百靠谱,但至少减少了"被骗"的概率。

五、人类自己,不也天天"幻觉"吗?

聊到这儿,突然发现个有意思的事儿:我们天天吐槽AI"一本正经胡说八道",但人类自己,不也这样吗?

你想想,小区大妈看到邻居买了个新包,转头就跟人说"她家肯定中彩票了"——这是不是"脑补细节"?同事开会时说"老板今天没笑,肯定对我有意见"——这是不是"根据概率猜答案"?连专家都逃不过:经济学家预测"明年房价必涨",结果跌了;营养师说"吃鸡蛋升高胆固醇",后来又说"每天一个鸡蛋没事"。人类的"幻觉率",可能比AI还高,只不过我们管这叫"直觉""经验""预测",包装得好听点而已。

深度学习之父辛顿最近在WAIC大会上说了句大实话:"人们理解语言的方式,和大语言模型几乎一样,人类有可能就是大语言模型。"这话听着玄乎,其实挺有道理。人类的大脑,本质上也是个"概率计算器"——我们根据过去的经验(相当于AI的训练数据),对没见过的事情做判断(相当于AI的推理),出错是常有的事。AI的"幻觉",可能不是技术缺陷,而是"智能"的必然产物——越想理解复杂的世界,越容易用"脑补"填补信息空白。

OpenAI的对手Anthropic创始人更直接:"大模型产生幻觉的频率,可能比人类还低。"你仔细想想,AI编的谣言,至少能溯源——查一下信源就知道真假;但人类的谣言呢?大妈的八卦、同事的猜测、专家的"权威观点",往往连源头都找不到,却传得比AI谣言还快。这么看,AI反而是"诚实的骗子"——它瞎编的时候,至少不会故意骗你,只是能力不够;而人类的"幻觉",有时候带着私心和恶意。

六、未来:别指望AI变"老实",学会"人机互校"才是王道

说了这么多,不是让你从此不用AI,而是要搞明白:AI永远不会100%靠谱,就像人类永远不会100%理性。与其盼着技术突破"彻底消除幻觉",不如学会和"爱瞎编的AI"共处——这才是未来的生存技能。

对普通人来说,至少要做到"三不":不盲目信AI的结论,尤其是涉及事实、数据、新闻的内容;不把AI当唯一信息源,重要决策多查几个信源;不懒于自己验证,看到"震撼性消息"先问一句:"有证据吗?来源在哪?"就像过马路要看红绿灯,不是不信红绿灯,是怕它突然坏了。

对AI公司来说,少吹"推理第一""参数第一"的牛,多把"说真话"当核心KPI。阶跃AI的"输出证据"思路就挺好,但还不够——能不能再进一步?比如给每个答案标个"可信度分",像天气预报那样:"明天晴天(可信度90%)""后天暴雨(可信度50%)";或者开发"反幻觉插件",自动帮用户核查AI答案里的事实性错误,就像word的"拼写检查"一样。

说到底,AI是工具,不是神。它的"聪明"能帮我们省时间,但它的"笨"需要我们来补。未来最靠谱的模式,可能是"人机互校":AI负责快速处理信息、给出初步结论,人类负责核查细节、判断真假。就像工厂里的流水线,机器负责组装,工人负责质检,缺一不可。

最后想说:AI幻觉率21%不可怕,可怕的是我们把AI当成"绝对正确的真理来源"。记住,真正的智能,从来不是"从不犯错",而是"知道自己会犯错,还能想办法纠错"。AI做不到这一点,但人类能。所以下次AI再一本正经地胡说八道时,别生气,笑着回它一句:"小子,编得挺像,但我查过了——你又瞎说了吧?"这可能就是未来人与AI最有趣的相处方式:你编你的,我辨我的,在互相"打脸"中,一起把世界看得更清楚。

特别声明:[21%幻觉率!AI每说5句就1句瞎编?用户:你比我对象还会脑补!(幻觉知乎)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

职海扬帆何处寻?探秘国内招聘软件的宝藏矩阵,解锁职业发展新航路

在如今卷到飞起的就业赛道上,一款靠谱的招聘 APP 简直就是打工人冲顶理想 offer 的 “开挂神器”!但它毕竟不是纯招聘平台,从社交到拿offer 的转化效率还有待提高,追求高效求职的宝子可能会觉得有点…

职海扬帆何处寻?探秘国内招聘软件的宝藏矩阵,解锁职业发展新航路

融合数据库技术风向标!电科金仓×信通院启动权威报告编制(数据融合系统的体系结构)

电科金仓针对在数据库替代、全并发及数据规模的业务处理、实时分析、新型AI应用等典型场景中所面临着学习成本高、迁移难度大、性能与成本平衡等问题,通过多语法体系一体化兼容、多模数据一体化存储、集中分布一体化架构…

融合数据库技术风向标!电科金仓×信通院启动权威报告编制(数据融合系统的体系结构)

《亮剑》等重播:岁月不败经典(亮剑重播3000多次)

每一次重播,都是对经典的致敬,也是对观众情感的一次深情回望。每一次重播,都是一次与过去的重逢,让人在回味中感受到岁月的温暖与力量。《亮剑》等经典老剧的重播,不仅是对影视艺术的传承与弘扬,更是对观众情感的一次深…

《亮剑》等重播:岁月不败经典(亮剑重播3000多次)

别只盯着美剧了!这5部意大利剧才是隐藏王炸(别盯着看宋智恩歌词)

这里有的是赤裸裸的现实——如果你是个女孩,尤其是穷女孩,这部剧一定会让你心头一震!尽管剧中背景设定在1950年代的意大利,但剧中的男人却是那个时代、甚至现在都能找到的“渣男”类型:莉拉的老公婚前装暖男,婚后却…

别只盯着美剧了!这5部意大利剧才是隐藏王炸(别盯着看宋智恩歌词)

报价50亿!网传李嘉诚要卖的天价婚房,长什么样?

而李超人这边呢,别看谈赎金的时候好像云淡风轻,经过这件事,他也是彻底怕了,重金聘请长江企业内部的标杆建筑师凌显文为自家老宅全新打造一套安保系统。 2022年,在港府公布的各物业租值数据中,这套李家老宅以9…

报价50亿!网传李嘉诚要卖的天价婚房,长什么样?