21%幻觉率！AI每说5句就1句瞎编？用户：你比我对象还会脑补！(幻觉知乎)#娱乐#用户#辛弃疾#数据#对象#结果

最近刷热搜，差点以为王一博又塌房了——#DeepSeek向王一博道歉#的词条挂在榜首，点进去一看，好家伙，根本没这回事！是AI大模型DeepSeek在回答"王一博最近动态"时，硬生生编了个"代言争议+公开道歉"的戏码，被网友截图发出来，愣是传成了谣言。这事儿荒诞得像脱口秀段子：一个号称"推理能力顶尖"的AI，转头就造了个明星的谣，最后还得公司出来替它鞠躬认错。

你可能觉得这只是个例，但数据告诉你：这不是偶然，是AI圈的"新型流行病"。中文大模型测评机构SuperCLUE刚放了个大招：DeepSeek最新的推理模型R1，幻觉率高达21.02%。啥叫"幻觉率"？就是AI一本正经胡说八道的概率——每说5句话，就有1句是瞎编的。更扎心的是，推理能力越强的AI，幻觉率反而越高：推理模型平均22.95%，非推理模型才13.52%。合着AI越聪明，越爱"满嘴跑火车"？

这事儿细思极恐。我们用AI是为了效率，结果现在得先当"AI纠察队"——它说的每句话都得打个问号：这数据哪来的？这事儿真的假的？就像你请了个学霸当家教，结果发现他做题正确率还不如你蒙的，你气不气？

一、AI的"脑补"：比你对象的猜忌心还重

要搞懂AI为啥爱瞎编，得先明白它的"思考方式"。别被"大语言模型""深度学习"这些词唬住，说白了，AI的大脑就是个"超级复读机+概率计算器"。它学东西全靠"啃课本"——课本就是训练数据，从网上扒的文章、书、新闻、甚至聊天记录，堆在一起喂给它。学完了，你问它问题，它就从记忆里扒拉相关碎片，再按概率拼出一个"看起来最像人话"的答案。

但问题来了：要是"课本"缺页了呢？比如你问"2024年诺贝尔文学奖得主是谁"，结果AI的训练数据只到2023年，它没学过啊。这时候，它不会说"我不知道"，而是启动"脑补模式"——根据往年获奖者的国籍、风格、甚至名字长度，猜一个"最可能"的答案。就像你考试遇到不会的选择题，排除两个选项，剩下的蒙C，对不对另说，先把空填上再说。

更要命的是，AI有个"完美主义强迫症"。你问它开放性问题，比如"给我讲讲苏轼和辛弃疾的友情故事"，它要是只说"他俩没见过面"，显得多没水平？于是它开始添油加醋："苏轼曾在济南偶遇辛弃疾，两人对酒当歌，辛弃疾还送了他一把剑"——细节越丰富，越像真的，实际上全是瞎编。这就像你朋友吹牛"我昨天跟马斯克吃饭"，为了让你信，连"马斯克喜欢用筷子吃牛排"这种细节都编出来了，你说气人不？

为啥推理模型更容易犯这毛病？因为推理本质上就是"从已知推未知"，需要补全逻辑链条。比如你让AI分析"为啥今年夏天这么热"，它得从温室效应、洋流、厄尔尼诺现象里找关系，中间哪个环节数据不全，它就自己"搭个桥"——哪怕这座桥是用纸糊的。就像侦探破案，线索不够，硬编个动机，最后把自己绕进去。DeepSeek R1作为推理模型，恰恰是"补桥"能力强，结果补着补着就补出了"王一博道歉"这种乌龙。

二、AI的"课本"：比你大学期末划的重点还不靠谱

AI爱瞎编，除了"爱脑补"，还因为它的"课本"本身就有问题。训练数据号称"包罗万象"，其实就是个"互联网垃圾回收站"——里面有真新闻，也有营销号的谣言；有学术论文，也有贴吧的胡侃；甚至还有互相矛盾的信息，比如同一件事，这个网站说"吃辣致癌"，那个网站说"吃辣长寿"。

你想想，要是你从小看的课本里，一半是真理，一半是瞎话，考试还得考这些内容，你能不精神分裂？AI就是这么个"受害者"。它学的时候分不清对错，只能记"出现频率"——哪个说法在数据里出现次数多，它就觉得哪个更"正确"。比如你问"香菜到底好不好吃"，要是训练数据里80%的人说"好吃"，AI就会告诉你"香菜是国民美食"，但它不知道那80%的数据来自四川美食论坛，而东北人可能觉得"香菜是异端"。

更坑的是"数据时效性"。AI的"课本"往往是"过时的"，比如2025年的模型，训练数据可能只到2023年。你问它"2024年世界杯冠军是谁"，它只能从2023年之前的比赛数据里猜，猜对了是运气，猜错了是必然。就像你拿2010年的地图找现在的地铁站，不迷路才怪。

所以说，AI的"幻觉"根本不是它"坏"，是它"笨"——它没有人类的"常识判断"能力。人类看到"太阳从西边升起"，会立刻知道是假的，因为我们见过无数次太阳东升西落；但AI看到这句话，只会觉得"太阳""升起""西边"这几个词搭配过，就可能把它当成正确答案。它就像个刚学会说话的小孩，大人说啥它学啥，你教它说"1+1=3"，它也会一本正经地告诉你"1+1=3"，还觉得自己说的特别对。

三、DeepSeek的困境：聪明反被聪明误，用户用脚投票

DeepSeek这事儿，说白了就是"聪明反被聪明误"。它的推理模型R1，本来是想主打"逻辑强、会分析"，结果推理能力上去了，幻觉率也跟着飙升到21%。对比一下，豆包大模型才4.11%，连DeepSeek自己家的V3模型都只有13.83%。这就像一个学霸，数学考140分，但语文作文跑题扣30分，总分还不如中等生。

用户可不傻，谁受得了花钱买个"爱造谣的AI"？第三方数据显示，DeepSeek的月均下载量和使用率，跟年初比跌了一大截。以前可能图它推理快，现在用着用着发现："这答案看着头头是道，一查全是瞎编的"，换你你也卸载。就像点外卖，一家店号称"米其林大厨掌勺"，结果送来的菜里有头发，你下次还会点吗？

后来DeepSeek也急了，5月底赶紧升级模型，说"幻觉率降低45%-50%"，还特意强调"改写润色、总结摘要场景更靠谱"。但这话听着耳熟不？像不像减肥产品广告："月瘦20斤，无效退款"——关键是"怎么定义瘦"？AI的"幻觉率降低"又怎么算？是少编了一半谣言，还是编的谣言更像真的了？用户哪分得清。

这其实暴露了AI圈的一个怪现象：大家都在卷"参数规模""推理速度""多模态能力"，却很少把"说真话"当成核心指标。就像手机厂商比摄像头像素、充电速度，却不管信号好不好——信号差的手机，像素再高有啥用？AI也一样，推理能力再强，说的都是瞎话，用户凭啥用你？

四、阶跃AI的"求生欲"：把"裁判权"还给用户，靠谱吗？

就在DeepSeek焦头烂额的时候，另一家公司阶跃AI整了个新活——推出"深入核查"功能，号称"不输出事实，输出证据"。简单说，AI回答问题时，不光给答案，还把引用来源、原始网页、发布时间全列出来，让你自己判断真假。比如你问"喝胶原蛋白能美容吗"，它不会直接说"能"或"不能"，而是甩给你三篇论文：《XX期刊：胶原蛋白无法被皮肤吸收》《XX机构：口服胶原蛋白安慰剂效应研究》《某品牌广告：喝了就能变年轻》，让你自己对比着看。

这思路挺有意思，相当于AI从"老师"变成了"图书管理员"——以前是它给你划重点，现在是它把书架上的书都指给你，告诉你"答案可能在这几本里，你自己翻"。阶跃AI说自己整合了2000多个优质信源，1000多万篇文献，试运行一周就冲进海外AI榜单前十，看来用户还挺吃这一套。

但这招真能解决幻觉问题吗？我觉得悬。首先，"优质信源"谁说了算？阶跃AI选的2000个信源，万一里面混进几个"伪科学网站"呢？就像图书管理员推荐的书里，夹了本《水知道答案》，读者照样可能被带偏。其次，普通用户有能力"核查证据"吗？给你三篇医学论文，大部分人别说看懂，连标题里的专业术语都认不全，最后还不是"哪个信源字数多信哪个"？

不过话说回来，这至少是个进步。以前AI是"我说啥你信啥"，现在是"我说啥你看着办"，把"裁判权"还给用户。这就像网购，以前商家只说"我家东西天下第一好"，现在强制展示"用户评价+质检报告"，虽然不能保证百分百靠谱，但至少减少了"被骗"的概率。

五、人类自己，不也天天"幻觉"吗？

聊到这儿，突然发现个有意思的事儿：我们天天吐槽AI"一本正经胡说八道"，但人类自己，不也这样吗？

你想想，小区大妈看到邻居买了个新包，转头就跟人说"她家肯定中彩票了"——这是不是"脑补细节"？同事开会时说"老板今天没笑，肯定对我有意见"——这是不是"根据概率猜答案"？连专家都逃不过：经济学家预测"明年房价必涨"，结果跌了；营养师说"吃鸡蛋升高胆固醇"，后来又说"每天一个鸡蛋没事"。人类的"幻觉率"，可能比AI还高，只不过我们管这叫"直觉""经验""预测"，包装得好听点而已。

深度学习之父辛顿最近在WAIC大会上说了句大实话："人们理解语言的方式，和大语言模型几乎一样，人类有可能就是大语言模型。"这话听着玄乎，其实挺有道理。人类的大脑，本质上也是个"概率计算器"——我们根据过去的经验（相当于AI的训练数据），对没见过的事情做判断（相当于AI的推理），出错是常有的事。AI的"幻觉"，可能不是技术缺陷，而是"智能"的必然产物——越想理解复杂的世界，越容易用"脑补"填补信息空白。

OpenAI的对手Anthropic创始人更直接："大模型产生幻觉的频率，可能比人类还低。"你仔细想想，AI编的谣言，至少能溯源——查一下信源就知道真假；但人类的谣言呢？大妈的八卦、同事的猜测、专家的"权威观点"，往往连源头都找不到，却传得比AI谣言还快。这么看，AI反而是"诚实的骗子"——它瞎编的时候，至少不会故意骗你，只是能力不够；而人类的"幻觉"，有时候带着私心和恶意。

六、未来：别指望AI变"老实"，学会"人机互校"才是王道

说了这么多，不是让你从此不用AI，而是要搞明白：AI永远不会100%靠谱，就像人类永远不会100%理性。与其盼着技术突破"彻底消除幻觉"，不如学会和"爱瞎编的AI"共处——这才是未来的生存技能。

对普通人来说，至少要做到"三不"：不盲目信AI的结论，尤其是涉及事实、数据、新闻的内容；不把AI当唯一信息源，重要决策多查几个信源；不懒于自己验证，看到"震撼性消息"先问一句："有证据吗？来源在哪？"就像过马路要看红绿灯，不是不信红绿灯，是怕它突然坏了。

对AI公司来说，少吹"推理第一""参数第一"的牛，多把"说真话"当核心KPI。阶跃AI的"输出证据"思路就挺好，但还不够——能不能再进一步？比如给每个答案标个"可信度分"，像天气预报那样："明天晴天（可信度90%）""后天暴雨（可信度50%）"；或者开发"反幻觉插件"，自动帮用户核查AI答案里的事实性错误，就像word的"拼写检查"一样。

说到底，AI是工具，不是神。它的"聪明"能帮我们省时间，但它的"笨"需要我们来补。未来最靠谱的模式，可能是"人机互校"：AI负责快速处理信息、给出初步结论，人类负责核查细节、判断真假。就像工厂里的流水线，机器负责组装，工人负责质检，缺一不可。

最后想说：AI幻觉率21%不可怕，可怕的是我们把AI当成"绝对正确的真理来源"。记住，真正的智能，从来不是"从不犯错"，而是"知道自己会犯错，还能想办法纠错"。AI做不到这一点，但人类能。所以下次AI再一本正经地胡说八道时，别生气，笑着回它一句："小子，编得挺像，但我查过了——你又瞎说了吧？"这可能就是未来人与AI最有趣的相处方式：你编你的，我辨我的，在互相"打脸"中，一起把世界看得更清楚。