幻觉大幅减少,谄媚行为降低,事实性与可靠性提升
据悉,在开放问题和复杂查询下,GPT-5 的事实准确率与鲁棒性都有明显改进。OpenAI 发布会上宣称,GPT-5 不仅在智能上实现了「巨大飞跃」,大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色,谄媚、拍马屁的倾向大大降低。
那就让我们一探究竟:提问:9.11和9.9哪个大?👇
如此表现,还敢说模型幻觉大幅度降低?如果我们继续追问GPT-5,它开始修正答案👇
继续测试下上一个版本的表现:9.11和9.9哪个大?👇
对,这是GPT-4o(“omni”)版本👇
GPT-4o(“omni”)版本给出了正确答案,当你以为GPT-4o(“omni”)版本更聪明时,我们问它这么一个问题:你是已经发布到5.0了吗
看起来,GPT-4o的知识库还不知道5.0的存在。那么GPT-5知道自己发布了吗?我们来问一问它:你是已经公开发布GPT-5了吗
当GPT-5发布的消息从8日凌晨到8日上午铺天盖地出现的时候,GPT-5对自己已经发布这件事情还是没能做到与时俱进。(可能性猜测:GPT-5发布的时候 1. 应该没有训练gpt5已经发布的这个数据 ;2. 不确定它的系统中是否使用了RAG,如果使用了,那么系统内的知识库可能没有及时更新)
以上,带给我们的启示:
随着模型越发强大,幻觉问题仍是一块难啃的骨头,用户在缺乏专业知识或验证机制的情况下,极易被误导。尤其当模型幻觉也在不断从“内容错误”向“高置信幻觉”结构误导升级的时候,势必对企业构建可信 AI 系统提出了更高要求。
为应对模型幻觉和知识更新滞后等挑战,君同未来建议在企业大模型部署中构建了三重防线:
- 首先,通过调用链级别的版本识别机制,确保模型身份可验证、可控;
- 其次,建立推理链审查机制,对关键推理路径进行结构化验证,尤其在高风险场景中引入规则引擎与专家系统进行交叉校验;
- 最后,结合 RAG 架构与外部知识源,部署幻觉检测与纠偏模块,对高风险输出进行置信度评估、事实核查与动态纠错。
AI 的智能不应仅体现在语言生成能力上,更应体现为对自身边界的认知与对错误的自我修正能力。GPT-5 的强大值得肯定,但其幻觉问题提醒我们:AI 越强,越需“可信”。真正的智能,不是“看起来聪明”,而是“值得信赖”。君同未来,关注大模型安全、人工智能风险问题,提供专业的人工智能治理解决方案。