GPT-5 智商测试 57 分垫底再次引爆全网，这是降智还是降本？(智商测试国际标准60题) #科技 #智商 #门萨 #全网 #逻辑推理 #得分

GPT-5 智商测试 57 分垫底再次引爆全网，这是降智还是降本？

GPT-5 上线以来的表现引发了巨大争议，被指降智下滑，GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖，在知名的挪威门萨智商测试中， GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85，在离线测试中得分 57，直接垫底。

2️⃣ GPT-5 得分 118，线下测试得分 70

这个并不是门萨官方给 AI 做的测试，而是有人把挪威门萨向公众免费公开的 35 道图形推理题（test.mensa.no）直接拿去给大模型做，然后按人类常模换算出一个「IQ 分数」。

🤷♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力，帮助我们了解 AI 在这些方面的发展水平，还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分，高于其他顶尖 AI 模型，显示出其在复杂逻辑和视觉难题上的出色能力。

不过，依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」，也不代表 AI 具备与人类相同的抽象智能。

想比较模型，统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」，应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准，而非人类 IQ 测试。

但结果最近的反馈来看，GPT-5 的确出现了不小的问题，至少对比官方公布的各种霸榜的参数，在实际体验上有着明显的差距。

\x26lt

GPT-5 智商测试 57 分垫底再次引爆全网，这是降智还是降本？(智商测试国际标准60题)