GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?

,

,,

GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。

2️⃣ GPT-5 得分 118,线下测试得分 70

这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。

🤷♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。

不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。

想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。

但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。

\x26lt

特别声明:[GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

金激光焊接机:珠宝电子高精度焊接之选(激光焊接机2019)

普通工业激光器(如1070nm光纤激光)对金、银的吸收率很低——常温下不足5%,大部分能量被反射,不仅焊接效率差,还可能损坏光学器件。 集成10–50倍连续变倍显微镜🔬头,操作者可清晰观察焊点位置,特别适合镶嵌…

金激光焊接机:珠宝电子高精度焊接之选(激光焊接机2019)

折叠网格展示架如何助力画展、画室、幼儿园作品展示?2025年新趋势解读(折叠式展示架)

折叠网格展示架以其灵活性、创新性和便携性成为2025年艺术展览的新宠。它适用于画展、画室、幼儿园作品展示等多种场景,能帮助艺术创作者高效展示作品。本文将从使用场景、配置选择和实际应用等方面,详细讲解如何选购和布置展示架,让作品焕发更多魅力。

折叠网格展示架如何助力画展、画室、幼儿园作品展示?2025年新趋势解读(折叠式展示架)

“如花”『李健』仁近照曝光!64岁中风后暴瘦满头银发,仍笑言想再拍戏

一张四人合照,让无数影迷瞬间破防——那个曾经在『周星驰』电影里挖着鼻孔、回头“一笑百媚生”的“如花”,如今身形消瘦、白发苍苍,却依然对着镜头灿烂微笑。 近期在与好友的茶聚中,『李健』仁清晰地表达了心声:复健的最终目…

“如花”『李健』仁近照曝光!64岁中风后暴瘦满头银发,仍笑言想再拍戏

律师适用的智能法律软件评测(智能律师事务所)

对于律师而言,适用的智能法律软件、AI 法律检索工具以及 AI 案例分析工具能极大提升工作效率和质量。其 Alpha 法律检索系统和AlphaGPT 等产品在实际应用中为律师和律所带来了实实在在的帮助。20…

律师适用的智能法律软件评测(智能律师事务所)

马筱梅直播掀衣晒孕肚!汪小菲态度反转,员工一句话泄露性别?(马筱晨吴波照片)

汪小菲在直播中的一些微妙表现以及员工的一句无心之言,也让这次怀孕宣布充满了各种意外的转折。有一些网友认为,马筱梅在直播中掀衣展示肚子过于私密,也有些细心的网友注意到,员工在背后说了句母子平安的祝福,这让大家联…

马筱梅直播掀衣晒孕肚!汪小菲态度反转,员工一句话泄露性别?(马筱晨吴波照片)