GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?

,

,,

GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。

2️⃣ GPT-5 得分 118,线下测试得分 70

这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。

🤷♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。

不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。

想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。

但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。

\x26lt

特别声明:[GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

格力电器前三季营收利润双降 业绩承压明显(格力电器三季度业绩预告)

格力电器发布了2025年第三季度报告。报告显示,公司在第三季度的营收为398.55亿元,同比下降了15.09%;净利润为70.49亿元,同比下降了9.92%

格力电器前三季营收利润双降 业绩承压明显(格力电器三季度业绩预告)

张艺凡明媚感炸了!从软萌到冷艳,6年沉淀太治愈(张艺凡首秀歌曲)

在如今许多『明星』️都活在精修图里的时代,连一个笑容都要精心设计,张艺凡偏偏不拘束——她在综艺节目中和朋友们肆意玩闹,素颜也敢直面镜头,连那句“晚风接住松弛的我”都带着真诚的气息。并非说软萌不好,而是张艺凡让我们看…

张艺凡明媚感炸了!从软萌到冷艳,6年沉淀太治愈(张艺凡首秀歌曲)

小小配件,撑起无限可能(小小部件)

店铺内的产品配件看似微不足道,却对顾客购物体验和商家运营至关重要。它们不仅提升了商品完整性和实用性,更是品牌传递价值的重要媒介。本文将深入探讨这些配件背后的故事,揭示其在商业生态系统中的独特角色。 配件何以诞生?满足需求的贴心助手 当我们走

小小配件,撑起无限可能(小小部件)

鼻塞会闻不到味道吗(鼻塞闻不到味道正常吗)

鼻塞可能会导致闻不到味道,这是因为鼻腔通气受阻影响了嗅觉功能。鼻腔是嗅觉感受器所在的部位,当鼻腔通气不畅时,空气中的气味分子难以到达嗅觉感受器,从而导致嗅觉功能暂时下降或丧失。鼻塞常见原因包括感冒、『过敏性鼻炎』和鼻窦炎等

鼻塞会闻不到味道吗(鼻塞闻不到味道正常吗)

Triogen M臭氧设备:洁净气源与高压电晕的完美结合(臭氧仪器的操作流程)

Triogen M臭氧发生器以其卓越的工业级氧化能力,正在重新定义纯净水处理的新标准,为水处理行业提供了一种高效、可靠且环保的解决方案。Triogen M臭氧发生器以其工业级氧化能力、智能控制系统以及环保节…

Triogen M臭氧设备:洁净气源与高压电晕的完美结合(臭氧仪器的操作流程)