GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?

,

,,

GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。

2️⃣ GPT-5 得分 118,线下测试得分 70

这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。

🤷♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。

不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。

想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。

但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。

\x26lt

特别声明:[GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

虎娘日报:部分皮肤设计概念图曝出 WBG现场为Xiaohu庆生(虎娘们头像)

昨日,WBG与TES的对决,Xiaohu再次展现出了惊人的状态,最后的POM也直接给到了他,而昨日正好也是Xiaohu的生日,不知道是不是这个的关系,让他爆发出如此状态。接着便让Faker评价起了队伍如今的…

虎娘日报:部分皮肤设计概念图曝出 WBG现场为Xiaohu庆生(虎娘们头像)

2026年·6G专题之语义通信:太空算力遗珠,6G卫星新范式(二零二一年六月二十六日)

在这一背景下,一种被称为“语义通信”的新兴技术正从实验室走向产业应用,被视为突破6G卫星『互联网』瓶颈的关键拐点。与传统通信专注于无损传输比特流不同,它借助人工智能技术,在发送端提取信息的核心语义特征,大幅压缩冗…

2026年·6G专题之语义通信:太空算力遗珠,6G卫星新范式(二零二一年六月二十六日)

第一次和男朋友约会的姑娘,真虚伪!网友:吃排骨不吐骨头,服了

在星座的世界里,每个星座都有其独特的性格特点和行为模式。有网友表示:“处女座♍️女生在第一次约会时的表现,就像是吃排骨不吐骨头一样,让人难以捉摸。” 总的来说,处女座♍️女生在第一次约会时的表现,既有其积极的一面…

第一次和男朋友约会的姑娘,真虚伪!网友:吃排骨不吐骨头,服了

万事如意接福纳财!2026姓氏签名头像55张,换新迎好运(万事如意迎春接福哪个是上联)

大家好,我是明煊。 每天更新创意壁纸头像,喜欢的记得关注哦。 “只因未经彻骨寒,春梅不及蜡梅香。”临近年关,总会有凌寒的蜡梅悄然放送着幽幽暗香。开在最深的冬天,却能给人以美好的希望,让我们相信不远处,便是春…

万事如意接福纳财!2026姓氏签名头像55张,换新迎好运(万事如意迎春接福哪个是上联)

哥伦比亚采购鹰狮单价高达2.2亿美元💵,审计却称合法透明(哥伦比亚lod竞标)

近日,哥伦比亚政府发布了官方公告,声明17架鹰狮EF战斗机的采购价格和竞标过程不仅完全合法,而且透明公开。福布斯新闻网指出,鹰狮作为一款经济型战斗机,其采购价通常低于一亿美元💵,远低于包括阵风、台风、F-15…

哥伦比亚采购鹰狮单价高达2.2亿美元💵,审计却称合法透明(哥伦比亚lod竞标)