GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?

,

,,

GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。

2️⃣ GPT-5 得分 118,线下测试得分 70

这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。

🤷♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。

不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。

想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。

但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。

\x26lt

特别声明:[GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

港府:积极招商引资 至今吸引84间科企(港府建设工程有限公司)

港府:积极招商引资 至今吸引84间科企(港府建设工程有限公司)

中方表示必须重振两国方案前景 推动和平进程(中方再出措施)

原内容中未提供具体的文章文本,仅包含一个视频代码片段。因此,无法直接进行改写。如果需要针对特定文章或内容进行改写,请提供具体的文字内容。如果有其他要求或需进一步帮助,请告知

中方表示必须重振两国方案前景 推动和平进程(中方再出措施)

疯了?“机器生娃”一年内上线,以后没有婚内强奸、婆媳不和了!

“人造机器人子宫”或许就很快会面临,可以代替我们人类,帮我们生孩子,这个机器人只要10万块钱就可以搞定,估计未来一年内会面世,这样的定价人人都可以能力拥有。 十年前你信不出门都可以买到东西,不信刷脸就可以支…

疯了?“机器生娃”一年内上线,以后没有婚内强奸、婆媳不和了!

张维伊朋友回应结账争论真相,摘出自己,却把张维伊越描越黑!(张维伊几岁)

在一档综艺节目中,张维伊因一句“你没钱”意外登上热搜,尽管朋友试图为他平息事态,却无意中重燃了争议。观众们在观看的过程中不禁产生共鸣:如果是自己的男友在结账时犹豫,内心是否也会一阵紧张? 他的朋友虽然试图维护…

张维伊朋友回应结账争论真相,摘出自己,却把张维伊越描越黑!(张维伊几岁)

拯救剧荒!7部2025必看“都市爱情剧”,哪部让你熬夜狂追过?(拯救题材电影)

2025年爆火的7部爱情剧,有甜,有虐,也有治愈和双向奔赴,总有一部戳中你,快来看看吧。 2、《难哄》主演:白敬亭,章若楠介绍:这部双向治愈的爱情小甜剧也非常好看,男女主是高中时的同学,那时候男主桑延对女主一…

拯救剧荒!7部2025必看“都市爱情剧”,哪部让你熬夜狂追过?(拯救题材电影)