GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)

GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?

,

,,

GPT-5 上线以来的表现引发了巨大争议,被指降智下滑,GPT-4o 也强烈呼声下回归。

今天一个测试结果再次把 GPT-5 推上风口浪尖,在知名的挪威门萨智商测试中, GPT-5 创下了模型中最差的记录

1️⃣ GPT-5 Thinking 在测试中得分 85,在离线测试中得分 57,直接垫底。

2️⃣ GPT-5 得分 118,线下测试得分 70

这个并不是门萨官方给 AI 做的测试,而是有人把挪威门萨向公众免费公开的 35 道图形推理题(test.mensa.no)直接拿去给大模型做,然后按人类常模换算出一个「IQ 分数」。

🤷♂️ 这个测试可一定程度衡量 AI 的逻辑推理、抽象思维与问题解决能力,帮助我们了解 AI 在这些方面的发展水平,还能标准化对比不同 AI 模型的智能水平。

如 OpenAI 的 o1 模型在测试中取得超 120 分,高于其他顶尖 AI 模型,显示出其在复杂逻辑和视觉难题上的出色能力。

不过,依据智商测试分数并不能准确判断 AI 的综合智能水平。既不能直接类比成人格化的「比人类聪明」,也不代表 AI 具备与人类相同的抽象智能。

想比较模型,统一用同一套离线、未泄露的图形推理题+同样 prompting 才有意义。

真要评估 AI 的「通用推理」,应使用 ARC、GPQA、MATH 这类专门为机器设计、且不断更新题库的研究基准,而非人类 IQ 测试。

但结果最近的反馈来看,GPT-5 的确出现了不小的问题,至少对比官方公布的各种霸榜的参数,在实际体验上有着明显的差距。

\x26lt

特别声明:[GPT-5 智商测试 57 分垫底再次引爆全网,这是降智还是降本?(智商测试国际标准60题)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

刘欢女婿遭吐槽颜值曝光长相普通气质儒雅(刘欢女婿遭吐槽颜值)

刘欢老师和他老婆,看起来对这个女婿挺满意的,他们那个层次的人,可能看的就不是脸了吧,也许家庭背景更重要,或者说,事业上要有点成绩,长辈嘛,肯定希望女儿过得好,各方面都要考虑,所以说,颜值可能只是一部分。 他…

刘欢女婿遭吐槽颜值曝光长相普通气质儒雅(刘欢女婿遭吐槽颜值)

被亲妈卷走1亿,遭全网封杀:『张韶涵』的43岁是一场完美的“反杀”(被亲妈卷走1亿的小说)

?? 2007年,母亲被曝出轨『张韶涵』的同门师弟。面对媒体,她第一时间站出来保护妈妈,“这所有都是因为我是『张韶涵』,让妈妈很难有正常的社交活动。”从12岁起,作为家中长女,她就去打工养家,刷盘子、洗车、酒吧驻唱…

被亲妈卷走1亿,遭全网封杀:『张韶涵』的43岁是一场完美的“反杀”(被亲妈卷走1亿的小说)

开卖秒售罄!价格飙涨近7倍,网友:根本抢不到(秒售什么意思)

隐藏款“美人鱼的眼泪”最高成交价为999元,溢价6.7倍,常规款中,迎合了年轻人崇尚健康小麦肤色的“恋夏一族”、自带可爱鸡蛋花发饰的“沙滩小憩”、自带冲天辫的“咕噜咕噜”三款颜值更高、更适合消费者做造型的产品…

开卖秒售罄!价格飙涨近7倍,网友:根本抢不到(秒售什么意思)

最快纪录、世界唯一!上周中国硬核科技捷报频传(世界最快速度排名)

过去一周神舟飞船再度问天南极考察队踏浪远征我国在航空航天、工程建设与前沿科技等领域捷报频传创下多个“首次”和“世界唯一”01神舟二十一号,发射成功!10月31日23时44分

最快纪录、世界唯一!上周中国硬核科技捷报频传(世界最快速度排名)

美软件巨头SAS退出中国市场 全员裁员传闻震动业界(美国软件大亨)

10月31日,『社交平台』传出消息,全球知名数据分析软件厂商SAS可能全面退出中国市场,中国区团队面临全员裁员。有传闻称“SAS中国注销,裁员,一个不留”,研发中心和SAS China现已关停

美软件巨头SAS退出中国市场 全员裁员传闻震动业界(美国软件大亨)