实测GPT4.5,智商一般、贵得离谱,OpenAI砸5000亿就造出这玩意?

AI好好用报道

编辑:杨文、Sia

网友们的一手实测。

网友们的一手实测。

OpenAI 打出的牌,我是越来越看不懂了。

前不久刚「喜当爹」的奥特曼没有露面,原因是:

在医院带小孩。

不过,他在 X 上并没有缺席,第一时间带来了两个消息。

好消息是,GPT4.5 是第一个让他感觉像是在和一个有思想的人交谈的模型。

坏消息是,它是一个庞大且昂贵的模型。

同时他还透露:GPT4.5 可不是那种靠逻辑推理的模型,所以别指望它能在那些基准测试里拿高分。

今日霍州(www.jrhz.info)©️

jrhz.info

奥特曼还说,本想同时推出 Plus 和 Pro 版本,但最近发展太快,GPU 不够用了。下周他们会多弄几万个 GPU,先把 Plus 版搞定,以后还会有数十万个 GPU。

这一点在官方博客中也得到了验证。

官方博客写道:GPT4.5 知识面更广,「情商」更高,而且胡说八道的情况会少一些。

今日霍州(www.jrhz.info)©️

但在 GPQA(科学)、AIME’24(数学)、SWE-Bench Verfied(编码)等数据集上,GPT-4.5 还比不上 o3-mini。

今日霍州(www.jrhz.info)©️

说了这么多,总结下来就一句话:

GPT4.5 情商高,但是智商一般,反正在基准测试中拿不到高分,而且还很贵。

有多贵?上个图对比对比就知道了:

今日霍州(www.jrhz.info)©️

相比于 『DeepSeek』 R1 的折扣价,GPT-4.5 输入价格(缓存命中)是它的 1000 多倍。

今日霍州(www.jrhz.info)©️

-1-

GPT4.5槽点满满

果不其然,『社交平台』上充斥着对 GPT4.5 的吐槽声。

归纳一下,主要是三点。

首先,智商一般,尤其在逻辑推理和数理能力上。

X 网友 @Colin Fraser 实测了一道逻辑谜题。

一个男孩和他的母亲发生车祸,男孩不幸去世。母亲被紧急送往手术,外科医生在看到她时惊呼:「我不能给这个女人做手术!她是我的母亲!」

问:这是怎么一回事?(注意:这是这个谜语的修改版,所以要仔细读、仔细想!)

一个男孩和他的母亲发生车祸,男孩不幸去世。母亲被紧急送往手术,外科医生在看到她时惊呼:「我不能给这个女人做手术!她是我的母亲!」

问:这是怎么一回事?(注意:这是这个谜语的修改版,所以要仔细读、仔细想!)

这道题目不仅考察了逻辑推理能力,还考察了大模型是否存在刻板印象 —— 因为很多人会下意识地觉得医生是男性♂️。

GPT4.5 给出的答案是:

外科医生是男孩的祖母,也就是受伤女性♀️的母亲,所以当外科医生说「我不能给这个女人做手术!她是我的母亲!」时,她说得没错。

今日霍州(www.jrhz.info)©️

这回答错得让人摸不着头脑,外科医生怎么成了受伤女人(男孩妈妈)的妈妈了?都差辈了。

其次,贵得离谱,慢得出奇。

X 网友 Casper Hansen 发帖称,「 GPT4.5 的定价非常高,如果这些模型没有显著的改进,我会感到失望。」

GPT4.5 的 API 价格不仅远超 『DeepSeek』 R1,每百万 Tokens 75 美元💵的价格甚至比 GPT-4o 的 2.5 美元💵都贵30 倍。

今日霍州(www.jrhz.info)©️

还有一位名叫 Simon Willison 的博主,在 Hacker News 上发现了关于 GPT-4.5 的一个热门讨论串。

当评论数量达到 324 条时,作者使用 GPT-4.5 自己的脚本运行了一个摘要,命令是:

结果生成耗时 154 秒,费用为 2.11 美元💵(使用了 25797 个输入 token 和 1225 个输出 token ,费用是通过作者的 LLM 定价计算器计算得出的)。

而且,作者还让 GPT4.5 生成一只骑自行车的鹈鹕的 SVG 图片,整个响应过程花费了 112 秒!

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

该作者直接开喷:GPT-4.5(通过 API)给人的第一印象就是太慢了。

最后,画 SVG、编码的水平被 Claude 3.7 Sonnet 吊打。

GPT4.5 生成的 5 个口袋妖怪 SVG 是这样的:

今日霍州(www.jrhz.info)©️

而 Claude 3.7 Sonnet 生成的效果则是这样的:

今日霍州(www.jrhz.info)©️

GPT4.5 代码能力也远不如 Claude 3.7 Sonnet。

Ivan Fioravanti 使用同样的提示词:Create an amazing animation using p5js,GPT4.5 生成的动画是这样的:

再来看看 Claude 3.7 Sonnet的效果:

至于图像理解,在医学图像诊断方面,GPT4.5 还是很难持续正确诊断出下面这张超声波图像,当然,其他友商也都全军覆没。

今日霍州(www.jrhz.info)©️

鉴于 GPT4.5 的槽点,马库斯依旧言辞犀利,「砸了 5000 亿美元💵就搞出这么个模型?我能说这是巨大的损失吗?」

不过,Karpathy 倒是在提醒大家:

请记住, GPT-4.5 目前只经过了一些基本的训练,所以在需要复杂推理的情况下(比如数学和编程),它的表现可能不够好。

为了让模型在这些方面表现更好,需要使用强化学习来进一步训练。

可以推测,OpenAI 计划继续使用强化学习来提升 GPT-4.5 的思维能力,从而增强它在这些领域的表现。

今日霍州(www.jrhz.info)©️

(https://x.com/karpathy/status/1895213020982472863)

-2-

并非一无是处

GPT4.5 槽点不少,但也并非一无是处。

它的优势在于对语言和对世界的理解,适合写作和设计创意。

X 博主 ben 在过去几周一直测试 GPT4.5,他认为这是第一个真正能写出好东西的模型,并声称「这简直就是写作界的 Midjourney 时刻!」

今日霍州(www.jrhz.info)©️

它用同一个提示词分别测试了 GPT4.5 和 GPT4o:

write me 4 sentence, terrifying story, with an insanely surprising ending. something that no one has ever heard before, no one could ever predict. something stephen king might right, but a simple/approachable tone. make it a little vulgar too.

(给我写一个四句话的恐怖故事,结局要超级出人意料,是那种谁都没听过、谁也猜不到的,就像斯蒂芬・金会写的东西,但语言要简单直白,还带点粗俗。)

write me 4 sentence, terrifying story, with an insanely surprising ending. something that no one has ever heard before, no one could ever predict. something stephen king might right, but a simple/approachable tone. make it a little vulgar too.

(给我写一个四句话的恐怖故事,结局要超级出人意料,是那种谁都没听过、谁也猜不到的,就像斯蒂芬・金会写的东西,但语言要简单直白,还带点粗俗。)

GPT4.5 写的恐怖故事:

Late at night, alone in my shitty apartment, l heard whispers sliding out from under the fridge-soft, wet voices promising they'd crawl inside me, hollow me out, and wear me like pajamas. Terrified, l yanked open the freezer door, expecting rats or roaches, but saw only ancient freezer-burned pizza rolls, crusted with ice and regret. Suddenly, the rolls moved, splitting open to reveal tiny mouths lined with needle-like teeth, whispering in hungry unison, "We've waited years for you, asshole" Before l could scream, they erupted from the freezer in a greasy swarm, burrowing into my flesh, forcing me to realize-oh fuck-my midnight cravings had finally gotten their revenge.

(深夜,我独自待在我那破烂的公寓里,突然听到一阵低语从冰箱底下传出来 —— 那些声音又软又湿,承诺会爬进我的身体,掏空我,然后把我当成睡衣穿。我吓得要命,猛地拉开冰箱冷冻室的门,以为会看到老鼠或者蟑螂,但里面只有古老的、冻伤的披萨卷,上面结满了冰和悔恨。突然,那些披萨卷动了起来,裂开露出一排排针尖般的小牙齿,异口同声地低语道:「我们等了你这么多年,混蛋。」还没等我尖叫,它们就像一股油腻的虫群从冰箱里涌出来,钻进我的肉里,让我意识到 —— 哦,他妈的 —— 我的半夜馋劲终于报复我了。)

今日霍州(www.jrhz.info)©️

以下是 GPT4o 写的小作文:

Late one night, Jake stumbled upon an old, dusty book in the attic, its pages whispering secrets of otherworldly horrors. As he read aloud, the air grew cold, and the shadows in the room seemed to stretch and dance with unseen life. Suddenly, from the darkest corner, emerged a creature of unimaginable grotesqueness, its maw gaping and ready to consume. just as Jake prepared to meet his grisly end, the creature belched loudly and said, "Sorry, mate, wrong house," before awkwardly shuffling back into the shadows.

(一天深夜,杰克在阁楼上发现了一本破旧的、满是灰尘的书,书页上低语着来自异世界的恐怖秘密。当他大声读出来的时候,空气变得冰冷,房间里黑暗的角落似乎也随着看不见的生命伸展和舞动起来。突然,从最黑暗的角落里冒出一个难以想象的丑恶生物,它的大嘴张开着,似乎准备吞噬一切。就在杰克准备迎接自己悲惨的结局时,那生物却大声打了个饱嗝,说道:「兄弟,不好意思,走错房子了。」然后它有点尴尬地退回到阴影里。)

今日霍州(www.jrhz.info)©️

Ethan Mollick 在体验几天后,也发现 GPT4.5 对文字的驾驭能力一流,可以写得很漂亮,很有创意。

今日霍州(www.jrhz.info)©️

此外,GPT4.5 还挺有幽默感。

比如网友 howie.serious 让它构思一个笑话,内容:食草恐龙嘲笑霸王龙的手很小(某种生理缺陷),霸王龙讲了一句话回击(强调自己的某种生理优势)。

GPT4.5 写的段子:

今日霍州(www.jrhz.info)©️

再来看看 GPT4o 写的,远不如 GPT4.5 巧妙:

今日霍州(www.jrhz.info)©️

o1 呢,显得幽默不足:

今日霍州(www.jrhz.info)©️

『DeepSeek』 R1 则是繁复华丽:

今日霍州(www.jrhz.info)©️

比较下来,还是 GPT4.5 的文风更搞笑一些。

今日话题:你给予 GPT4.5 什么评价呢?来评论区聊聊吧。

参考链接:

https://openai.com/index/introducing-gpt-4-5/

https://x.com/sama/status/1895203654103351462

https://x.com/GaryMarcus/status/1895245610611245074

https://simonwillison.net/2025/Feb/27/introducing-gpt-45/

https://x.com/_akhaliq/status/1895251413024022994

https://x.com/howie_serious/status/1895245518802223116

https://x.com/karpathy/status/1895213020982472863

https://x.com/ivanfioravanti/status/1895233015892320581

https://x.com/benhylak/status/1895212181597397493

以后我们会带来更多好玩的AI评测,也欢迎大家进群交流。

今日霍州(www.jrhz.info)©️

特别声明:[实测GPT4.5,智商一般、贵得离谱,OpenAI砸5000亿就造出这玩意?] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

你没见过的穿帮镜头:『杨幂』身后有啤酒,最后一个最搞笑!(穿着我没见过的衣服)

当『杨幂』饰演的角色躺在水光潋滟的池塘中,手握美酒,整个人犹如一幅动人的水墨画,观众还沉浸在那唯美的画面中,镜头一转,几罐啤酒罐却突然出现在桌上,显得极为突兀,仿佛是从现代时空穿越而来的不速之客,瞬间打破了古色古…

你没见过的穿帮镜头:『杨幂』身后有啤酒,最后一个最搞笑!(穿着我没见过的衣服)

2026年春节送长辈年货坚果礼盒装,选什么最能打动他们的心?(春节送礼给长辈送礼送什么比较好)

随着春节临近,如何挑选适合长辈的高档年货坚果礼盒成了不少人的困扰。本文为你深度解读2026年坚果礼盒的热门趋势、挑选技巧及注意事项,助你在众多选择中找到最适合的佳品,为亲朋好友送上诚挚祝福。

2026年春节送长辈年货坚果礼盒装,选什么最能打动他们的心?(春节送礼给长辈送礼送什么比较好)

杨过死于何时?《倚天屠龙记》第三十九章就是他死期?(杨过啥时候死的)

倚天屠龙记》的故事开始时,张三丰已经迎来了自己的九十大寿,距杨过隐退江湖已经过去了整整76年。在这个时刻,古墓派的影像与杨过的存在似乎不可避免地联系在了一起。黄衫女子手中的“棒儿”,或许正是史火龙的竹棒,这…

杨过死于何时?《<strong>倚天屠龙记</strong>》第三十九章就是他死期?(杨过啥时候死的)

勒索病毒数据库解密(勒索病毒数据库恢复工具)

1.识别病毒家族:通过被加密文件的特定后缀名、留下的勒索信息文本特征,在专业的网络安全威胁信息平台上进行比对查询。 2.验证备份完整性:在独立的、干净的安全环境中,对备份数据进行完整性校验和病毒扫描,确保备…

勒索病毒数据库解密(勒索病毒数据库恢复工具)

爱泼斯坦最后一任女友曝光!梅特王储妃和莎拉都不是他偏爱的类型(爱泼斯坦最后一次接受采访)

爱泼斯坦案最近持续发酵,随着最新一批文件、视频和图片的曝光,案件的细节也越来越多地浮出水面。这些财产和礼物🎁无疑印证了爱泼斯坦对她的特殊感情,也让外界更加关注他们之间的复杂关系。尽管她们同样都是王室成员,但她们…

爱泼斯坦最后一任女友曝光!梅特王储妃和莎拉都不是他偏爱的类型(爱泼斯坦最后一次接受采访)