“9.11比9.9大”,Grok3还不如小学生?“最聪明的AI”翻车

今日霍州(www.jrhz.info)©️

AI大模型的数字陷阱,连Grok-3都翻车

科技旋涡作者|贾桂鹏

日前,马斯克与xAI团队,在直播中正式发布了最新版本Grok3。

此前,马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示:“自己整个周末都在和团队打磨产品。”

今日霍州(www.jrhz.info)©️

不过,据媒体报道,有人测试了最新的Beta版Grok3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的Grok3,仍然无法正确回答这个问题。

今日霍州(www.jrhz.info)©️

难道马斯克口中“地球上最聪明的AI”就给出了这种答案吗?Grok3到底行不行?

9.11和9.9哪个大这个看似很简单的问题为什么Grok3会出现错误呢?其实,大模型在处理“9.11”时,可能会将其拆分为“9”、“11”两个部分。由于小数点后的“11”大于“9”,这导致了错误地判断。

而且,在某些情况下,如日期或章节编号,9.11确实比9.9大。例如,“9月11日”比“9月9日”晚,“第9章第11节”也比“第9章第9节”晚。大模型可能在学习过程中积累了这些badcase,从而产生了错误的判断。

还有,在分析大模型的底层注意力机制时,我们发现大模型对小数点后的“11”和“9”更为关注。这可能是导致错误的原因之一。然而,当我们排除这些明显的可能性时,问题可能出在位置编码或大模型更底层的推理逻辑上。

因此,不仅是Grok3,包括ChatGPT在内的很多大模型都在这个问题上跌了跟头。

值得一提的是,用同样的问题询问『DeepSeek』时,无论是否开启深度思考(R1)模式,对方都给出了正确的答案:9.9大于9.11。

今日霍州(www.jrhz.info)©️

而且,除了这个数字问题外,在xAI发布会直播中,在分析游戏《流放之路 2》的职业与升华效果时,Grok 3也给出了大量错误答案,并且马斯克也没有看出这些明显的错误。

尽管在官方PPT中,Grok3在大模型竞技场Chatbot Arena中看似“遥遥领先”,但实际上其与『DeepSeek』 R1和GPT4.0的差距仅为1%到2%。

不过,对此这个问题马斯克并不以为然,其公开回应称,当前的Grok 3仅是测试版,这个阶段错误越多越好,而完整版将在未来几个月推出,并邀请用户反馈使用问题。

今日霍州(www.jrhz.info)©️

另外,此外,马斯克在直播中透露,未来,最快一周后Grok应用程序将具备“语音模式”,这将为Grok模型提供合成语音。几个月后,xAI将开源上一代模型Grok 2。“我们的一般做法是,当下一个版本完全推出时,我们将开源上一个版本(Grok)。”

马斯克曾多次警告⚠️说,人工智能会给人类文明带来风险,但他仍在极力推动加大对这一领域的投资。

我们从本次发布的Grok 3里面,可以看出来,马斯克还是押注大算力AI,Grok 3无论在训练集群规模、用电量上都是首屈一指的,这也在一定程度上转化为了Grok 3在多个基准测试上的SOTA表现。不过,马斯克这次押注能不能成功,我们还要接下来继续看AI的发展。

特别声明:[“9.11比9.9大”,Grok3还不如小学生?“最聪明的AI”翻车] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

谢孟伟复出,现身河北大集,一口黄牙嗦大锅菜,还请吃糖葫芦(谢孟伟复出后首秀)

欠了2200万、账号全被封、甚至连警服都敢穿去直播的人,居然在河北易县的大集上,端着一口冒着热气的大锅菜朝我咧嘴笑。我点开报名链接,顺手填了表格,却在页面上看见剧组保证金200块,瞬间清醒——套路味儿太熟了。…

谢孟伟复出,现身河北大集,一口黄牙嗦大锅菜,还请吃糖葫芦(谢孟伟复出后首秀)

婺源拜年礼品店在哪?2026新年热门年货好去处大搜罗(婺源特色礼品)

想给亲朋好友送婺源特色的拜年礼物🎁,却不知去哪里买?本文为你详细盘点婺源热门礼品店,从地址到推荐产品一网打尽。2026新春必备,轻松搞定拜年难题。

婺源拜年礼品店在哪?2026新年热门年货好去处大搜罗(婺源特色礼品)

丁克只是权宜之计?李大双违背誓言,弃55岁妻子娶外国美女生子(丁克是一个人吗)

他在台上说,自己这些年因为没有孩子,曾经被人笑过。许多人并没有第一时间想到这个孩子,也没有关注站在李大双身边的外籍妻子,反而第一时间想到了另一个久未露面的名字——李琳。 她的社交账号停留在许多年前,最后…

丁克只是权宜之计?李大双违背誓言,弃55岁妻子娶外国美女生子(丁克是一个人吗)

离婚刚9个月的『陈晓』,细究之后才知晓,最终踏上『赵丽颖』的旧路(离婚小娃娃9个月判给谁)

刚走出婚姻阴影的她,似乎找回了自我,在与比自己小十几岁的男演员合作对手戏时,两人情感真挚,甚至吻戏都让观众沉浸其中。如今,『陈晓』的性格与『赵丽颖』有异曲同工之妙:或许他不是最称职的恋人,但在演艺道路上,他无疑是一位…

离婚刚9个月的『陈晓』,细究之后才知晓,最终踏上『赵丽颖』的旧路(离婚小娃娃9个月判给谁)

2026央视春节摇红包🧧背后藏着哪些玩法和福利?(央视 春节)

今年春节,央视摇红包🧧成为全国观众热议话题。如何参与?能拿到多少?又有哪些新玩法?本文为你详解2026央视春节摇红包🧧的玩法攻略、福利亮点及实用技巧,让你轻松玩转这一全民互动游戏。

2026央视春节摇红包🧧背后藏着哪些玩法和福利?(央视 春节)