苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3『DeepSeek』高难度全崩溃 #科技 #神话 #『DeepSeek』 #模型 #高难度 #跳棋

梦晨西风发自凹非寺

量子位 | 公众号 QbitAI

苹果最新大模型论文，在AI圈炸开了锅。

有人总结到：苹果刚刚当了一回马库斯，否定了所有大模型的推理能力。

今日霍州(www.jrhz.info)©️

这篇论文称推理模型全都没在真正思考，无论『DeepSeek』、o3-mini还是Claude 3.7都只是另一种形式的 “模式匹配”，所谓思考只是一种假象。

再遇到真正高复杂度的任务时所有模型都会崩溃，即使给他们足够的时间和计算资源也无济于事。

作者中包括谷歌大脑创始人之一 Samy Bengio（图灵奖得主Yoshua Bengio的弟弟）。

今日霍州(www.jrhz.info)©️

有网友讽刺纵使苹果拥有最多的资金，2年了也没有拿出像样的成果，现在自己落后了，却来否定别人的成果。

今日霍州(www.jrhz.info)©️

还有人建议苹果要不直接买下Claude背后的公司Anthropic算了，每拖一天都在变贵。

不过也有人指出，这篇论文没有看上去那么消极，而是呼吁设立更好的推理机制和评估办法。

今日霍州(www.jrhz.info)©️

那么，这篇论文究竟说了什么？

推理模型真的在“思考”吗？

苹果团队认为现有评估主要集中在既定的数学和编码基准上，看模型最终答案是否正确，但可能存在数据污染（模型训练时见过类似题目）。并且，这些评估大都缺乏对“思考过程质量”的分析，比如中间步骤是否逻辑一致、是否绕弯路等。

为了克服这些限制，更客观测试推理模型的推理能力，他们设计了4类谜题环境。

巧妙之处在于，四类谜题的难度可以精确控制，同时保持逻辑结构的一致性，研究者能够系统观察模型在不同复杂度下的行为变化，比如生成的每一步移动是否正确、是否重复试错。

4类谜题环境分别是：

汉诺塔（Tower of Hanoi）

汉诺塔是一个包含三根柱子和n个不同大小圆盘的谜题，圆盘按大小顺序（最大的在底部）堆叠在第一根柱子上。目标是将所有圆盘从第一根柱子移到第三根柱子。有效移动包括每次只能移动一个圆盘，只能从柱子顶部取圆盘，并且永远不能将较大的圆盘放在较小的圆盘上。

此任务的难度可以通过初始圆盘的数量来控制，n个初始圆盘所需的最少移动次数为2n-1

跳棋交换（Checker Jumping）

玩法是将红色跳棋、蓝色跳棋和一个空格排成一行。目标是交换所有红色和蓝色跳棋的位置，也就是将初始配置镜像反转。

有效移动包括将跳棋移动到相邻的空格中，或跳过恰好一个相反颜色的跳棋落到空格中。过程中，任何跳棋都不能向后移动。

此任务的复杂度可以通过跳棋的数量来控制，对于2n个跳棋，所需的最少移动次数为（n+1）2-1。

今日霍州(www.jrhz.info)©️

过河问题（River Crossing）

该谜题涉及n个角色及其对应的n个代理，他们必须使用一艘船过河。目标是将所有2n个人从左岸运到右岸。船最多可载k个人，且不能空驶。

每个代理必须保护自己的客户免受竞争代理的伤害，当一个角色在没有自己代理在场的情况下与另一个代理在一起时，就会出现无效情况。

此任务的复杂度也可以通过调整角色/代理对的数量来控制。对于n=2、n=3对，使用k=2的船容量；对于更多对，使用k=3的船容量。

积木世界（Blocks World）

该谜题要求将积木从初始配置重新排列为指定的目标配置，目标是找出完成这一转换所需的最少移动次数。

其有效移动规则为：仅能移动任意堆叠中的最顶层积木，且可将其放置于空堆叠之上或另一块积木的顶部。任务复杂度可通过积木数量进行调控。

今日霍州(www.jrhz.info)©️

团队在这些可控环境中进行了大量实验，对比“会思考”和“不思考”的模型组合，主要针对Claude-3.7-Sonnet模型（带思考机制 vs 不带思考机制）和『DeepSeek』模型（R1 vs V3），这些模型允许访问thinking tokens。

而后团队惊奇发现，随着复杂度增加，模型表现呈现出三个截然不同的区间。

今日霍州(www.jrhz.info)©️

在低复杂度任务中，那些没有“思考”功能的标准语言模型实际上表现得更好，它们不仅更准确，而且更加高效，不会浪费计算资源在不必要的思考上。

这一发现直接挑战了“更多思考总是更好”的直觉假设。

随着任务难度进入中等水平，能够生成长思维链的推理模型开始显现优势，额外的思考过程确实能够帮助模型找到更好的解决方案。

然而，当问题复杂度继续增加并超过某个临界点时，无论是推理模型还是标准模型都会经历完全的性能崩溃，准确率直线下降至零。

以下是在低、中、高复杂度的谜题环境中，思考模型与非思考模型在同等计算预算下的pass@k性能表现：

今日霍州(www.jrhz.info)©️

更令人困惑的是，苹果团队观察到“推理努力反向缩放”现象。

他们测试了5个会“思考”的推理模型，包括o3-mini (medium、high两种配置)、『DeepSeek』-R1、『DeepSeek』-R1-Qwen-32B,、Claude-3.7-Sonnet (thinking)。

所有模型在任务复杂度提升后呈现出相似的模式：随着问题复杂度的增加，准确率逐渐下降，直到超过特定于模型的复杂度阈值后完全崩溃，准确率为零。

关键在于，一开始，模型会随着问题变难而加大思考量，使用更多token，但接近崩溃临界阈值时，模型却反直觉地开始“主动减少思考”，即使它们的token预算还远未耗尽。

也就是说，问题并非出在计算资源的限制上，而是模型本身存在某种内在的计算扩展限制。

这种现象在o3-mini变体中最为明显，在Claude-3.7-Sonnet (thinking)表现稍好一些。

今日霍州(www.jrhz.info)©️

为了深入理解这种现象，团队又针对Claude-3.7-Sonnet (thinking)详细分析了模型的内部推理轨迹。

他们发现，在处理简单问题时，推理模型经常会在早期就找到正确的解决方案，但随后却继续探索各种错误的替代方案，“过度思考”浪费计算资源。

今日霍州(www.jrhz.info)©️

随着问题复杂度适度增加，这一趋势发生逆转，模型首先探索错误的解决方案，正确解决方案大多出现在思维的后期。

最后，对于更高复杂度的问题，会出现崩溃现象，即模型无法在思维中生成任何正确的解决方案。

除此之外，团队还发了一个模型的迷惑行为。

如下图（a）和（b）所示，团队在提示中向模型提供了完整的解决算法，理论上模型只需要按部就班地执行这些步骤即可。

然而，实验结果显示，模型的失败点几乎没有改变，它们仍然无法突破任务复杂性限制，性能没有提升，且观察到的崩溃仍发生在大致相同的临界点。

今日霍州(www.jrhz.info)©️

团队认为这一点非常值得注意，因为寻找和设计解决方案本应比单纯执行给定算法需要更多的计算。这进一步凸显了推理模型在验证和遵循逻辑步骤解决问题方面的局限性，表明需要进一步研究以理解此类模型的符号操作能力。

而（c）和（d）又揭示，Claude 3.7 Sonnet在不同谜题中的表现差异很大。

在汉诺塔问题里，模型给出的解决方案中第一次出错的步骤很晚才出现，在N=10的复杂度下，错误通常出现在第 100步左右。然鹅，在过河问题中，模型只能在第4步之前给出有效移动步骤。

在解决需要31步完成、N=5复杂度的汉诺塔问题时，模型达到了近乎完美的准确率，但在解决仅需11步就能完成的N=3的过河谜题时却失败了。

团队认为这很可能表明，网络上N>2的过河问题实例较少，推理模型在训练过程中可能不常遇到或记住此类情况。

最后，团队提出仅用最终答案评估推理能力存在误导性，还需关注中间步骤的质量（如逻辑一致性、步骤效率）。

并建议未来如何设计更鲁棒的推理机制，突破长程依赖和复杂规划的瓶颈，是当前AI研究的关键方向。

苹果在大模型落后了吗？

暂时放下学术上的争议，苹果在大模型上的进展确实不尽人意。

刚好一年前，Apple Intelligence在2024年WWDC正式亮相，但宣传中的许多功能都经历延期、不够完善甚至被下架：

个性化生成表情包的Genmojis功能，实装后发现会导致iPhone过热并耗尽电池寿命。
新闻摘要功能在生成一系列假新闻标题后被关闭。
最重磅的新版Siri甚至无法赶上即将举办的2025 WWDC

就在今年3月份，苹果撤下了所有涉及新版Siri的电视广告与网络广告。

高级总监 Robby Walker对员工表示，他不确定这些升级何时真正发布，因为升级有三分之一的时间无法正常运行，部分原因是其他功能的优先级更高。

这些功能还没有完全准备好向公众发布，尽管我们的竞争对手可能已经以这种状态甚至更糟的状态发布了它们。

根据彭博社5月份的一篇爆料文章，苹果在AI上的连续失败可能受如下因素影响：

苹果软件工程主管 Craig Federighi在ChatGPT之前一直不愿在人工智能领域进行大规模投资，导致苹果内部致力于AI的员工，以及购买的算力资源都明显少于竞争对手。

等到他发现AI大模型的潜力，其他科技巨头已经在上面组建团队并投入好几年了。

另一位资深高管认为：在AI领域，直到开发完成，团队都无法知道产品会是什么样子，这不是苹果的思维方式。当苹果坐下来开发产品时，就已经知道最终目标是什么了

除了历史原因之外，苹果AI负责人 John Giannandrea也被曝难融入苹果核心管理层圈子，他没有为团队争取到所需的资源，个人性格上也比较佛系，不会严格督促员工交付工作成果。

最后，对苹果来说，动作慢一点不代表彻底失败。历史上他们经常等一个新技术出现了再打磨发布自己精心设计、易用性强的版本。

MP3播放器、『智能手机』、平板电脑、手表和耳机都是如此。

论文地址：

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

参考链接：

[2]https://www.bloomberg.com/news/features/2025-05-18/how-apple-intelligence-and-siri-ai-went-so-wrong

— 完—

???? 量子位AI主题策划正在征集中！欢迎参与专题365行AI落地方案，一千零一个AI应用，或与我们分享你在寻找的AI产品，或发现的AI新动向。

???? 也欢迎你加入量子位每日AI交流群，一起来畅聊AI吧～

苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3『DeepSeek』高难度全崩溃

猜你喜欢

目前知名的红木罗汉床源头厂家哪个好(国内知名红木品牌)

41 码大脚“御姐”，微胸细腿的身材太有记忆点了

多模态时代，AI调度官如何精准响应指挥官的指挥？(多模态是谁提出的)

陆风X5X7X8、猎豹CS10和风行F600的原厂气门室盖垫和摇臂垫该怎么选？2026购车保养必备指南(陆风x5p0727)

百度智能建站软件实测，那些隐藏的高级功能真好用(百度智能建站适合优化吗)

苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3『DeepSeek』高难度全崩溃

猜你喜欢

目前知名的红木罗汉床源头厂家哪个好(国内知名红木品牌)

41 码大脚“御姐”，微胸细腿的身材太有记忆点了

多模态时代，AI调度官如何精准响应指挥官的指挥？(多模态是谁提出的)

陆风X5X7X8、猎豹CS10和风行F600的原厂气门室盖垫和摇臂垫该怎么选？2026购车保养必备指南(陆风x5p0727)

百度智能建站软件实测，那些隐藏的高级功能真好用(百度智能建站适合优化吗)

分享

添加书签