苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”

苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”

6 月 8 日消息,苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文,称现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言。

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。

研究发现,尽管这些模型具备生成详细“思考链”的能力,并在中等复杂度任务上表现出优势,但其推理能力存在根本性局限:当问题复杂度超过特定临界点时,模型性能会完全崩溃至“零准确率”。

此外,在模型推理过程中,即使仍有充足的推理算力,它们用于“思考”的 token 数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。

这篇《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》由 Parshin Shojaee 等人撰写。研究表明,当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,但这往往忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。

研究人员采用了一系列可控的解谜环境,允许精确操纵组成复杂性,同时保持逻辑结构的一致性。这使得不仅可以分析最终答案,还可以探究内部推理轨迹,从而更深入地了解这些模型是如何“思考”的。

研究团队提出,模型表现可分为三个阶段:

  • 低复杂度任务:传统大模型( 注:如 Claude-3.7 无思维版本)表现更佳;
  • 中等复杂度任务:具备思维机制的大型推理模型(LRMs)更占优势;
  • 高复杂度任务:两类模型均陷入完全失效状态。

特别是,研究发现 LRMs 在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。

总的来说,这项研究不仅质疑了当前基于已建立数学基准的 LRMs 评估范式,还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境,本研究提供了对语言推理模型能力和局限性的深刻见解,并为未来的研究指明了方向。

研究人员表示,“这些发现突出了现有 LRMs 的优点和局限性,引发了关于这些系统推理本质的问题,这对它们的设计和部署具有重要意义。”

参考资料:

特别声明:[苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

无锡网站建设公司哪家好?高端网站定制公司如何选择?(无锡网站建设无锡网站推广)

拒绝模板套用,每个项目从零开始设计,根据企业需求提供个性化解决方案,高端定制网站的,打造适合企业自己的官网 售后免费维护,提供长期技术维护服务,售后及时响应,客户可轻松管理的内容管理系统,定期安全检查和功能…

无锡网站建设公司哪家好?高端网站定制公司如何选择?(无锡网站建设无锡网站推广)

实测防脱产品排行榜前十 国货卷到太能打(防脱什么样品牌比较好)

2. 另一位35岁的用户反馈,自己长期脱发严重,洗头时掉发量惊人,使用道和小红瓶4个月后,掉发量减少80%,发根明显强韧。洗后头发柔顺有光泽,适合日常防脱护理。添加了何首乌、侧柏叶等防脱成分,能减少洗发时的…

实测防脱产品排行榜前十 国货卷到太能打(防脱什么样品牌比较好)

电动闸阀典型应用场景(电动闸阀阀门结构图)

3、适配新能源项目的智能化需求(如与储能管理系统联动,实现无人值守)。 福建德特森阀门有限公司的电动闸阀的核心应用场景集中在高压大流量、强工况、高安全需求的领域,其技术发展需围绕下游行业的痛点(如腐蚀、高温…

电动闸阀典型应用场景(电动闸阀阀门结构图)

看着杨澜,刘芳菲,李湘被造谣,才明白张兰转发那句话的含金量(杨澜采访刘洋全部视频)

在释永信的丑闻曝光后,相关的丑事被彻底揭露,而出乎意料的是,竟然有三位著名女主持人被卷入其中,她们的过去与释永信的交集被网友们纷纷翻出。因为与释永信的关系,这三位女主持成为网络热议的焦点,遭到恶意揣测和调侃。…

看着杨澜,刘芳菲,李湘被造谣,才明白张兰转发那句话的含金量(杨澜采访刘洋全部视频)

六亲缘浅的朴槿惠:父母被杀,晚年和弟弟妹妹关系冷淡,独居养老(六亲缘浅的八字实例)

实际上,她与父母之间的关系早已疏远,而她与弟弟、妹妹之间的感情也并不亲密,直至如今,三人已经相隔甚远。 为了避免激化与妹妹的冲突,朴槿惠最终决定让出这一职务,但两人的关系依旧无法恢复,甚至到后来朴槿令在姐姐竞…

六亲缘浅的朴槿惠:父母被杀,晚年和弟弟妹妹关系冷淡,独居养老(六亲缘浅的八字实例)