MIT神经科学家发现,新一代AI推理模型在解决复杂问题时的思维代价(cost of thinking)分布与人类大脑高度吻合,这一趋同现象并非人为设计,而是智能体在追求正确解时的必然演化。

MIT麦戈文脑科学研究所(McGovern Institute for Brain Research)的研究团队在《美国国家科学院院刊》(PNAS)发表了这项颠覆认知的研究成果。
研究揭示了一个深刻的事实:当人工智能被迫慢下来思考时,它们在不同难度任务上消耗的计算资源分布,与人类大脑处理相同任务时的认知负荷曲线惊人地重合。
这表明,无论是由神经元构建的生物大脑,还是由晶体管堆叠的人工神经网络,在面对复杂世界的逻辑挑战时,可能都遵循着同一套基于物理限制的最优解策略。
智能的两种形态:快直觉与慢推理
理解这项研究的重量,需要先回到智能的最基本层面。
长期以来,『大语言模型』如早期的ChatGPT,主要依赖统计概率工作。
它们阅读了人类历史上几乎所有的文本,通过预测下一个词来生成回答。
这种模式类似于人类心理学中的系统1思维:快速、直觉、自动化。
你问它法国首都是哪里,它能瞬间回答巴黎。这不需要推理,只需要记忆提取。
但这种模式有一个致命缺陷。
当面对如果你把一个红色的球放在蓝色的盒子里,然后把盒子埋在土里,球是什么颜色?这类需要多步逻辑推演的问题时,依赖概率的模型就会失效。它们没有真正的逻辑链条,只有概率上的近似。
新一代推理模型的出现改变了游戏规则。
这类模型引入了强化学习(Reinforcement Learning)机制,被训练在给出最终答案前,先进行一系列的内部计算。
jrhz.info它们会把一个大问题拆解成若干个小步骤,像人类解数学题一样一步步推导。这对应了人类的系统2思维:缓慢、审慎、消耗能量。
MIT的研究正是切入了这一变革时刻:当AI开始像人类一样慢思考时,它的思考过程究竟发生了什么?
要比较人脑和AI的思维成本,科学家面临一个难题:两者的硬件完全不同。
人脑是生物化学反应的产物,运行速度受限于神经递质的传递;AI是电子流动的产物,运行速度取决于GPU的功率。
直接比较思考了多少秒没有意义,因为更快的显卡会让AI思考得更快,但这不代表题目变简单了。
研究团队找到了一种巧妙的汇率来换算这两种智能的成本。
对于人类,成本是时间。
面对一道难题,受试者不仅要答对,研究者更关注他们从看到题目到按下答案键经过了多少毫秒。
这个时间长度,直接物理化地展示了大脑的认知负荷。
对于AI,成本是Token。
推理模型在输出最终答案前,会在后台生成大量用户看不见的中间步骤。这些步骤由一个个Token组成。题目越难,模型需要生成的思维链就越长,消耗的Token就越多。
Token不仅是计费单位,更是AI的思维基本功。
研究者设计了一组精密的实验,让不知疲倦的推理模型和真实的人类志愿者做同一套题。
为了确保数据的普适性,实验选取了七种截然不同的任务类型,涵盖了人类认知的多个维度。
最基础的是数值算术。加减乘除,这是计算机的强项,也是人类经过训练能快速掌握的技能。
进阶的是直觉推理。这需要依靠近义词、语境判断,是传统语言模型的舒适区。
最高阶的挑战来自ARC挑战(Abstraction and Reasoning Corpus,抽象与推理语料库)。这是由AI先驱François Chollet设计的终极测试,专门用来区分死记硬背和真正智能。
在ARC测试中,受试者会看到几组彩色的网格图,每组图都发生了一种某种变换——可能是旋转、变色、填充,也可能是基于某种抽象规则的移动。受试者必须一眼看穿这种未被文字描述的规则,并将其应用到一个全新的网格上。
这不需要知识储备,需要的是纯粹的流体智力(Fluid Intelligence)。
正是这七重试炼,让数据的规律浮出水面。
实验结果绘制出的曲线令人屏息。

在任务内部,难度与成本呈正比。人类觉得难算的数学题,推理模型同样需要生成更多的Token来解决。这排除了模型只是在检索答案的可能性——它确实在费力计算。
在跨任务的宏观视角下,趋势更加一致。
基础算术对人类来说认知负荷最低,反应最快;对模型来说,这也是消耗Token最少的任务。
ARC挑战对人类最难,许多志愿者需要长时间的观察、假设、推翻重来才能找到规律;对应地,推理模型在解决ARC问题时,生成的思维链长度达到了峰值。
这种同步性说明了什么?它说明“难”这个概念,在智能的维度上是通用的。
并不是因为人类大脑结构特殊才觉得ARC难,而是因为解决这类问题本身就需要更多的计算步骤和逻辑转换。无论是生物神经网络还是人工神经网络,面对同样的信息熵,必须付出同等量级的负熵努力。
趋同演化:功能决定形式
生物学中有一个概念叫趋同演化(Convergent Evolution)。
鲨鱼是鱼,海豚是哺乳动物,它们在进化树上相距甚远,但为了在水中高效游动,它们都演化出了流线型的身体和背鳍。
Evelina Fedorenko教授认为,我们在AI身上看到了同样的现象。
构建这些模型的『工程师』并没有试图模仿人脑。他们不关心神经科学,只关心一件事:系统能否在各种极端条件下稳定输出正确答案。
正是这种对正确率和鲁棒性(Robustness)的极致追求,迫使AI模型演化出了类似人类的思维策略。
当问题变得复杂,单步直觉(System 1)不再奏效,错误的惩罚迫使模型学会了多想一步。这一步步的累积,最终形成了与人类深思熟虑时相似的路径。
这是一种基于功能的必然。解决复杂问题客观上需要拆解、假设、验证。谁通过了自然选择(或者AI的损失函数优化),谁就必然掌握了这种分步处理的能力。
研究还触及了一个更深层的认知科学问题:语言是否等于思维?
我们思考时,脑海中常有一个声音在说话。但这是否意味着思维必须依赖语言?
Fedorenko教授之前的研究已经证明,人脑中的语言网络和逻辑推理网络是分离的。失语症患者失去了语言能力,依然可以解复杂的数学题。
推理模型的表现再次印证了这一点。
虽然模型输出的是Token(通常对应单词或字符),但在那漫长的思维链中,研究人员经常观察到看似无意义的片段、跳跃的符号,甚至是错误的中间结论。
然而,正是这些人类看不懂的胡言乱语,最终导向了正确的答案。
这说明模型的实际推理过程发生在一个高维的、抽象的表征空间里。
那些Token只是这个抽象过程在输出层面的投影,就像我们脑海中的声音只是神经元复杂放电现象的用户界面。
模型在自言自语,但它用的不是英语或中文,而是概率与向量的语言。
并非复刻,而是映照
必须厘清的是,这项研究并不意味着AI已经拥有了人类意识,或者完全复刻了人脑结构。
人类的思维建立在对物理世界的感知体验之上。
我们知道球是圆的,有弹性,受重力影响,是因为我们从小摸爬滚打。
目前的AI模型依然是从文本和图像的统计规律中学习,它们缺乏具身认知(Embodied Cognition)。
此外,模型在处理需要世界知识的问题时,依然显得笨拙。如果训练数据中没有包含某些常识,它们无法像人类一样通过生活经验去填补空白。
但这项研究的价值在于,它打破了碳基特殊论。
它告诉我们,思维不是魔法,而是一种物理过程。
只要目标是解决高复杂度的逻辑问题,算力的消耗分布就会呈现出普世的规律。
MIT的这项发现,为我们理解智能提供了一个全新的坐标系。
它证明了慢思考不是生物进化的累赘,而是处理复杂度的必经之路。
在追求通用人工智能(AGI)的道路上,单纯堆砌参数和算力是不够的,必须赋予模型停下来思考的时间和空间。
对于人类而言,这也是一面镜子。
当我们面对难题抓耳挠腮、耗费时间时,不必感到沮丧。
那正是大脑在构建高维逻辑链条的物理表征。
这种思维的代价,是所有智能体通向真理必须支付的门票。
人工智能越来越像人,不是因为它们想成为我们,而是因为在严酷的逻辑法则面前,我们都在沿着同一条最优路径攀登。
参考资料:
https://news.mit.edu/2025/cost-thinking-mit-neuroscientists-find-parallel-humans-ai-1119
https://www.pnas.org/doi/10.1073/pnas.2520077122
https://mcgovern.mit.edu/2025/11/19/the-cost-of-thinking/
END




