AI界最新共识:语言,不是模型的母语,数学空间才是!它该闭嘴了

AI界最新共识:语言,不是模型的母语,数学空间才是!它该闭嘴了

大模型也许不该说话了。这是AI界一个正在成型的新共识:语言,正成为阻碍推理能力释放的瓶颈。

传统的大语言模型,从GPT到Claude,从Bard到Deepseek,都是靠“说话”来推理的。问它一个数学题,它会列出“思考过程”;让它分析伦理难题,它也会“条理清晰”地给你一个逻辑铺陈。但这些文字,其实是代价高昂的赘余表达。

语言不是模型的母语,数学空间才是。模型“脑中”的信息,永远以向量存在。这个空间叫做latent space,潜空间。无论是GPT还是Gemini,它们的所有计算过程都是向量到向量的变换。每一个词,都是被转换成数值后才能“被理解”。

但模型不能一直待在这个空间。它必须定期“翻译”成一个个词语——也就是我们看到的回答过程。这一步不只是信息损失严重,而且计算成本极高,尤其是面对复杂推理任务,转换频率越高,效率越低。

现在,有人打破这个常规。

去年,Meta实习生Shibo Hao搞了一个新模型,叫Coconut。这个模型的核心创新在于:它拒绝频繁从潜空间跳出来说话。

传统模型的“思考”是一串词,Coconut直接把“思考”锁定在数学空间里,一直不说话,直到最后才输出结果。它绕开了“文字思维”,保留了更丰富的内部信息,更像是人类的直觉式推理。

效果很惊人。在逻辑推理测试中,它和GPT-2版本一样精准(98.8%),但只用了十分之一的词。在多选任务中,它更少语言、更高准确率。关键是:同样的底座模型,Coconut不换架构、不加参数,仅仅绕开语言,就做得更好。

更极端的是另一组人。

马里兰大学的Tom Goldstein团队,干脆连固定层数都不要了。他们做了一个循环结构,让模型自己决定思考几次。模型可以在潜空间中反复循环,不断迭代,直到认为“我想明白了”,才出来说话。

更离谱的是,模型自己学会了“简单问题快出结果,复杂问题多想几轮”。没有人教它怎么判断,它在潜空间中自己形成了“难度感知”。

特别声明:[AI界最新共识:语言,不是模型的母语,数学空间才是!它该闭嘴了] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

乌称袭击俄关键军工企业 瞄准密码与通信设施(乌称袭击俄关键军工企业)

8月2日,乌克兰国家安全与国防委员会反虚假信息中心主任安德烈·科瓦连科在官方社交平台表示,当天凌晨俄罗斯位于奔萨市的军工企业再次遭到袭击,目标包括无线电工厂和电子仪器厂

乌称袭击俄关键军工企业 瞄准密码与通信设施(乌称袭击俄关键军工企业)

itch 一周游戏汇:7月21日-7月27日(上)(itch游戏推荐)

游戏简介:找回磁带,用它们逆转重力,移动平台并开辟新的路径,在有限的时间下挑战关卡。 游戏简介:你只剩下 15秒存活时间:过去的自己会以幻影的形式继续存在,重复他们之前所做的事情。 游戏简介:用弹球击碎砖…

itch 一周游戏汇:7月21日-7月27日(上)(itch游戏推荐)

瓜!《异时间》即将上线,剧集质量丰盈却遇困境,部分网友急得刷屏求解(异时空百科)

大家期待已久的《异时间》即将开播,本以为可以第一时间跟上剧集,结果有网友在剧丰收平台上却发现根本无法观看,这个消息顿时在网上掀起了一阵争论。如今,许多人都在耐心蹲守消息,一些网友戏谑道:“就算晚点开播,只要能…

瓜!《异时间》即将上线,剧集质量丰盈却遇困境,部分网友急得刷屏求解(异时空百科)

《向往的生活8》重启,何炅黄磊再启乌镇,张艺兴缺席引热议!

上周,《向往的生活》节目组发布了全新的海报,黄磊、何炅、彭昱畅和张子枫并肩而立,画面静默却宣告着节目的回归——在停播了823天后,节目终于在浙江乌镇重启。与此同时,离开节目的成员们各自有了新的发展:彭昱畅从曾…

《向往的生活8》重启,何炅黄磊再启乌镇,张艺兴缺席引热议!

白玉兰风波一月后,37岁刘亦菲再传喜讯,让等了7年的娱乐圈沉默(白玉兰片段)

这一举动在当时显得尤为独特,毕竟大部分明星往往难以抵抗娱乐圈带来的光环与曝光度,但刘亦菲却选择了与喧嚣远离,进入了一个全新的领域。 这十多年的沉寂期,虽然让许多明星在时间的洪流中被遗忘,但刘亦菲用她的例外故…

白玉兰风波一月后,37岁刘亦菲再传喜讯,让等了7年的娱乐圈沉默(白玉兰片段)