马斯克尴尬了，20万显卡堆的Grok3，1天就被Deepseek打败了？ #科技 #注意力 #『DeepSeek』 #硬件 #Grok #模型

前两天，马斯克旗下的AI公司xAI，发布了其最新的AI大模型，也就是Grok3，以发布会上，马斯克称其是全球最聪明的AI。

而从各种测试对比来看，Grok3，也确实很厉害，比OpenAI、Deepseek的得分更高。

而Grok3，马斯克是主打一个大力出奇迹，那就是堆了20万张H100显卡，堪称是全球算力最强的大模型。

今日霍州(www.jrhz.info)©️

马斯克的Grok3推出，似乎也证明了，规模定律（Scaling Law）仍然有效，堆算力依然是AI大模型的必由之路。

不过，让马斯克尴尬的事出现了，堆了20万显卡的Grok3，仅1天，Deepseek就又搞出新东西了，那就是NSA。

『DeepSeek』在『社交平台』X上发布了一篇关于NSA的纯技术论文报告。

今日霍州(www.jrhz.info)©️

按照Deepseek的说法，NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制，实现超高速长上下文训练与推理。

NSA和『DeepSeek』的一惯风格相似，那就是低成本高效，通过对现代硬件的优化设计，NSA可以降低预训练的成本，且不牺牲性能，且NSA的表现可可媲美甚至超越全注意力模型。

也就是说，完全不需要像Grok3这样，堆20万张显卡，NSA依然可以采用低成本的方式，实现对其它AI模型的超越。

可见，目前在AI上，Deepseek主打一个四两拨千斤，而Grok、Openai们，则主打大力出奇迹，努力的堆显卡。

本来美国那边的AI公司认为，限制中国的AI卡，不让你们获得先进的AI『芯片』，那么就肯定打不过我们的AI模型，不曾想，中国的AI模型，不需要堆显卡，也能实现更强的性能，更好的体验，这就真的让美国的这些企业们懵圈了，更重要的是，这也打破了美国的所谓算力垄断，整个AI『芯片』格局，都可能重构。