在马斯克和奥特曼比谁喊的响的时候,『DeepSeek』低调发论文,梁文锋亲自参与

在马斯克和奥特曼比谁喊的响的时候,『DeepSeek』低调发论文,梁文锋亲自参与

『DeepSeek』最新公布的原生稀疏注意力(Native Sparse Attention, NSA)机制不仅将『大语言模型』处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现性能反超传统全注意力模型。如果后续『DeepSeek』将NSA整合到模型训练中,其基座模型的能力有望实现显著提升。

当马斯克高调推出基于20万块GPU集群的Grok-3、Sam Altman在开源策略上反复权衡之际,『DeepSeek』悄然发布了一项可能改变游戏规则的技术。

18日,『DeepSeek』 CEO公布了一项由梁文锋亲自参与的研究论文成果——原生稀疏注意力(Native Sparse Attention, NSA)机制。这是『DeepSeek』团队在稀疏注意力领域的创新性工作,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。

『DeepSeek』论文显示,NSA不仅将『大语言模型』处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现性能反超传统全注意力模型。在全球AI竞赛转向“硬核创新”的当口,这家低调的中国公司展示了技术破局的新范式。

值得注意的是,NSA尚未应用于『DeepSeek』 V3的训练中。这意味着,如果后续『DeepSeek』将NSA整合到模型训练中,其基座模型的能力有望实现显著提升。论文中明确指出:“使用NSA预训练的模型超过了全注意力模型”。

与『DeepSeek』形成鲜明对比的是,xAI选择了另一条道路:对工程规模的极致追求。今日马斯克发布的Grok3使用了20万块GPU集群,而未来的Grok4更是计划使用百万块GPU、1.2GW的集群。这种“财大气粗”的做法,体现了北美在AI领域一贯的“大力出奇迹”风格。

稀疏注意力:『DeepSeek』 NSA的创新之道

“AI革命”狂飙突进,长文本建模在AI领域的重要性日益凸显。OpenAI的o-series模型、『DeepSeek』-R1以及Google Gemini 1.5 Pro等,都展示了处理超长文本的强大潜力。

然而,传统Attention机制的计算复杂度随序列长度呈平方级增长,成为制约『大语言模型』(LLM)发展的关键瓶颈。

稀疏注意力机制被认为是解决这一难题的希望所在。『DeepSeek』今日提出的NSA机制,正对去年5月MLA(Multi-Layer Attention)工作的补充。NSA的核心在于将算法创新与硬件优化相结合,实现了高效的长文本建模。

科技媒体AI寒武纪表示,NSA的三大关键创新包括:

  • 动态分层稀疏策略:结合粗粒度Token压缩和细粒度Token选择,兼顾全局上下文感知和局部信息精确性。
  • 算术强度平衡的设计:针对现代硬件进行优化,显著提升计算速度。
  • 端到端可训练:支持端到端训练,减少预训练计算量,同时保持模型性能。

NSA的核心组件:三位一体,逐层优化

科技自媒体zartbot分析,NSA架构采用了分层Token建模,通过三个并行的注意力分支处理输入序列:

  1. 压缩注意力(Compressed Attention): 通过压缩Token块来捕获全局信息,处理粗粒度的模式。
  2. 选择注意力(Selected Attention): 处理重要的Token块,选择性地保留细粒度的信息。
  3. 滑动窗口注意力(Sliding Window Attention): 处理局部上下文信息。

这三个分支的输出通过一个门控机制进行聚合。为了最大化效率,NSA还专门设计了硬件优化的Kernel。

具体而言,NSA在Token Compression部分,基于block粒度进行压缩计算,并插入位置信息编码。在Token Selection部分,则巧妙地借用Compression的注意力分数作为block的重要性分数,进行top-N选择,以保留关键的细粒度信息。Sliding Window部分则负责处理局部上下文。最后,通过Gating函数综合三种注意力的输出。

实验结果:性能与效率的双重飞跃

根据『DeepSeek』发布的实验数据,NSA技术在多个方面展现出卓越表现。

在通用基准测试、长文本任务和指令推理方面,使用NSA预训练的模型性能不仅没有下降,反而超越了Full Attention模型。更重要的是,在处理64k长度的序列时,NSA在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达11.6倍,证明了NSA在模型生命周期各个阶段的效率优势。

AI寒武纪表示:

“『DeepSeek』 的 NSA 技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的 Full Attention 模型,更在效率方面实现了显著的提升,尤其是在长序列场景下。NSA 的 硬件友好设计 和 训推一体化特性,使其在实际应用中更具优势,有望加速下一代 LLM 在长文本处理领域的应用落地。”

科技媒体信息平权表示,NSA论文中隐藏了一个“彩蛋”:

“『DeepSeek』此次使用了Triton,而没有提及『英伟达』专用库和框架。Triton底层可以调用CUDA,也可以调用其他计算平台的框架,如AMD的ROCM,甚至国产计算卡。结合NSA降低了浮点算力和内存占用门槛的特性,这或许暗示了『DeepSeek』在模型研发阶段,就已经开始考虑未来适配更多类型计算卡,为更广泛、更普遍的开源做准备。”

xAI的Grok3:算力堆砌的“极致”

与『DeepSeek』形成鲜明对比的是,xAI选择了另一条道路:对工程规模的极致追求。Grok3使用了20万块GPU集群,而未来的Grok4更是计划使用百万块GPU、1.2GW的集群。这种“财大气粗”的做法,体现了北美在AI领域一贯的“大力出奇迹”风格。

然而,信息平权的分析指出,尽管xAI通过超大集群在短时间内实现了对之前SOTA(State-of-the-Art)模型的反超,但其投入产出比并不理想。相比『DeepSeek』 V3,xAI以50倍的成本实现了30%的性能提升。这表明,单纯在预训练阶段投入巨额算力,其收益可能并不如预期,将资源投入到RL(强化学习)后训练阶段可能更为划算。

特别声明:[在马斯克和奥特曼比谁喊的响的时候,『DeepSeek』低调发论文,梁文锋亲自参与] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

该怎么选超声炮VS热玛吉?别太纠结了超声炮和热玛吉效果的区别(该怎么选超声炮面膜)

在追求肌肤紧致年轻的道路上,超声炮与热玛吉是爱美人士的热门抗衰选择,而修复因子《热超太》(细胞能量蛋白),则是这两种治疗的得力助手,从修复、效果到防护全方位助力。 从表皮屏障的即时防护,到弹性纤维的深度修复…

该怎么选超声炮VS热玛吉?别太纠结了超声炮和热玛吉效果的区别(该怎么选超声炮面膜)

微软将键盘调节选项迁移至Win11设置应用(微软将键盘调节声音)

来源: 【微软将控制面板的键盘调节选项迁移到 Win11 设置应用中】微软正不断将传统控制面板的功能迁移到 『Windows』 11 的设置应用中,最新改变是增加了一个新的键盘设置部分。…

微软将键盘调节选项迁移至Win11设置应用(微软将键盘调节声音)

利用视觉技术实现手套🧤佩戴的自动识别与监管(视觉现象及其运用)

识别原理:系统通过高清摄像头实时采集操作场景图像,利用深度学习算法对图像进行预处理,包括降噪、增强对比度等,以提升后续分析的准确性。该系统采用轻量化模型设计,兼顾实时性与准确性,可在低算力设备上高效运行;通…

利用视觉技术实现手套🧤佩戴的自动识别与监管(视觉现象及其运用)

佛山杀青 | 2025山海计划李景宇导演短片《公鸡囡》(佛山屠杀)

在筹备和拍摄过程中,李景宇遇到不少难题,但也收获了许多温暖和成长。美术指导兼造型指导董思廷曾在《一个新的情绪》等影片担任美术指导,她成长于佛山,长大的地方离本次的拍摄地仅几公里远,对当地习俗文化的深刻理解,…

佛山杀青 | 2025山海计划李景宇导演短片《<strong>公鸡囡</strong>》(佛山屠杀)

RC-36门磁开关03L嵌入式有线铁门磁报警器怎么用?真实体验分享(门磁开关内部结构)

RC-36门磁开关03L是一款专为家庭、商铺等场景设计的嵌入式有线铁门磁报警器,通过磁力感应实现门窗开闭状态监测。本文详解其工作原理、安装方式、适用场景与选购要点,帮助用户判断是否值得入手。不玩虚的,只讲真实使用感受与避坑指南,让你在家安全

RC-36门磁开关03L嵌入式有线铁门磁报警器怎么用?真实体验分享(门磁开关内部结构)