深度求索披露下一代国产芯片!FP8精度模型训练突破,国产AI算力崛起
一场由算法模型驱动的芯片革命正在中国悄然发生,DeepSeek最新发布的V3.1模型不仅展示了卓越性能,更揭开了国产AI算力生态的战略布局。
2025年8月21日,深度求索(DeepSeek)推出新一代大模型DeepSeek V3.1,首次采用专为国产芯片设计的UE8M0 FP8低精度计算标准。这一技术突破不仅使模型在多项基准测试中超越国际同类产品,更将国产AI芯片的算力效率提升2-3倍,内存占用降低50%-75%。
资本市场迅速反应,消息发布后寒武纪、海光信息等国产芯片企业股价单日涨幅达20%。这标志中国AI产业正从“软硬件协同”迈向“生态自主化”的新阶段。
01 模型突破:DeepSeek V3.1的技术跨越
DeepSeek V3.1采用了创新的混合推理架构,将模型划分为“思考模式”(deepseek-reasoner)与“非思考模式”(deepseek-chat),以适配不同复杂度的推理任务。
该系统支持128K长上下文处理,显著提升了对长文档、多轮对话和复杂指令的理解与生成能力。
在权威测试中,V3.1表现出色:在Aider编程基准测试中取得71.6%的成绩,超越Claude Opus4;在SVGBench测试中位列第二,仅次于GPT-4.1-mini;MMLU多任务语言理解测试得分达88.5%,与GPT-5持平。
该版本通过对思维链(Chain-of-Thought, CoT)机制进行压缩优化,在输出token数量减少20%–50%的情况下,仍保持了与上一代模型相当的语义完整性与任务完成度。
02 FP8革命:低精度计算的战略价值
FP8(8位浮点数)格式正成为AI计算的关键技术,因其能够在几乎不损失模型性能的前提下,实现吞吐量翻倍和显存占用减半。
与目前广泛使用的FP16相比,FP8将内存占用直接减少50%,显著降低了内存带宽压力,使相同硬件条件下能处理更大规模的模型或更高批次的数据。
DeepSeek在V3.1中提出的UE8M0 FP8并非NVIDIA官方标准,而是一种针对国产硬件环境优化的变体格式。该格式采用无符号设计与8位指数位宽,大幅偏向数值表达范围,更适合大规模和高并发计算场景。
UE8M0 FP8 Scale的“U”代表无符号(Unsigned),“E8”代表指数位占8位,“M0”代表尾数位为0位。这种设计通过对数据分块缩放,将数值保持在FP8能精确表示的范围内,进一步压缩计算和存储开销。
03 国产芯片:生态协同与技术突破
DeepSeek此次技术披露点燃了国产算力芯片市场的热情。UE8M0 FP8标准已获得多家国内芯片企业积极响应,寒武纪MLU370-S4、思元590/690系列等已实现对FP8计算的原生或兼容性支持。
沐曦于2025年正式发布曦云C600芯片,宣称原生支持FP8精度,并采用多精度混合算力架构。燧原科技推出训推一体芯片L600,最大特点是同时支持训练与推理任务,与DeepSeek V3.1的低精度策略高度契合。
摩尔线程旗舰AI训推产品MTT S5000采用的MUSA架构原生支持硬件FP8张量加速计算,能够很好地支持UE8M0 FP8 Scale。相对于传统FP16计算,它能实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升。
华为昇腾也宣布计划于2025年第四季度实现原生FP8支持。昇腾910B搭载FP8运行DeepSeek模型时,单卡推理延迟低至48毫秒,功耗比超越英伟达A100。
04 软硬协同:算法-芯片协同创新模式
DeepSeek采用的“模型即芯片”策略,本质上借鉴了谷歌TPU的成功经验。这种协同创新模式使算法设计和硬件优化能够同步进行,实现1+1>2的效果。
摩尔线程技术专家指出:“DeepSeek针对下一代国产芯片引入参数精度,能够充分发挥出已量产的国产芯片架构特性,通过国产大模型和国产芯片协同设计优化,实现1+1>2”。
这种协同效应在实际应用中表现显著。华为昇腾系列NPU针对FP8设计的专用指令集,使其在典型ResNet模型上的吞吐量提升40%,同时单位算力的能耗降低至原来的1/3。
软件生态也在快速完善。赤兔Chitu开源引擎实现国产芯片原生支持FP8,在A800集群上部署671B参数模型时,GPU用量减少50%而速度提升3.15倍,彻底打破海外硬件垄断。
05 商业化前景:成本优势与市场应用
DeepSeek延续了极具竞争力的定价策略。其API输入价格低至0.5元/百万tokens(缓存命中),输出价格为12元/百万tokens。
以典型编程任务为例,单次调用成本约为1.01美元💵,仅为同类闭源系统的约1/60。这种成本优势使得国产AI解决方案在国际市场上具备显著竞争力。
在应用层面,FP8技术已在多个行业落地。理想汽车通过FP8混合精度将ThorU芯片算力提升至1000TOPS。苏宁易购宣布旗下“灵思”大模型基于寒武纪算力平台完成关键技术升级,实现推理效率平均提升30%、训练成本下降70%。
国产算力正从“可用”向“好用、划算”转变。随着FP8技术的普及,更多企业能够以更低门槛获取优质算力,推动AI技术在医疗、教育、工业等领域的规模化落地。
06 战略意义:自主生态与国际竞争
FP8是相对较新的标准,国内外技术差距小于在CUDA生态上的差距,是中国AI产业难得的机遇窗口。
UE8M0 FP8的推广有效推动了国产AI算力生态的标准化进程。通过统一低精度计算格式,不同硬件平台之间的算力利用率得到提升,减少了对英伟达、AMD等国际厂商的依赖。
当前,尽管IEEE P754等国际标准组织仍在积极推进FP8的规范化进程,但产业应用已明显走在了标准制定的前面。百度飞桨、智谱AI为代表的AI平台已率先实现对FP8格式的默认支持。
若能在未来一年半内实现三大关键突破——包括主流框架深度集成FP8、高质量开源模型示范验证,以及国产硬件适配率突破50%——中国完全有能力主导一场以FP8为共识的生态变革。
国产AI芯片与主流大模型深度适配不断推进,国内算力生态正在实现从“单点突破”到“系统优化”的关键转变。
随着大模型参数规模指数级增长,从BERT的3.4亿参数到GPT-3的1750亿,再到如今超万亿参数的模型,每两年参数规模增长约240倍。但GPU显存的增长相对缓慢——2016年P100仅12GB,2023年H200也才141GB,7年只翻了10倍。
这种“参数疯涨、显存龟速”的反差,使得FP8等低精度计算技术成为突破“内存墙”困境的关键。DeepSeek此次技术路线的价值,在于证明了算法-硬件协同创新可能比单纯追逐制程进步更具可行性。
随着政策推动、技术迭代,国产算力将进入全场景攻坚阶段,为人工智能和数字经济发展迈向新高度提供坚实基座。