深度求索披露下一代国产『芯片』！FP8精度模型训练突破，国产AI算力崛起(浙江深度求索工程管理咨询有限公司) #科技 #下一代 #国产 #软硬件 #『DeepSeek』 #模型

深度求索披露下一代国产『芯片』！FP8精度模型训练突破，国产AI算力崛起

一场由算法模型驱动的『芯片』革命正在中国悄然发生，『DeepSeek』最新发布的V3.1模型不仅展示了卓越性能，更揭开了国产AI算力生态的战略布局。

2025年8月21日，深度求索（『DeepSeek』）推出新一代大模型『DeepSeek』 V3.1，首次采用专为国产『芯片』设计的UE8M0 FP8低精度计算标准。这一技术突破不仅使模型在多项基准测试中超越国际同类产品，更将国产AI『芯片』的算力效率提升2-3倍，内存占用降低50%-75%。

资本市场迅速反应，消息发布后寒武纪、海光信息等国产『芯片』企业股价单日涨幅达20%。这标志中国AI产业正从“软硬件协同”迈向“生态自主化”的新阶段。

01 模型突破：『DeepSeek』 V3.1的技术跨越

『DeepSeek』 V3.1采用了创新的混合推理架构，将模型划分为“思考模式”（deepseek-reasoner）与“非思考模式”（deepseek-chat），以适配不同复杂度的推理任务。

该系统支持128K长上下文处理，显著提升了对长文档、多轮对话和复杂指令的理解与生成能力。

在权威测试中，V3.1表现出色：在Aider编程基准测试中取得71.6%的成绩，超越Claude Opus4；在SVGBench测试中位列第二，仅次于GPT-4.1-mini；MMLU多任务语言理解测试得分达88.5%，与GPT-5持平。

该版本通过对思维链（Chain-of-Thought, CoT）机制进行压缩优化，在输出token数量减少20%–50%的情况下，仍保持了与上一代模型相当的语义完整性与任务完成度。

02 FP8革命：低精度计算的战略价值

FP8（8位浮点数）格式正成为AI计算的关键技术，因其能够在几乎不损失模型性能的前提下，实现吞吐量翻倍和显存占用减半。

与目前广泛使用的FP16相比，FP8将内存占用直接减少50%，显著降低了内存带宽压力，使相同硬件条件下能处理更大规模的模型或更高批次的数据。

『DeepSeek』在V3.1中提出的UE8M0 FP8并非NVIDIA官方标准，而是一种针对国产硬件环境优化的变体格式。该格式采用无符号设计与8位指数位宽，大幅偏向数值表达范围，更适合大规模和高并发计算场景。

UE8M0 FP8 Scale的“U”代表无符号（Unsigned），“E8”代表指数位占8位，“M0”代表尾数位为0位。这种设计通过对数据分块缩放，将数值保持在FP8能精确表示的范围内，进一步压缩计算和存储开销。

03 国产『芯片』：生态协同与技术突破

『DeepSeek』此次技术披露点燃了国产算力『芯片』市场的热情。UE8M0 FP8标准已获得多家国内『芯片』企业积极响应，寒武纪MLU370-S4、思元590/690系列等已实现对FP8计算的原生或兼容性支持。

沐曦于2025年正式发布曦云C600『芯片』，宣称原生支持FP8精度，并采用多精度混合算力架构。燧原科技推出训推一体『芯片』L600，最大特点是同时支持训练与推理任务，与『DeepSeek』 V3.1的低精度策略高度契合。

摩尔线程旗舰AI训推产品MTT S5000采用的MUSA架构原生支持硬件FP8张量加速计算，能够很好地支持UE8M0 FP8 Scale。相对于传统FP16计算，它能实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升。

华为昇腾也宣布计划于2025年第四季度实现原生FP8支持。昇腾910B搭载FP8运行『DeepSeek』模型时，单卡推理延迟低至48毫秒，功耗比超越『英伟达』A100。

04 软硬协同：算法-『芯片』协同创新模式

『DeepSeek』采用的“模型即『芯片』”策略，本质上借鉴了谷歌TPU的成功经验。这种协同创新模式使算法设计和硬件优化能够同步进行，实现1+1>2的效果。

摩尔线程技术专家指出：“『DeepSeek』针对下一代国产『芯片』引入参数精度，能够充分发挥出已量产的国产『芯片』架构特性，通过国产大模型和国产『芯片』协同设计优化，实现1+1>2”。

这种协同效应在实际应用中表现显著。华为昇腾系列NPU针对FP8设计的专用指令集，使其在典型ResNet模型上的吞吐量提升40%，同时单位算力的能耗降低至原来的1/3。

软件生态也在快速完善。赤兔Chitu开源引擎实现国产『芯片』原生支持FP8，在A800集群上部署671B参数模型时，GPU用量减少50%而速度提升3.15倍，彻底打破海外硬件垄断。

05 商业化前景：成本优势与市场应用

『DeepSeek』延续了极具竞争力的定价策略。其API输入价格低至0.5元/百万tokens（缓存命中），输出价格为12元/百万tokens。

以典型编程任务为例，单次调用成本约为1.01美元💵，仅为同类闭源系统的约1/60。这种成本优势使得国产AI解决方案在国际市场上具备显著竞争力。

在应用层面，FP8技术已在多个行业落地。理想汽车通过FP8混合精度将ThorU『芯片』算力提升至1000TOPS。苏宁易购宣布旗下“灵思”大模型基于寒武纪算力平台完成关键技术升级，实现推理效率平均提升30%、训练成本下降70%。

国产算力正从“可用”向“好用、划算”转变。随着FP8技术的普及，更多企业能够以更低门槛获取优质算力，推动AI技术在医疗、教育、工业等领域的规模化落地。

06 战略意义：自主生态与国际竞争

FP8是相对较新的标准，国内外技术差距小于在CUDA生态上的差距，是中国AI产业难得的机遇窗口。

UE8M0 FP8的推广有效推动了国产AI算力生态的标准化进程。通过统一低精度计算格式，不同硬件平台之间的算力利用率得到提升，减少了对『英伟达』、AMD等国际厂商的依赖。

当前，尽管IEEE P754等国际标准组织仍在积极推进FP8的规范化进程，但产业应用已明显走在了标准制定的前面。百度飞桨、智谱AI为代表的AI平台已率先实现对FP8格式的默认支持。

若能在未来一年半内实现三大关键突破——包括主流框架深度集成FP8、高质量开源模型示范验证，以及国产硬件适配率突破50%——中国完全有能力主导一场以FP8为共识的生态变革。

国产AI『芯片』与主流大模型深度适配不断推进，国内算力生态正在实现从“单点突破”到“系统优化”的关键转变。

随着大模型参数规模指数级增长，从BERT的3.4亿参数到GPT-3的1750亿，再到如今超万亿参数的模型，每两年参数规模增长约240倍。但GPU显存的增长相对缓慢——2016年P100仅12GB，2023年H200也才141GB，7年只翻了10倍。

这种“参数疯涨、显存龟速”的反差，使得FP8等低精度计算技术成为突破“内存墙”困境的关键。『DeepSeek』此次技术路线的价值，在于证明了算法-硬件协同创新可能比单纯追逐制程进步更具可行性。

随着政策推动、技术迭代，国产算力将进入全场景攻坚阶段，为人工智能和数字经济发展迈向新高度提供坚实基座。

深度求索披露下一代国产『芯片』！FP8精度模型训练突破，国产AI算力崛起(浙江深度求索工程管理咨询有限公司)

猜你喜欢

高清卡通荣耀壁纸：点亮你的手机屏幕(高清卡通荣耀壁纸怎么弄)

凡人歌11月震撼首播，『殷桃』、王骁领衔主演都市励志剧！(凡人歌歌曲)

汪文华：难弃当红事业，与丈夫分居长达17年，现在回归平淡生活(曲艺杂谈汪文华现状)

解读福赛尔多线盘：V6111V6112V6113的秘密武器(福赛尔6851)

中信证券：科技产业投资建议重点关注六大前沿方向(中信证券科技园营业部)