深度求索披露下一代国产『芯片』!FP8精度模型训练突破,国产AI算力崛起(浙江深度求索工程管理咨询有限公司)

深度求索披露下一代国产『芯片』!FP8精度模型训练突破,国产AI算力崛起(浙江深度求索工程管理咨询有限公司)

深度求索披露下一代国产『芯片』!FP8精度模型训练突破,国产AI算力崛起

一场由算法模型驱动的『芯片』革命正在中国悄然发生,『DeepSeek』最新发布的V3.1模型不仅展示了卓越性能,更揭开了国产AI算力生态的战略布局。

2025年8月21日,深度求索(『DeepSeek』)推出新一代大模型『DeepSeek』 V3.1,首次采用专为国产『芯片』设计的UE8M0 FP8低精度计算标准。这一技术突破不仅使模型在多项基准测试中超越国际同类产品,更将国产AI『芯片』的算力效率提升2-3倍,内存占用降低50%-75%。

资本市场迅速反应,消息发布后寒武纪、海光信息等国产『芯片』企业股价单日涨幅达20%。这标志中国AI产业正从“软硬件协同”迈向“生态自主化”的新阶段。

01 模型突破:『DeepSeek』 V3.1的技术跨越

『DeepSeek』 V3.1采用了创新的混合推理架构,将模型划分为“思考模式”(deepseek-reasoner)与“非思考模式”(deepseek-chat),以适配不同复杂度的推理任务。

该系统支持128K长上下文处理,显著提升了对长文档、多轮对话和复杂指令的理解与生成能力。

在权威测试中,V3.1表现出色:在Aider编程基准测试中取得71.6%的成绩,超越Claude Opus4;在SVGBench测试中位列第二,仅次于GPT-4.1-mini;MMLU多任务语言理解测试得分达88.5%,与GPT-5持平。

该版本通过对思维链(Chain-of-Thought, CoT)机制进行压缩优化,在输出token数量减少20%–50%的情况下,仍保持了与上一代模型相当的语义完整性与任务完成度。

02 FP8革命:低精度计算的战略价值

FP8(8位浮点数)格式正成为AI计算的关键技术,因其能够在几乎不损失模型性能的前提下,实现吞吐量翻倍和显存占用减半。

与目前广泛使用的FP16相比,FP8将内存占用直接减少50%,显著降低了内存带宽压力,使相同硬件条件下能处理更大规模的模型或更高批次的数据。

『DeepSeek』在V3.1中提出的UE8M0 FP8并非NVIDIA官方标准,而是一种针对国产硬件环境优化的变体格式。该格式采用无符号设计与8位指数位宽,大幅偏向数值表达范围,更适合大规模和高并发计算场景。

UE8M0 FP8 Scale的“U”代表无符号(Unsigned),“E8”代表指数位占8位,“M0”代表尾数位为0位。这种设计通过对数据分块缩放,将数值保持在FP8能精确表示的范围内,进一步压缩计算和存储开销。

03 国产『芯片』:生态协同与技术突破

『DeepSeek』此次技术披露点燃了国产算力『芯片』市场的热情。UE8M0 FP8标准已获得多家国内『芯片』企业积极响应,寒武纪MLU370-S4、思元590/690系列等已实现对FP8计算的原生或兼容性支持。

沐曦于2025年正式发布曦云C600『芯片』,宣称原生支持FP8精度,并采用多精度混合算力架构。燧原科技推出训推一体『芯片』L600,最大特点是同时支持训练与推理任务,与『DeepSeek』 V3.1的低精度策略高度契合。

摩尔线程旗舰AI训推产品MTT S5000采用的MUSA架构原生支持硬件FP8张量加速计算,能够很好地支持UE8M0 FP8 Scale。相对于传统FP16计算,它能实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升。

华为昇腾也宣布计划于2025年第四季度实现原生FP8支持。昇腾910B搭载FP8运行『DeepSeek』模型时,单卡推理延迟低至48毫秒,功耗比超越『英伟达』A100。

04 软硬协同:算法-『芯片』协同创新模式

『DeepSeek』采用的“模型即『芯片』”策略,本质上借鉴了谷歌TPU的成功经验。这种协同创新模式使算法设计和硬件优化能够同步进行,实现1+1>2的效果。

摩尔线程技术专家指出:“『DeepSeek』针对下一代国产『芯片』引入参数精度,能够充分发挥出已量产的国产『芯片』架构特性,通过国产大模型和国产『芯片』协同设计优化,实现1+1>2”。

这种协同效应在实际应用中表现显著。华为昇腾系列NPU针对FP8设计的专用指令集,使其在典型ResNet模型上的吞吐量提升40%,同时单位算力的能耗降低至原来的1/3。

软件生态也在快速完善。赤兔Chitu开源引擎实现国产『芯片』原生支持FP8,在A800集群上部署671B参数模型时,GPU用量减少50%而速度提升3.15倍,彻底打破海外硬件垄断。

05 商业化前景:成本优势与市场应用

『DeepSeek』延续了极具竞争力的定价策略。其API输入价格低至0.5元/百万tokens(缓存命中),输出价格为12元/百万tokens。

以典型编程任务为例,单次调用成本约为1.01美元💵,仅为同类闭源系统的约1/60。这种成本优势使得国产AI解决方案在国际市场上具备显著竞争力。

在应用层面,FP8技术已在多个行业落地。理想汽车通过FP8混合精度将ThorU『芯片』算力提升至1000TOPS。苏宁易购宣布旗下“灵思”大模型基于寒武纪算力平台完成关键技术升级,实现推理效率平均提升30%、训练成本下降70%。

国产算力正从“可用”向“好用、划算”转变。随着FP8技术的普及,更多企业能够以更低门槛获取优质算力,推动AI技术在医疗、教育、工业等领域的规模化落地。

06 战略意义:自主生态与国际竞争

FP8是相对较新的标准,国内外技术差距小于在CUDA生态上的差距,是中国AI产业难得的机遇窗口。

UE8M0 FP8的推广有效推动了国产AI算力生态的标准化进程。通过统一低精度计算格式,不同硬件平台之间的算力利用率得到提升,减少了对『英伟达』、AMD等国际厂商的依赖。

当前,尽管IEEE P754等国际标准组织仍在积极推进FP8的规范化进程,但产业应用已明显走在了标准制定的前面。百度飞桨、智谱AI为代表的AI平台已率先实现对FP8格式的默认支持。

若能在未来一年半内实现三大关键突破——包括主流框架深度集成FP8、高质量开源模型示范验证,以及国产硬件适配率突破50%——中国完全有能力主导一场以FP8为共识的生态变革。

国产AI『芯片』与主流大模型深度适配不断推进,国内算力生态正在实现从“单点突破”到“系统优化”的关键转变。

随着大模型参数规模指数级增长,从BERT的3.4亿参数到GPT-3的1750亿,再到如今超万亿参数的模型,每两年参数规模增长约240倍。但GPU显存的增长相对缓慢——2016年P100仅12GB,2023年H200也才141GB,7年只翻了10倍。

这种“参数疯涨、显存龟速”的反差,使得FP8等低精度计算技术成为突破“内存墙”困境的关键。『DeepSeek』此次技术路线的价值,在于证明了算法-硬件协同创新可能比单纯追逐制程进步更具可行性。

随着政策推动、技术迭代,国产算力将进入全场景攻坚阶段,为人工智能和数字经济发展迈向新高度提供坚实基座。

特别声明:[深度求索披露下一代国产『芯片』!FP8精度模型训练突破,国产AI算力崛起(浙江深度求索工程管理咨询有限公司)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

高清卡通荣耀壁纸:点亮你的手机屏幕(高清卡通荣耀壁纸怎么弄)

为什么高清卡通荣耀壁纸如此受追捧?它是如何提升用户体验的?本文将为你揭示高清卡通壁纸背后的故事,探讨其设计原理、应用场景和未来趋势,助你轻松挑选心仪壁纸。

高清卡通荣耀壁纸:点亮你的手机屏幕(高清卡通荣耀壁纸怎么弄)

凡人歌11月震撼首播,『殷桃』、王骁领衔主演都市励志剧!(凡人歌 歌曲)

在备受瞩目的11月末,一部汇聚了实力派演员与深刻生活题材的电视剧凡人歌正式宣布将于11月在CCTV-8黄金强档首播,并同步登陆爱奇艺和腾讯视频,为观众带来一场关于生活、奋斗与自我救赎的视觉盛宴。该剧由海润影视…

凡人歌11月震撼首播,『殷桃』、王骁领衔主演都市励志剧!(凡人歌 歌曲)

汪文华:难弃当红事业,与丈夫分居长达17年,现在回归平淡生活(曲艺杂谈汪文华现状)

咱们来聊聊这位&34事业狂人&34的故事,看看她是如何在事业和家庭之间左右为难,最后又做出了怎样的选择。说到汪文华为啥这么拼,就不得不提她的&34心头肉&34——曲艺杂谈这档节

汪文华:难弃当红事业,与丈夫分居长达17年,现在回归平淡生活(曲艺杂谈汪文华现状)

解读福赛尔多线盘:V6111V6112V6113的秘密武器(福赛尔6851)

为何这些看似低调的手动控制盘,却能在专业市场掀起波澜?它们独特的设计与性能如何满足不同场景需求?本文将带你深入剖析北京福赛尔V6111V6112V6113三款手动控制盘的核心优势,揭示其在自动化领域的卓越表现。 福赛尔多线盘是工业自动化

解读福赛尔多线盘:V6111V6112V6113的秘密武器(福赛尔6851)

中信证券:科技产业投资建议重点关注六大前沿方向(中信证券科技园营业部)

围绕建设以先进制造业为骨干的现代化产业体系、重点发展新质生产力、采取超常规措施加强原始创新和关键核心技术攻关等方向,我们建议投资人重点关注六大前沿方向:上游『半导体』先进制造和装备,新型能源体系建设,量子科技加速…

中信证券:科技产业投资建议重点关注六大前沿方向(中信证券科技园营业部)