芝能智芯出品
2025年华为全联接大会上,昇腾AI『芯片』的路线图引发热议。
从910到950、960再到970,华为逐年迭代,单『芯片』算力从300 TFLOPS(FP16)增至超1 PFLOPS,HBM带宽翻倍,目标直指万亿参数大模型训练和边缘推理,昇腾通过计算、互联和生态优化,这次的路线图给人带来的感觉很燃很不一样了。
Part 1
昇腾AI『芯片』的演进路线
华为昇腾AI『芯片』是国内AI算力体系逐步成熟的缩影,从最早的昇腾910开始,产品线就瞄准了大规模训练任务所需的高算力、高带宽和大规模互联能力。
从整体演进脉络来看,昇腾『芯片』的设计逻辑始终围绕三大核心展开:
◎是单『芯片』算力的持续提升;
◎是『芯片』间互联能力的迭代优化;
◎是开发生态与系统级支持的逐步完善。
昇腾系列『芯片』将于2026年第一季度推出950PR型号,同年第四季度发布950DT;随后在2027年第四季度推出昇腾960,并于2028年第四季度迎来昇腾970的上市。
昇腾910C已于今年第一季度正式投入量产,集成两颗昇腾910B『芯片』,提供约800 TFLOPS的FP16计算性能,内存带宽达到3.2 TB/s。
950『芯片』采用了华为自主研发的高带宽内存(HBM),增强了对低精度数据格式的支持,提升向量计算性能,互连带宽实现了2.5倍的提升。
相关的参数为
◎950PR/DT:微架构SIMD/SIMT,算力1PFLOPS(FP8)/ 2PFLOPS(FP4),支持FP32/HF32/FP16/BF16/FP8/MXFP8 /HiF8/MXFP4/HiF4等数据格式,互联带宽为2TB/s。
内存容量和带宽上,昇腾950PR为144GB、4TB/s,昇腾950PR为128GB、1.6TB/s。
◎昇腾960:微架构SIMD/SIMT,算力翻倍提高到2PFLOPS(FP8) /4PFLOPS(FP4),支持FP32/HF32/FP16/BF16/FP8/MXFP8/ HiF8/MXFP4/HiF4等数据格式,互联带宽为2.2TB/s,HBM内存容量也翻倍到288GB、带宽达到9.6TB/s。
◎昇腾970:微架构SIMD/SIMT,算力再度翻倍到4PFLOPS(FP8) /8PFLOPS(FP4),支持FP32/HF32/FP16/BF16/FP8/MXFP8/ HiF8/MXFP4/HiF4等数据格式,互联带宽提高到4TB/s,HBM内存容量虽然维持到288GB,带宽会提高到14.4TB/s。
Part 2
架构突破与系统设计
华为发布了以昇腾950为基础的新型超节点,该超节点将成为全球最强超节点,甚至超越『英伟达』预计在2027年推出的NVL576系统。
昇腾『芯片』的价值不在于其在架构层面上的一系列突破。
◎在计算单元设计上,昇腾『芯片』采用了矩阵计算加速单元(Cube Unit)作为核心模块。
这种结构针对AI模型中的矩阵乘加运算进行了深度优化,使得在半精度(FP16)、混合精度(BF16、INT8等)计算时能够获得更高的吞吐率。
◎在存储与带宽方面,昇腾『芯片』紧密结合HBM高带宽存储技术。随着模型参数规模的急剧扩张,内存带宽已成为制约AI训练性能的主要瓶颈。
昇腾『芯片』通过优化片上缓存架构和数据流调度机制,提升了HBM的利用效率,减少了访存延迟。在昇腾960及后续版本中,还强调了存储与计算的协同设计,以保证计算单元能够持续高效工作。
◎在『芯片』互联上,昇腾系列逐步形成了自己的高带宽低延迟互联架构。类似于『英伟达』的NVLink,华为通过自研的高速互联技术,使多颗昇腾『芯片』可以以接近线性扩展的方式组成大规模集群。
这种设计不仅解决了通信瓶颈问题,还为超大规模模型的分布式训练提供了必要的硬件支持。尤其是在超节点集群场景下,这种互联架构直接决定了整体算力的可扩展性。
昇腾『芯片』在系统设计层面也展现了全栈优化的思路。
CANN算子库与MindSpore框架的深度融合,使得开发者可以在高层框架中透明地调用底层硬件优化,华为也在虚拟化和调度层面提供了支持,使『芯片』算力能够在不同任务之间灵活分配。
在能效比方面,昇腾『芯片』通过工艺制程演进、架构优化和动态功耗管理,实现了算力与能耗之间的平衡。
小结
从昇腾910到昇腾970的演进,是国产AI『芯片』逐步走向成熟的见证。通过在计算单元设计、内存带宽利用、『芯片』互联和系统生态上的迭代,这建立起能够支撑大模型训练与推理的完整算力体系。