在华为全联接大会2025上,华为轮值董事长徐直军分享了昇腾『芯片』的规划路线,并推出了全球最强超节点和集群。未来三年直至2028年,华为开发和规划了三个系列:Ascend 950、Ascend 960和Ascend 970。Ascend 950系列包括两颗『芯片』:Ascend 950PR和Ascend 950DT。
结合已推出或正在研发中的昇腾『芯片』,华为将带来更多超节点和集群产品,如Atlas 950超节点和Atlas 960超节点。Atlas 950超节点支持8192张昇腾卡,将在2026年四季度上市。而Atlas 960超节点最大可支持15488卡,预计于2027年四季度上市。
Ascend 950系列相比前一代,在多个方面实现了提升。新增支持FP8/MXFP8/MXFP4等低数值精度数据格式,算力分别达到1P和2P,提升了训练效率和推理吞吐。同时支持华为自研的HiF8,保持FP8高效的同时,精度接近FP16。向量算力也大幅提升,通过SIMD/SIMT双编程模型和内存访问优化实现。互联带宽提升至2TB/s。
Ascend 950PR主要面向推理Prefill阶段和推荐业务场景,计划于2026年一季度推出。Ascend 950DT则更注重推理Decode阶段和训练场景,支持FP8/MXFP8/MXFP4/HiF8数据格式,计划于2026年第四季度推出。Ascend 960将在2027年四季度推出,支持更多数据格式和更高带宽。Ascend 970计划在2028年四季度推出,各项指标将进一步升级。
从大型AI算力基础设施建设的技术方向看,超节点已成为主导性产品形态。今年3月,华为推出了Atlas 900超节点,满配支持384卡,最大算力可达300 PFLOPS。Atlas 950超节点支持8192张基于Ascend 950DT的昇腾卡,满配包括128个计算柜和32个互联柜,占地面积约1000平方米,FP8算力达到8E FLOPS,FP4算力达到16E FLOPS,互联带宽达到16PB/s。
Atlas 960超节点由176个计算柜和44个互联柜组成,占地面积约2200平方米,FP8总算力将达到30E FLOPS,FP4总算力将达到60 EFLOPS,内存容量达到4460TB,互联带宽达到34PB/s。大模型训练和推理性能相比Atlas 950超节点将分别提升3倍和4倍以上。
为了达成这些技术要求,华为开创了超节点架构并发布了新型互联协议“灵衢UnifiedBus”,支持万卡级超节点架构。该协议具备总线级互联、平等协同、全量池化、协议归一、大规模组网和高可用性六大特征。华为将开放灵衢2.0技术规范,欢迎产业界伙伴共同研发相关产品和部件。
此外,华为还推出了两个集群产品:Atlas 950 SuperCluster 50万卡集群和Atlas 960 SuperCluster。Atlas 950 SuperCluster由64个Atlas 950超节点互联组成,FP8总算力可达524 EFLOPS,将于2026年Q4上市。Atlas 960 SuperCluster将在2027年Q4推出,集群规模进一步提升到百万卡级,FP8总算力达到2 ZFLOPS,FP4总算力达到4 ZFLOPS。