芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
芯东西7月26日报道,在世界人工智能大会开幕前夕,国内GPU企业摩尔线程重磅披露其完整AI技术布局。
面对生成式AI爆发下的大模型训练效率瓶颈,摩尔线程正通过系统级工程创新,构建新一代AI训练基础设施,为AGI时代打造生产先进模型的“超级工厂”。
这座“AI工厂”的产能,由五大核心要素的公式:
AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性
摩尔线程创始人兼CEO张建中表示,摩尔线程是国内极少数原生支持FP8的GPU厂商,也是国内极少数具备FP8大模型训练的平台。
这座“AI工厂”不仅有高效的模型训练,还具备极致的推理验证能力。基于自研MUSA技术栈,摩尔线程构建覆盖大语言模型、视觉、生成类模型的全流程推理解决方案,打造实现“训练-验证-部署”的无缝衔接。
根据现场演示,其旗舰产品MTT S5000满血跑DeepSeek R1模型推理,速度达到100 tokens/s,非常快,已经达到行业领先。
摩尔线程还重磅预热:将于今年10月举办首届MUSA开发者大会,邀全球开发者共建生态。
一、打造先进AI工厂,摩尔线程解密五大核心要素
前沿AI模型正以惊人的速度迭代,从GPT系列、Gemini到DeepSeek、Qwen的快速更新,模型训练迭代时间已缩短至不足3个月。丰富的模型,快速的更新,对新一代高性能AI计算基础设施提出迫切要求。
对此,摩尔线程提出“AI工厂”,要实现从底层芯片架构创新、集群整体架构的优化到软件算法调优和资源调度系统的全面升级,以推动AI训练从千卡级向万卡级乃至十万卡级规模演进。
摩尔线程以全功能GPU通用算力为基石,通过先进架构、芯片算力、单节点效率、集群效率优化、可靠性等协同跃升的深度技术创新,旨在将全功能GPU加速计算平台的强大潜能,转化为工程级的训练效率与可靠性保障。
1、全功能GPU,实现加速计算通用性
计算功能的完备性与精度完整性是支撑多元场景的核心基石。
摩尔线程以自主研发的全功能GPU为核心,构建了“功能完备”与“精度完整”的通用性底座,全面覆盖从AI训练、推理到科学计算的全场景需求。
(1)单芯片覆盖多场景:基于MUSA架构的突破性设计,GPU单芯片即可集成AI计算加速(训推一体)、图形渲染(2D+3D)、物理仿真和科学计算、超高清视频编解码能力,充分适配AI训推、具身智能、AIGC等多样化应用场景。
(2)精度树立行业标杆:支持从FP64至INT8的完整精度谱系,原生支持FP8大模型训练及推理,并通过FP8混合精度技术,在主流前沿大模型训练中实现20%~30%的性能跃升,为国产GPU的算力效率树立行业标杆。
(3)前瞻支持模型演进:技术体系不仅满足大模型时代的高效计算需求,更为世界模型和新兴AI架构的演化提供前瞻性支撑。
2、自研MUSA架构,提升单芯片有效算力
摩尔线程基于自研MUSA架构,通过计算、内存、通信三重突破,显著提升单GPU运算效率。
(1)创新架构突破传统限制:采用创新的全功能、多引擎、可配置、可伸缩GPU架构,通过硬件资源池化及动态资源调度技术,构建了全局共享的计算、内存与通信资源池,允许面向目标市场快速裁剪出优化的芯片配置,大幅降低了新品芯片的开发成本,在保障通用性的同时显著提升了资源利用率。
(2)计算性能显著提升:AI加速系统(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。其中FP8技术通过快速格式转换、动态范围智能适配、高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。
(3)内存优化:通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术,内存系统实现了50%的带宽节省和60%的延迟降低,有效提升数据传输能力。
(4)通信效率优化:独创的ACE异步通信引擎减少了15%的计算资源损耗;MTLink2.0互连技术提供了高出国内行业平均水平60%的带宽,为大规模集群部署奠定了坚实基础。
3、MUSA全栈系统软件,提升单节点计算效率
摩尔线程通过MUSA全栈系统软件实现关键技术突破,推动AI工厂从单点创新转向系统级效能提升。其核心创新包括:
(1)任务调度优化:核函数启动(Kernel Launch)时间缩短50%。
(2)极致性能算子库:GEMM算子算力利用率达98%,Flash Attention算子算力利用率突破95%。
(3)通信效能提升:MCCL通信库实现RDMA网络97%带宽利用率;基于异步通信引擎优化计算通信并行,集群性能提升10%。
(4)低精度计算效率革新:FP8优化与行业首创细粒度重计算技术,显著降低训练开销。
(5)开发生态完善:基于Triton-MUSA编译器 + MUSA Graph实现DeepSeek-R1推理加速1.5倍,全面兼容Triton等主流框架。
4、自研KUAE计算集群,优化集群效率
单节点效率达到新高度后,下一个挑战是如何实现大规模集群的高效协作。
摩尔线程自研KUAE计算集群通过5D大规模分布式并行计算技术,实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。
(1)创新5D并行训练:整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构,显著提升大规模集群训练效率。
(2)性能仿真与优化:自研Simumax工具面向超大规模集群自动搜索最优并行策略,精准模拟FP8混合精度训练与算子融合,为DeepSeek等模型缩短训练周期提供科学依据。
(3)秒级备份恢复:针对大模型稳定性难题,创新CheckPoint加速方案利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,提升GPU有效算力利用率。
基于平湖架构KUAE2智算集群,无论千卡或更大规模,在每个应用场景都能做到比国外主流产品更高的性能和效率,达到行业领先水平。
5、零中断容错技术,提升集群的稳定性和可靠性
在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。特别在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力。
摩尔线程创新推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。
同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,异常处理效率提升50%,让用户看得见和管理得到每一个训练集群的每一片GPU;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定保障。
二、MUSA软件栈如何助力KUAE集群?三大亮点技术详解
摩尔线程GPU计算软件开发总监吴庆分享了MUSA软件栈的主要亮点技术。
1、MUSA驱动和运行时库,KUAE集群坚实底座
推理场景对Kernel延时非常敏感。极致高效的MUSA驱动和运行时库,具有高效率的任务调度能力,使用户的Kernel launch开销极致缩减。
(1)即时任务下发:通过软硬协同,将核函数启动延迟降低到业界平均水平的1/2。
(2)批量任务下发:批量下发计算和通信任务,将近千次下发开销优化为单次,减少GPU等待时间。
(3)引擎间依赖解析:GPU是多引擎可配置的,不同引擎之间要做依赖解析、交互同步,平湖支持硬件解析引擎间的依赖做同步,不再回到host,任务流之间的依赖解析延时可以大幅降低至1.5μs,优于业界头部算力卡。
(4)调优工具接口MUPTI:专门用于性能分析和事件追踪,帮助开发者优化MUSA应用程序,可基于MUPTI开发第三方的各种丰富工具。
(5)GPU错误转存功能(GPU Core Dump,GCD):高效定位疑难Bug,不需要去调度大量的集群和人力反复去复现“昙花一现”的错误,用于在GPU程序崩溃或发生错误时生成详细的信息(类似CPU程序Core Dump),精确保存错误,提供一个log,极大提升MUSA核函数崩溃、非法显存地址访问、硬件错误等问题定位的效率。
2、MUSA算子库生态日趋完善,性能与广度兼备
算子库的效率直接关乎分布式集群的训练效率。MUSA算子库不仅追求极致性能,还兼容覆盖广度和兼容性。
MUSA算子库生态会提供三大算子库:极致性能muDNN、易用MUTLASS、MUSA AI Tensor Engine开源推理算子库。
muDNN,是一款极致性能的开箱即用标准算子库,完整覆盖常见的前向和反向算子。其中最主要的特性是支持完整的XMMA,支持Tensor Core全精度及所有量化模式,以及常用的神经网络算子操作。
一般来说,矩阵乘的效率大部分可以做到90%以上,摩尔线程muDNN矩阵乘算子效率可以做到98%。Flash Attention算子因为多了softmax等操作,基于国际一流水平厂商的Flash Attention 3论文里提到的效率大约是75%,muDNN的Flash Attention可以做到95%。
影响FP8 GEMM算子效率的重要因素是scale模式,scale是为了避免精度损失做的一个精细化的缩放因子,常见的有Per-Tensor、Per-Block,DeepSeek V3用的是Per-Block。
吴庆打了个比方,Per-Tensor scale是整个张量共用一个缩放因子,相当于一面墙刷一个颜色,很好刷;Per-Block scale则是每个小的矩阵块共用一个缩放因子,相当于一面墙有很多小方块,每个方块单独一个颜色,刷墙的复杂度要高很多,会比一个颜色刷一面墙效率低10%-20%。
摩尔线程通过软硬协同的深度算法优化、指令编排,做到了Per-Block跟Per-Tensor FP8 GEMM计算效率几乎相当,差距不到2%。
MUTLASS,是一个高性能的线性代数模板库,可极大降低在MUSA环境中自定义算子的开发工作量,相当于提供了一个可供二次开发的模板。
MUTLASS已在Github上开源,支持平湖架构所有特性,包括Warp-level MMA、WarpSquad-level MMA、TensorMemoryEngine、AsyncBarrier等原语全面支持,同时提供高性能矩阵乘、卷积算子实现,可在Kernel里调用模板库就可以进行二次开发,摩尔线程也提供Attention最优化的示例,给用户打样,可以参考提供的最佳实践,去开发自定义的各种Attention的变种。
MUSA AI Tensor Engine,是摩尔线程即将发布的面向大语言模型的开源推理算子库,可帮助开发者快速搭建自定义推理引擎。
MUSA AI Tensor Engine,是摩尔线程即将发布的面向大语言模型的开源推理算子库,可帮助开发者快速搭建自定义推理引擎。 该算子库提供用户友好的Python API,进一步降低开发者使用门槛,无需花太多时间学习MUSA C,只要会Python就可以把MTX这个库用起来;未来会支持丰富的后端,包括模板库,对标PTX虚拟指令集去开发的极致算子库,也支持类Triton的DSL。
3、高性能集合通信库及通算并行,避免通信抢占计算核心资源
大模型分布式训练的主要瓶颈是通信。摩尔线程在MTT S5000上支持MTLINK 2.0,配备GPU异步通信引擎,实现了高性能通信技术与计算高度并行。
最近十几年,随着模型规模增加,分布式集群规模也在增加,通信瓶颈会越来越明显。DeepSeek V3报告中呼吁硬件厂商提供的芯片能不能做一个单独的通信硬件来卸载通信,避免通信跟计算去抢SM计算单元。
平湖设计阶段远早于DeepSeek V3发布的时间,彼时摩尔线程已洞察到行业痛点,并提供了解决方案——在GPU上增加了一个异步通信引擎。
MTT S5000服务器拓扑每节点有8张GPU,通过MTLINK 2.0全互连,每张GPU与其他7张GPU都有直连总线。
每个GPU上配置的异步通信引擎是原生支持丰富的reduce操作,支持常用的reduce操作有ADD、MIN、MAX(累加、最小值、最大值)等操作,支持Float、FP16、BF16等数据类型,可直接通过MTLink进行C2C跨系统的数据通信。
其ACE通过Zero Copy技术进一步提升性能。一般的集合通信会把数据buffer拷贝到通信buffer里,再去进行C2C通信。Zero Copy则避免了在本地上的D2D的拷贝,直接把数据buffer做跨卡通信。
摩尔线程在衡量集合通信库性能的时候主要是两大核心指标:通信延迟、通信带宽。
基于全互联(FC8)拓扑的高效通信算法,可大幅降低通信延迟。全互联拓扑中GPU两两互连,在All Reduce场景中可以把其他GPU的数据一次性拿过来,理论上FC8算法相比Ring算法,7步通信可变成1步完成。在单机8卡All Reduce延迟场景的实测也差不多,Ring算法大概是53us,用FC8算法可降低至7.8us,将近缩减至1/7,显著提升了模型推理性能。
带宽方面,Ring算法与FC8算法效率相当,以Ring算法为例,摩尔线程把FC8拆成了7个通信环,每个通信环结合通信Kernel的优化,基于MTLink2.0 + FC8拓扑,节点内充分利用全互联的拓扑优势,可做到单机8卡All Reduce带宽利用率接近85%,与国际第一的厂商在软件效率上对齐,实现高效的Scale-up通信。
高效Scale-out跨节点通信方面,摩尔线程结合通信库做了网卡拓扑感知与自适应优化,每个GPU都能在PCIe拓扑上找到延迟和带宽效率最高的网卡端口进行RDMA通信,还额外开发了一个插件Smart NIC Adaptor,在配置4张双口网卡时,可实现和8张单口网卡一样的RDMA通信效率。
经测试,其All Reduce带宽可以做到194GB/s,RDMA通信带宽利用率达到97%,而一般RDMA通信带宽利用率约在80%-85%。
除了延迟和带宽之外,摩尔线程还做了异步通信引擎的通信优化。
MPC是计算核心。传统做法是通信也走MPC,就要分走一部分的计算单元。ACE则可以把通信部分卸载到单独的通信引擎上,不跟MPC抢计算资源,同时在无数据依赖时完全做到overlap,通过优化,结合MT Transformer Engine,在Llama模型上端到端计算通信性能可提升10%左右。
三、基于FP8的国产万卡训练,摩尔线程软硬件如何撑起行业需求?
摩尔线程副总裁王华给基于FP8的国产万卡训练划了3个重点:
1、大模型训练需要更强大的智算集群;2、低精度可有效提升训练效率;3、可靠性对大规模训练至关重要。
大模型需要大集群已是行业共识,不必赘述。
用更低精度的数据类型进行训练,相当于实现了算力翻倍。精度降低一半,能带来的优势是算力翻倍,显存占用、显存带宽、传输带宽消耗减半。
但低精度替换只能部分进行,无法完全替代。一些精度敏感环节,如非线性函数/归一化操作,仍需保留高精度计算。
从技术演进来看,精度格式正沿着FP32→TF32→FP16/BF16→FP8的路径发展。近两年,FP8训练技术取得多项进展。
DeepSeek-V3使用了FP8混合精度训练,主要策略有:前向和后向传播的3次GEMM使用FP8,激活值的缓存和传输使用FP8,Embedding、激活函数等模块使用高精度浮点数,主权重、权重梯度、优化器状态使用高精度浮点数。
摩尔线程的全功能GPU,是率先支持FP8的国产GPU,对FP8的训练提供了软硬件支持,基于摩尔线程软件栈,成功复现了DeepSeek-V3满血版训练。
其软件栈开源了3个组件:
(1)提供MUSA后端加速支持的Torch-MUSA:PyTorch的MUSA插件,最新版本率先在国产GPU上实现了对FP8数据类型的完整支持。
(2)混合并行训练框架MT-MegatronLM:支持FP8混合精度训练、高性能muDNN库和MCCL通信库。
(3)MT-TransformerEngine:主要用于Transformer的高效训练和推理优化,支持FP8混合精度训练,通过算子融合、并行加速等技术提升训推效率。
经实验,基于摩尔线程KUAE集群,在Llama3 8B、Qwen、DeepSeek-V2 16B、DeepSeek-V3 30B上,采用FP8混合训练可以带来20%~30%的性能提升,且引入FP8前后loss曲线基本一致。在采用FP8训练方面,摩尔线程GPU计算卡与国际主流计算卡的精度对比基本吻合。
在Scaling Factor的选择上,摩尔线程也做了许多探索,例如:amax的统计信息表明,Per-Tensor的Scaling Factor适合采用Delayed Scaling策略,而Per-Block则适合采用JIT Scaling策略。
摩尔线程还用自家GPU计算卡做了Smooth SwiGLU论文的复现,发现通过Smooth SwiGLU可以有效降低outlier的影响。
此外,摩尔线程开源的模拟仿真器Simumax可用于大规模集群训练,支持多种并行策略、多种模型架构、各种优化策略以及并行策略、超参、优化策略的自动扫描。
最后,大规模集群训练的可靠性非常重要。
摩尔线程做了很多相关工作,进行全生命周期管理监控:
(1)训练检查(起飞、飞行、落地):起飞检查是在训练开始前,对硬软件和通信的检查,自动替换故障节点;飞行检查中,发现训练亚健康问题;落地检查是停掉训练后,定位故障节点,提取故障上下文。
(2)慢节点探测:分布式训练中慢节点会拖慢整个训练的速度;起飞检查阶段节点两两配对,检查小负载的执行时间;训练阶段统计每个节点计算和通信执行的时间。
(3)容错训练:大规模训练场景使用大量节点,会导致训练故障率指数级升高;同步模式转成异步模式,单节点故障就不会影响整体训练;还有高效的故障发现与恢复机制。
结语:国产AI计算基础设施,已具备规模化、高效率、高可靠模型生产能力
摩尔线程以打造先进的“AI工厂”为目标,凭借全功能GPU的通用计算能力、创新的MUSA架构、优化的MUSA软件栈、自研的KUAE集群、零中断容错技术五大核心要素,构建起高效的“AI工厂”,为AI大模型训练提供了强大而可靠的基础设施支持。
“只有这样的组合,才能确保每一个环节都做到最好,100% X 100% X 100%,才能确保100%的成功率,也是业界最好的效率。”张建中说。
依托AI工厂,摩尔线程成功构建起覆盖”训练-推理-部署”全流程的高效体系。这标志着国产计算基础设施,已具备支撑AGI时代规模化、高效率、高可靠模型生产的关键能力。
从图形渲染基石到AI算力引擎,摩尔线程正以“KUAE+MUSA”为智算业务核心,推动全功能GPU驱动的AI技术在物理仿真、AIGC、科学计算、具身智能、智能体、医疗影像分析、工业大模型等关键领域的应用与部署。