摩尔线程技术分享日干货！打造“AI超级工厂”、原生支持FP8、『DeepSeek』 R1推理加速150%(摩尔线程企查查) #科技 #推理 #架构 #效率 #『DeepSeek』 #摩尔

芯东西（公众号：aichip001）

作者 | ZeR0

编辑 | 漠影

芯东西7月26日报道，在世界人工智能大会开幕前夕，国内GPU企业摩尔线程重磅披露其完整AI技术布局。

面对生成式AI爆发下的大模型训练效率瓶颈，摩尔线程正通过系统级工程创新，构建新一代AI训练基础设施，为AGI时代打造生产先进模型的“超级工厂”。

这座“AI工厂”的产能，由五大核心要素的公式：

AI工厂生产效率 = 加速计算通用性 × 单『芯片』有效算力 × 单节点效率 × 集群效率 × 集群稳定性

摩尔线程创始人兼CEO张建中表示，摩尔线程是国内极少数原生支持FP8的GPU厂商，也是国内极少数具备FP8大模型训练的平台。

这座“AI工厂”不仅有高效的模型训练，还具备极致的推理验证能力。基于自研MUSA技术栈，摩尔线程构建覆盖『大语言模型』、视觉、生成类模型的全流程推理解决方案，打造实现“训练-验证-部署”的无缝衔接。

根据现场演示，其旗舰产品MTT S5000满血跑『DeepSeek』 R1模型推理，速度达到100 tokens/s，非常快，已经达到行业领先。

摩尔线程还重磅预热：将于今年10月举办首届MUSA开发者大会，邀全球开发者共建生态。

一、打造先进AI工厂，摩尔线程解密五大核心要素

前沿AI模型正以惊人的速度迭代，从GPT系列、Gemini到『DeepSeek』、Qwen的快速更新，模型训练迭代时间已缩短至不足3个月。丰富的模型，快速的更新，对新一代高性能AI计算基础设施提出迫切要求。

对此，摩尔线程提出“AI工厂”，要实现从底层『芯片』架构创新、集群整体架构的优化到软件算法调优和资源调度系统的全面升级，以推动AI训练从千卡级向万卡级乃至十万卡级规模演进。

摩尔线程以全功能GPU通用算力为基石，通过先进架构、『芯片』算力、单节点效率、集群效率优化、可靠性等协同跃升的深度技术创新，旨在将全功能GPU加速计算平台的强大潜能，转化为工程级的训练效率与可靠性保障。

1、全功能GPU，实现加速计算通用性

计算功能的完备性与精度完整性是支撑多元场景的核心基石。

摩尔线程以自主研发的全功能GPU为核心，构建了“功能完备”与“精度完整”的通用性底座，全面覆盖从AI训练、推理到科学计算的全场景需求。

（1）单『芯片』覆盖多场景：基于MUSA架构的突破性设计，GPU单『芯片』即可集成AI计算加速（训推一体）、图形渲染（2D+3D）、物理仿真和科学计算、超高清视频编解码能力，充分适配AI训推、具身智能、AIGC等多样化应用场景。

（2）精度树立行业标杆：支持从FP64至INT8的完整精度谱系，原生支持FP8大模型训练及推理，并通过FP8混合精度技术，在主流前沿大模型训练中实现20%~30%的性能跃升，为国产GPU的算力效率树立行业标杆。

（3）前瞻支持模型演进：技术体系不仅满足大模型时代的高效计算需求，更为世界模型和新兴AI架构的演化提供前瞻性支撑。

2、自研MUSA架构，提升单『芯片』有效算力

摩尔线程基于自研MUSA架构，通过计算、内存、通信三重突破，显著提升单GPU运算效率。

（1）创新架构突破传统限制：采用创新的全功能、多引擎、可配置、可伸缩GPU架构，通过硬件资源池化及动态资源调度技术，构建了全局共享的计算、内存与通信资源池，允许面向目标市场快速裁剪出优化的『芯片』配置，大幅降低了新品『芯片』的开发成本，在保障通用性的同时显著提升了资源利用率。

（2）计算性能显著提升：AI加速系统（TCE/TME）全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。其中FP8技术通过快速格式转换、动态范围智能适配、高精度累加器等创新设计，在保证计算精度的同时，将Transformer计算性能提升约30%。

（3）内存优化：通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术，内存系统实现了50%的带宽节省和60%的延迟降低，有效提升数据传输能力。

（4）通信效率优化：独创的ACE异步通信引擎减少了15%的计算资源损耗；MTLink2.0互连技术提供了高出国内行业平均水平60%的带宽，为大规模集群部署奠定了坚实基础。

3、MUSA全栈系统软件，提升单节点计算效率

摩尔线程通过MUSA全栈系统软件实现关键技术突破，推动AI工厂从单点创新转向系统级效能提升。其核心创新包括：

（1）任务调度优化：核函数启动（Kernel Launch）时间缩短50%。

（2）极致性能算子库：GEMM算子算力利用率达98%，Flash Attention算子算力利用率突破95%。

（3）通信效能提升：MCCL通信库实现RDMA网络97%带宽利用率；基于异步通信引擎优化计算通信并行，集群性能提升10%。

（4）低精度计算效率革新：FP8优化与行业首创细粒度重计算技术，显著降低训练开销。

（5）开发生态完善：基于Triton-MUSA编译器 + MUSA Graph实现『DeepSeek』-R1推理加速1.5倍，全面兼容Triton等主流框架。

4、自研KUAE计算集群，优化集群效率

单节点效率达到新高度后，下一个挑战是如何实现大规模集群的高效协作。

摩尔线程自研KUAE计算集群通过5D大规模分布式并行计算技术，实现上千节点的高效协作，推动AI基础设施从单点优化迈向系统工程级突破。

（1）创新5D并行训练：整合数据、模型、张量、流水线和专家并行技术，全面支持Transformer等主流架构，显著提升大规模集群训练效率。

（2）性能仿真与优化：自研Simumax工具面向超大规模集群自动搜索最优并行策略，精准模拟FP8混合精度训练与算子融合，为『DeepSeek』等模型缩短训练周期提供科学依据。

（3）秒级备份恢复：针对大模型稳定性难题，创新CheckPoint加速方案利用RDMA技术，将百GB级备份恢复时间从数分钟压缩至1秒，提升GPU有效算力利用率。

基于平湖架构KUAE2智算集群，无论千卡或更大规模，在每个应用场景都能做到比国外主流产品更高的性能和效率，达到行业领先水平。

5、零中断容错技术，提升集群的稳定性和可靠性

在构建高效集群的基础上，稳定可靠的运行环境是“AI工厂”持续产出的保障。特别在万卡级AI集群中，硬件故障导致的训练中断会严重浪费算力。

摩尔线程创新推出零中断容错技术，故障发生时仅隔离受影响节点组，其余节点继续训练，备机无缝接入，全程无中断。这一方案使KUAE集群有效训练时间占比超99%，大幅降低恢复开销。

同时，KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断，异常处理效率提升50%，让用户看得见和管理得到每一个训练集群的每一片GPU；结合集群巡检与起飞检查，训练成功率提高10%，为大规模AI训练提供稳定保障。

二、MUSA软件栈如何助力KUAE集群？三大亮点技术详解

摩尔线程GPU计算软件开发总监吴庆分享了MUSA软件栈的主要亮点技术。

1、MUSA驱动和运行时库，KUAE集群坚实底座

推理场景对Kernel延时非常敏感。极致高效的MUSA驱动和运行时库，具有高效率的任务调度能力，使用户的Kernel launch开销极致缩减。

（1）即时任务下发：通过软硬协同，将核函数启动延迟降低到业界平均水平的1/2。

（2）批量任务下发：批量下发计算和通信任务，将近千次下发开销优化为单次，减少GPU等待时间。

（3）引擎间依赖解析：GPU是多引擎可配置的，不同引擎之间要做依赖解析、交互同步，平湖支持硬件解析引擎间的依赖做同步，不再回到host，任务流之间的依赖解析延时可以大幅降低至1.5μs，优于业界头部算力卡。

（4）调优工具接口MUPTI：专门用于性能分析和事件追踪，帮助开发者优化MUSA应用程序，可基于MUPTI开发第三方的各种丰富工具。

（5）GPU错误转存功能（GPU Core Dump，GCD）：高效定位疑难Bug，不需要去调度大量的集群和人力反复去复现“昙花一现”的错误，用于在GPU程序崩溃或发生错误时生成详细的信息（类似CPU程序Core Dump），精确保存错误，提供一个log，极大提升MUSA核函数崩溃、非法显存地址访问、硬件错误等问题定位的效率。

2、MUSA算子库生态日趋完善，性能与广度兼备

算子库的效率直接关乎分布式集群的训练效率。MUSA算子库不仅追求极致性能，还兼容覆盖广度和兼容性。

MUSA算子库生态会提供三大算子库：极致性能muDNN、易用MUTLASS、MUSA AI Tensor Engine开源推理算子库。

muDNN，是一款极致性能的开箱即用标准算子库，完整覆盖常见的前向和反向算子。其中最主要的特性是支持完整的XMMA，支持Tensor Core全精度及所有量化模式，以及常用的神经网络算子操作。

一般来说，矩阵乘的效率大部分可以做到90%以上，摩尔线程muDNN矩阵乘算子效率可以做到98%。Flash Attention算子因为多了softmax等操作，基于国际一流水平厂商的Flash Attention 3论文里提到的效率大约是75%，muDNN的Flash Attention可以做到95%。

影响FP8 GEMM算子效率的重要因素是scale模式，scale是为了避免精度损失做的一个精细化的缩放因子，常见的有Per-Tensor、Per-Block，『DeepSeek』 V3用的是Per-Block。

吴庆打了个比方，Per-Tensor scale是整个张量共用一个缩放因子，相当于一面墙刷一个颜色，很好刷；Per-Block scale则是每个小的矩阵块共用一个缩放因子，相当于一面墙有很多小方块，每个方块单独一个颜色，刷墙的复杂度要高很多，会比一个颜色刷一面墙效率低10%-20%。

摩尔线程通过软硬协同的深度算法优化、指令编排，做到了Per-Block跟Per-Tensor FP8 GEMM计算效率几乎相当，差距不到2%。

MUTLASS，是一个高性能的线性代数模板库，可极大降低在MUSA环境中自定义算子的开发工作量，相当于提供了一个可供二次开发的模板。

MUTLASS已在Github上开源，支持平湖架构所有特性，包括Warp-level MMA、WarpSquad-level MMA、TensorMemoryEngine、AsyncBarrier等原语全面支持，同时提供高性能矩阵乘、卷积算子实现，可在Kernel里调用模板库就可以进行二次开发，摩尔线程也提供Attention最优化的示例，给用户打样，可以参考提供的最佳实践，去开发自定义的各种Attention的变种。

MUSA AI Tensor Engine，是摩尔线程即将发布的面向『大语言模型』的开源推理算子库，可帮助开发者快速搭建自定义推理引擎。

MUSA AI Tensor Engine，是摩尔线程即将发布的面向『大语言模型』的开源推理算子库，可帮助开发者快速搭建自定义推理引擎。该算子库提供用户友好的Python API，进一步降低开发者使用门槛，无需花太多时间学习MUSA C，只要会Python就可以把MTX这个库用起来；未来会支持丰富的后端，包括模板库，对标PTX虚拟指令集去开发的极致算子库，也支持类Triton的DSL。

3、高性能集合通信库及通算并行，避免通信抢占计算核心资源

大模型分布式训练的主要瓶颈是通信。摩尔线程在MTT S5000上支持MTLINK 2.0，配备GPU异步通信引擎，实现了高性能通信技术与计算高度并行。

最近十几年，随着模型规模增加，分布式集群规模也在增加，通信瓶颈会越来越明显。『DeepSeek』 V3报告中呼吁硬件厂商提供的『芯片』能不能做一个单独的通信硬件来卸载通信，避免通信跟计算去抢SM计算单元。

平湖设计阶段远早于『DeepSeek』 V3发布的时间，彼时摩尔线程已洞察到行业痛点，并提供了解决方案——在GPU上增加了一个异步通信引擎。

MTT S5000『服务器』拓扑每节点有8张GPU，通过MTLINK 2.0全互连，每张GPU与其他7张GPU都有直连总线。

每个GPU上配置的异步通信引擎是原生支持丰富的reduce操作，支持常用的reduce操作有ADD、MIN、MAX（累加、最小值、最大值）等操作，支持Float、FP16、BF16等数据类型，可直接通过MTLink进行C2C跨系统的数据通信。

其ACE通过Zero Copy技术进一步提升性能。一般的集合通信会把数据buffer拷贝到通信buffer里，再去进行C2C通信。Zero Copy则避免了在本地上的D2D的拷贝，直接把数据buffer做跨卡通信。

摩尔线程在衡量集合通信库性能的时候主要是两大核心指标：通信延迟、通信带宽。

基于全互联（FC8）拓扑的高效通信算法，可大幅降低通信延迟。全互联拓扑中GPU两两互连，在All Reduce场景中可以把其他GPU的数据一次性拿过来，理论上FC8算法相比Ring算法，7步通信可变成1步完成。在单机8卡All Reduce延迟场景的实测也差不多，Ring算法大概是53us，用FC8算法可降低至7.8us，将近缩减至1/7，显著提升了模型推理性能。

带宽方面，Ring算法与FC8算法效率相当，以Ring算法为例，摩尔线程把FC8拆成了7个通信环，每个通信环结合通信Kernel的优化，基于MTLink2.0 + FC8拓扑，节点内充分利用全互联的拓扑优势，可做到单机8卡All Reduce带宽利用率接近85%，与国际第一的厂商在软件效率上对齐，实现高效的Scale-up通信。

高效Scale-out跨节点通信方面，摩尔线程结合通信库做了网卡拓扑感知与自适应优化，每个GPU都能在PCIe拓扑上找到延迟和带宽效率最高的网卡端口进行RDMA通信，还额外开发了一个插件Smart NIC Adaptor，在配置4张双口网卡时，可实现和8张单口网卡一样的RDMA通信效率。

经测试，其All Reduce带宽可以做到194GB/s，RDMA通信带宽利用率达到97%，而一般RDMA通信带宽利用率约在80%-85%。

除了延迟和带宽之外，摩尔线程还做了异步通信引擎的通信优化。

MPC是计算核心。传统做法是通信也走MPC，就要分走一部分的计算单元。ACE则可以把通信部分卸载到单独的通信引擎上，不跟MPC抢计算资源，同时在无数据依赖时完全做到overlap，通过优化，结合MT Transformer Engine，在Llama模型上端到端计算通信性能可提升10%左右。

三、基于FP8的国产万卡训练，摩尔线程软硬件如何撑起行业需求？

摩尔线程副总裁王华给基于FP8的国产万卡训练划了3个重点：

1、大模型训练需要更强大的智算集群；2、低精度可有效提升训练效率；3、可靠性对大规模训练至关重要。

大模型需要大集群已是行业共识，不必赘述。

用更低精度的数据类型进行训练，相当于实现了算力翻倍。精度降低一半，能带来的优势是算力翻倍，显存占用、显存带宽、传输带宽消耗减半。

但低精度替换只能部分进行，无法完全替代。一些精度敏感环节，如非线性函数/归一化操作，仍需保留高精度计算。

从技术演进来看，精度格式正沿着FP32→TF32→FP16/BF16→FP8的路径发展。近两年，FP8训练技术取得多项进展。

『DeepSeek』-V3使用了FP8混合精度训练，主要策略有：前向和后向传播的3次GEMM使用FP8，激活值的缓存和传输使用FP8，Embedding、激活函数等模块使用高精度浮点数，主权重、权重梯度、优化器状态使用高精度浮点数。

摩尔线程的全功能GPU，是率先支持FP8的国产GPU，对FP8的训练提供了软硬件支持，基于摩尔线程软件栈，成功复现了『DeepSeek』-V3满血版训练。

其软件栈开源了3个组件：

（1）提供MUSA后端加速支持的Torch-MUSA：PyTorch的MUSA插件，最新版本率先在国产GPU上实现了对FP8数据类型的完整支持。

（2）混合并行训练框架MT-MegatronLM：支持FP8混合精度训练、高性能muDNN库和MCCL通信库。

（3）MT-TransformerEngine：主要用于Transformer的高效训练和推理优化，支持FP8混合精度训练，通过算子融合、并行加速等技术提升训推效率。

经实验，基于摩尔线程KUAE集群，在Llama3 8B、Qwen、『DeepSeek』-V2 16B、『DeepSeek』-V3 30B上，采用FP8混合训练可以带来20%~30%的性能提升，且引入FP8前后loss曲线基本一致。在采用FP8训练方面，摩尔线程GPU计算卡与国际主流计算卡的精度对比基本吻合。

在Scaling Factor的选择上，摩尔线程也做了许多探索，例如：amax的统计信息表明，Per-Tensor的Scaling Factor适合采用Delayed Scaling策略，而Per-Block则适合采用JIT Scaling策略。

摩尔线程还用自家GPU计算卡做了Smooth SwiGLU论文的复现，发现通过Smooth SwiGLU可以有效降低outlier的影响。

此外，摩尔线程开源的模拟仿真器Simumax可用于大规模集群训练，支持多种并行策略、多种模型架构、各种优化策略以及并行策略、超参、优化策略的自动扫描。

最后，大规模集群训练的可靠性非常重要。

摩尔线程做了很多相关工作，进行全生命周期管理监控：

（1）训练检查（起飞、飞行、落地）：起飞检查是在训练开始前，对硬软件和通信的检查，自动替换故障节点；飞行检查中，发现训练亚健康问题；落地检查是停掉训练后，定位故障节点，提取故障上下文。

（2）慢节点探测：分布式训练中慢节点会拖慢整个训练的速度；起飞检查阶段节点两两配对，检查小负载的执行时间；训练阶段统计每个节点计算和通信执行的时间。

（3）容错训练：大规模训练场景使用大量节点，会导致训练故障率指数级升高；同步模式转成异步模式，单节点故障就不会影响整体训练；还有高效的故障发现与恢复机制。

结语：国产AI计算基础设施，已具备规模化、高效率、高可靠模型生产能力

摩尔线程以打造先进的“AI工厂”为目标，凭借全功能GPU的通用计算能力、创新的MUSA架构、优化的MUSA软件栈、自研的KUAE集群、零中断容错技术五大核心要素，构建起高效的“AI工厂”，为AI大模型训练提供了强大而可靠的基础设施支持。

“只有这样的组合，才能确保每一个环节都做到最好，100% X 100% X 100%，才能确保100%的成功率，也是业界最好的效率。”张建中说。

依托AI工厂，摩尔线程成功构建起覆盖”训练-推理-部署”全流程的高效体系。这标志着国产计算基础设施，已具备支撑AGI时代规模化、高效率、高可靠模型生产的关键能力。

从图形渲染基石到AI算力引擎，摩尔线程正以“KUAE+MUSA”为智算业务核心，推动全功能GPU驱动的AI技术在物理仿真、AIGC、科学计算、具身智能、智能体、医疗影像分析、工业大模型等关键领域的应用与部署。

摩尔线程技术分享日干货！打造“AI超级工厂”、原生支持FP8、『DeepSeek』 R1推理加速150%(摩尔线程企查查)

猜你喜欢

『张杰』说『谢娜』妈妈像赵雅芝(『张杰』说『谢娜』妈妈像赵雅芝是真的吗)

『高叶』，身材也很饱满有料，比例协调颜值高，大嫂的魅力挡不住啊(『高叶』的身材)

网警对一人工智能公司予以行政处罚未依法评估个人信息保护(人工智能对公安工作的影响)

近视眼手术有危险吗(近视手术有害处吗)

原代免疫细胞高通量筛选|脱靶效应检测服务|hERG离子通道筛选实验(免疫原性细胞)

摩尔线程技术分享日干货！打造“AI超级工厂”、原生支持FP8、『DeepSeek』 R1推理加速150%(摩尔线程 企查查)