编辑 | 刘杨楠
人工智能对计算的需求,正以一种近乎贪婪的速度膨胀。几年前我们还在惊叹于“ChatGPT”带来所谓的奇点时刻;如今,智能体(Agentic AI)、物理 AI、空间智能等新概念已初现端倪,将算力竞赛推向了从量变到质变的拐点。
当成千上万的芯片被连接在一起,我们面对的已不再是简单的加法。通信的瓶颈、效率的衰减、稳定性的挑战……任何一块短板都可能成为阻碍 AI 前行的巨大障碍。行业似乎陷入了一种“暴力美学”的迷思:堆砌更多的硬件,就能解决一切问题吗?
历史或许早已写下答案。
全功能 GPU 的发展本身就是一部从专用走向通用的演进史。计算单元从最初只能加速单一任务,演进到能够灵活处理图形、计算、AI 等多模态任务的全功能 GPU,每一次性能飞跃都源于系统层面的重构,而非将各种专用 GPU 简单“拼接”。因此,面向未来 3-5 年的 AI 基础设施,不再满足于硬件的线性叠加,而需要一场系统级创新。
在 2025 WAIC 现场,我们试图寻找一个可能的答案,摩尔线程给出的答案值得关注。
就在 WAIC 前夕,摩尔线程举办了一场技术分享会。他们提出了一个颇具启发性的基础设施形态——“AI 工厂”。它并非指代一堆冰冷的机器,而是一个被精心设计的、用以高效稳定地“生产”智能的超级系统。这一理念,正试图为行业的集体困惑提供一个系统性的解法。
1解构 AI 工厂的“五要素”
构建一座高效的“AI 工厂”,是一项系统级工程,需要层层解构,从最底层的单颗芯片出发,逐级向上,直至整个集群的稳定运行。每一步都缺一不可,最终呈现乘法效应。
摩尔线程为此提出了一则效率公式,同样可以作为构建这座“AI 工厂”的指导蓝图:
AI 工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性
这五个要素,构成了一个从点到面、从内到外的逻辑递进,展示了系统性工程创新的完整路径。
首先,系统创新的起点,就是计算单元的通用性。
未来的 AI 应用远不止于自然语言或图像,具身智能、物理 AI、世界模型等前沿方向,对算力的需求是多维度的。它们不仅需要强大的 AI 计算,还需要图形渲染来模拟环境、物理仿真来与现实世界交互、高清视频编解码来处理视觉信息。
因此,真正的“全功能 GPU”,必须从“功能引擎”和“计算精度”两个维度来考量。摩尔线程的 GPU 单芯片设计同时集成了 AI 计算加速、图形渲染、物理仿真和科学计算及超高清视频编解码能力,正是为了应对这种复杂需求。
而在精度上,其支持从 FP64 到 INT8 的完整谱系,尤其是对 FP8 混合精度的支持,被认为是其关键布局之一。这背后,是其自研的 MUSA(元计算统一系统架构)在提供支撑。
MUSA 架构通过硬件资源池化及动态资源调度技术,试图突破传统 GPU 功能单一的限制。更重要的是,为了充分挖掘单颗芯片的性能,MUSA 在芯片内部解决了计算、内存和通信三大核心问题。
在计算层面,摩尔线程的 AI 加速系统(TCE/TME)全面支持 INT8/FP8/FP16/BF16/TF32 等多种混合精度计算。
值得注意的是,摩尔线程是国内首批实现 FP8 算力量产的 GPU 厂商。去年,其成功复现 DeepSeek-V3 混合精度训练的实践证明,摩尔线程 FP8 混合精度能把 671B 大模型的显存占用砍掉 40%,训练时间再省 20-30%,而且 loss 曲线几乎不变。
摩尔线程的 FP8 技术通过快速格式转换、动态范围智能适配和高精度累加器等设计,在保证计算精度的同时,可将 Transformer 计算性能提升约 30%。这相当于在国内将一条被验证的技术路径,修成了更易于通行的“高速公路”。
内存系统方面,摩尔线程则通过多精度近存规约引擎、低延迟 Scale-Up、通算并行资源隔离等技术,节省了 50% 的带宽,降低了 60% 的延迟。
在通信层面,传统架构中,计算单元往往需要分出部分资源处理通信任务,这是一种无形的“算力税”。摩尔线程独创的 ACE(异步通信引擎)正是为了解决这个问题,通过将通信任务卸载到专用引擎,可减少 15% 的计算资源损耗。
加上其 MTLink 2.0 互联技术,为单颗芯片的性能释放和未来的大规模扩展奠定了基础。
当多颗强大的芯片集成于一个服务器节点,如何让它们高效协同,而非相互掣肘?答案在于软件。MUSA 全栈系统软件扮演了“指挥官”的角色,从多个维度释放硬件潜能。
其中,MUSA 驱动和运行时库通过任务调度优化,将其核函数启动时间缩短至业界水平的 50%。
在算子库层面,其 GEMM 算子算力利用率达到 98%,Flash Attention 算子利用率突破 95%,这些数字背后是极致的算法与硬件协同优化。
同时,在当前大模型分布式训练过程中,主要瓶颈是通信。DeepSeek V3 报告中就曾呼吁,硬件厂商提供的芯片是否能做一个单独的通信硬件来卸载通信,避免通信跟计算去抢 SM 计算单元。对此,摩尔线程的通信库 MCCL 则实现了 RDMA 网络 97% 的带宽利用率。
最后,对 Triton 等主流框架的兼容,降低了开发者的迁移成本,使得生态融合更为顺畅。
当单个节点扩展到数千节点的集群时,“通信墙”和管理复杂性就成为主要挑战。集群的高性能和高稳定性,便像一枚硬币的两面,共同决定了“AI 工厂”能否持续“量产”先进模型。
在集群效率方面,摩尔线程自研的 KUAE 计算集群,通过整合数据、模型、张量、流水线和专家并行(5D 并行)技术,试图化解大规模训练的复杂性。
其 Simumax 工具,能在训练开始前自动搜索最优并行策略,如同在建桥前进行精密的风洞测试,精准模拟 FP8 混合精度训练与算子融合,为 DeepSeek 等模型缩短训练周期提供科学依据。
而针对大模型训练中频繁的断点续训问题,其 CheckPoint 加速方案利用 RDMA 技术,将百 GB 级备份恢复时间从数分钟压缩至 1 秒,提升 GPU 的有效利用时间。
在集群稳定性方面,摩尔线程提出的“零中断容错技术”则更具颠覆性。
传统模式下,单点故障可能导致整个训练任务中断。而该技术在故障发生时仅隔离受影响的节点组,其余节点继续训练,备机无缝接入。
这一方案使 KUAE 集群有效训练时间占比超过 99%,为长周期、大规模的训练任务提供了稳定保障。
通过这五步递进软硬件的深度协同,摩尔线程将全功能 GPU 通用加速计算的性能潜力,转化为工程级的训练效率与可靠性保障,最大化释放到节点、集群乃至万卡级“AI 工厂”,并在每一步用系统级设计消除传统扩展瓶颈。
2既要“摘月亮”,也要“捡六便士”
那么,这座精心设计的“AI 工厂”究竟能带来什么?
最直接的影响,是为当前相对混乱的算力建设现状,梳理出一条清晰的主线:跳出对“万卡”“千 P”等参数的盲目崇拜,回归到对通用性、效率、稳定性协同需求的本质,并用系统性设计去实现它。
在现实应用中,这座“工厂”已经开始生产智能。此次 WAIC 展览上,在大模型训练和推理、智能制造、物理仿真等领域,我们看到了摩尔线程与合作伙伴落地的多个案例。
例如,在大模型训练方面,KUAE2 智算集群支持最高 10240 颗 GPU 并行,FP8 混合精度下 GEMM 利用率与 BF16 精度接近,训练性能保持行业主流水平。
在大模型推理方面,升级后的 GPU 在计算、通信、访存方面同步优化,运行 671B 参数的 DeepSeek R1 推理时单路解码速度约 100 token/s。
在智能制造领域,摩尔线程与雪浪云联合推出面向装备制造的图零大模型及相关智能体,覆盖工艺、生产和运维环节,形成从底层算力到上层应用的国产化技术路径。
在物理仿真领域,硒钼·秋月白 AI 这一 AI for Science 大模型平台面向电气工程、流体力学等场景,集成任务规划、多模态数据分析及物理反演功能,可在全功能 GPU 支持下将仿真效率提升百倍并保持精度。
这些都是企业降本增效、加速核心科技国产化进程必须捡起的“六便士”。
但“AI 工厂”的价值远不止于此。对于 AGI 以及人机共存的未来畅想,是牌桌上所有玩家心中共同的“月亮”。
在具身智能、生命科学等前沿领域,一个通用、高效、稳定的算力底座,是探索从虚拟走向现实、从数字走向生命的关键。这些探索性应用,正是“AI 工厂”最具想象力的产出。
例如,在具身智能领域,摩尔线程已经联合合作伙伴推出具身智能高性能算力扩展模块,基于 MUSA 架构的扩展模块兼容 ROS 等系统,搭载低功耗 AI SoC,支持本地运行 DeepSeek 等模型,适配机器人、无人平台。
在关乎所有人类命运的生命科学领域,摩尔线程则联合国内顶尖科研机构,基于国产 SPONGE、DSDP 及全功能 GPU,运行分子动力学、分子对接及 AlphaFold 等模型,实现计算与 AI 协同。
总而言之,摩尔线程提出的“AI 工厂”理念,不仅能很好地解决当下算力痛点,而且长期来看,其更可贵之处在于提供了一种系统性的思维方式。
它提醒我们,想要抵达 AGI 的终点,需要的不仅是更强大的“肌肉”(硬件),更是更智慧的“大脑”(系统设计)。这或许是在当前算力竞赛的迷雾中,一个值得行业深入思考和借鉴的方向。