今天分享的是:2025年扁平化智算网络架构研究报告
报告共计:48页
智算网络迎来扁平化革命:十万卡集群落地提速,全光互联成新赛道
随着大模型参数规模突破万亿、训练集群GPU数量飙升至十万级,智算网络正迎来架构升级的关键转折点。开放『数据中心』委员会(ODCC)最新发布的《扁平化智算网络架构研究报告》显示,传统多层级网络架构已难以应对大模型训练与推理的高带宽、低时延需求,扁平化成为核心优化方向,而全光互联、多网融合等技术则为未来智算基础设施建设提供了新路径。
大模型的“算力饥渴”正持续重塑智算网络需求。以开源的LLAMA-3.1模型为例,其训练需动用1.6万块GPU,而下一代模型已进入10万块GPU规模。这种爆发式增长背后,是模型并行技术的复杂演进——张量并行、专家并行、流水线并行等多种策略叠加,使得XPU(AI加速器)间的数据交互量呈指数级上升。报告数据显示,在采用混合专家(MoE)架构的稀疏模型中,专家并行(EP)产生的通信量占比超过97%,远超其他并行技术,形成了“Any2Any”的随机通信特征,这对网络的带宽均匀性和低延迟提出了极致要求。
推理场景的技术革新进一步加剧了网络压力。近年来兴起的“PD分离”(预填充与解码分离)和“AE分离”(注意力计算与专家执行分离)部署策略,虽能大幅提升硬件利用率,却也带来了新的网络负载。以PD分离为例,Prefill阶段生成的KV Cache数据需快速传输至Decode节点,实测显示该技术可使推理吞吐量(TPS)提升36%,但新增的跨节点数据交互对网络带宽的需求较传统部署方式提升数倍。
当前智算网络主要分为三大类,不同类型面临差异化挑战。面向外部数据交互的VPC网络(前端网络)虽技术成熟,但需适配智算业务的Agent化趋势,提升推理请求、检索增强数据等的传输效率;用于多XPU『服务器』互联的SO网络(Scale-Out网络),核心矛盾是集群规模扩张与组网成本的平衡——五年间智算集群规模增长约690倍,万卡集群已普遍应用,十万卡成为下一个目标,而传统胖树架构每增加一层,端口与光模块成本便会翻倍;专注于XPU间超高速互连的SU网络(Scale-Up网络),则受限于模型稀疏化趋势,需突破“内存墙”形成虚拟大XPU,1024卡规模的低成本互连已成为行业短期目标。
在现有组网架构中,胖树拓扑仍是主流选择,但不同厂商的优化路径差异显著。Meta采用“电接入+框式交换机”方案,通过短距离电缆提升链路可靠性,L2交换机采用7:1收敛比适配自有业务负载;阿里则选择“光接入+盒式交换机”的双平面设计,单『服务器』8个400G网卡分属两个网络平面,实现故障冗余。两种方案各有优劣:电接入可靠性高(电缆FIT值仅为光模块的1%),但传输距离有限(448G速率下仅1米);光接入覆盖范围广,却面临成本与故障风险上升的问题。
Dragonfly拓扑作为超算领域的成熟方案,虽在智算场景尚未商用,但其通过交换机直连替代层级堆叠的设计,可在直径为3的拓扑上实现O(r⁴)的组网规模(r为交换机端口数),为大规模SO网络提供了低成本选项。不过该拓扑对流量均衡算法要求极高,面对局部热点流量时性能易受影响,而改进后的Dragonfly+拓扑通过组内胖树设计,虽解决了局部通信性能问题,却牺牲了部分组网规模。
扁平化优化正从技术探索走向落地实践。对于SO网络,多平面胖树拓扑成为十万卡集群的核心方案——通过将交换机端口速率降低(如51.2T交换机采用100G端口),扇出数可从64提升至512,结合四平面设计,单个网卡可通过多端口同时利用多个网络平面带宽,实现两层架构下128K(12.8万)卡的集群组网。该方案需突破端口拆分、多平面『负载均衡』等技术瓶颈,华为、『英伟达』等厂商推出的多『芯片』盒子,可通过内置线路交织简化光纤布线,降低运维难度。
SU网络的扁平化则聚焦全光互联技术。传统电互联在64卡以上规模时,需引入L2交换机导致成本飙升——以NVL576超节点为例,跨机柜光互联的额外成本超过560万美元💵,每GPU需分摊9700美元💵。为此,ODCC启动的ETH-X Ultra项目提出单级光互联架构,将GPU通过光拉远直接连接至外部交换机,在256/512卡规模下,每GPU的网络成本仅较64卡电互联方案小幅增加,同时实现计算与网络解耦,『服务器』可保持标准形态。不过该方案需解决光互连的可靠性问题(光模块FIT值为电缆的100倍),并通过NPO(近封装光互联)技术将时延从110ns降至20ns,功耗从20pj/bit降至7pj/bit。
未来智算网络将呈现两大发展趋势。一方面,低直径拓扑创新持续推进,Balanced Sparse Tree(BST)和Slim Fly等基于图论的拓扑结构,可在相同硬件条件下实现更大规模组网——两层BST架构采用稀疏连接,组网规模较传统胖树提升6倍以上;Slim Fly拓扑则能在成本降低35%的同时,达到与胖树相当的“无阻塞”通信性能,不过其复杂的布线与算法适配仍需完善。另一方面,多网融合成为降本关键方向,当前OUV(RDMA、LD/ST、TCP)三类网络因通信需求差异需独立部署,未来通过协议与物理层面的融合,有望实现“一网承载多业务”,进一步降低智算中心的TCO(总拥有成本)。
报告强调,扁平化智算网络的落地并非单一技术突破,而是需要『芯片』商、设备商与用户的深度协同。从端侧网卡的X1模式MAC支持,到网侧交换机的高扇出能力,再到端网协同的故障隔离机制,每个环节都需产业链上下游联合攻坚。随着技术的持续迭代,智算网络将逐步实现“规模与成本的平衡、性能与可靠性的兼顾”,为通用人工智能的发展奠定坚实的基础设施基础。
以下为报告节选内容
报告共计: 48页
中小未来圈,你需要的资料,我这里都有!