芝能智芯出品
Broadcom推出的Tomahawk Ultra标志着以太网在高性能计算和人工智能集群互联领域的一次重要转向。
这款51.2Tbps的交换芯片并非追求最大吞吐,而是聚焦低延迟、小数据包处理、网络内计算与无损传输等核心特性,意在取代传统的InfiniBand与NVLink架构,为扩展以太网(Scale-Up Ethernet, SUE)打下技术基础。
Part 1
Tomahawk Ultra的技术核心:
对小包延迟与低损传输的极致追求
传统以太网交换机的发展路径一直偏向于追求大数据包下的高吞吐性能,但在HPC与AI集群互联中,这种思路遭遇瓶颈。
Tomahawk Ultra从一开始就逆势而行,设计目标是支持64字节小包情况下的51.2Tbps吞吐,并将延迟控制在250纳秒以内。这意味着在大量细粒度消息传输频繁的场景中,它比标准以太网交换芯片具备明显的延迟优势。
实现这一目标,Broadcom采用了多项关键技术:
◎ 优化以太网报头:传统以太网的报文头部占据较大比重,Tomahawk Ultra将其从46字节精简到10字节,在不违背标准协议的前提下,极大降低了控制开销。
这种做法尤其对小数据包通信场景显著提升了有效载荷比率,有助于通信带宽的真实利用率最大化。
◎ 链路层无损传输(LLR)与前向纠错(FEC):Tomahawk Ultra将错误检测前置到链路层,并通过FEC机制在该层完成错误恢复,从而避免更上层协议需要进行复杂的重传逻辑。
这种方式不仅缩短了错误处理路径,也提升了总体延迟表现。
◎ 基于信用的流控(CBFC)机制:不同于传统以太网的拥塞控制机制,Tomahawk Ultra采用一种“发送受限于接收端缓冲能力”的方法。当接收端具备接收能力时才释放“信用”信号给发送端。
这一设计有效避免了网络中因缓冲溢出带来的数据包丢失与拥塞,构建出更接近无损传输的交换网络基础。
◎ 网络内集合计算(INC)支持:类似于NVIDIA Quantum InfiniBand交换机所引入的网络内集合逻辑(In-Network Collective),Tomahawk Ultra也具备此类能力,可在交换层对多节点通信进行聚合、转发与简化。
这使得原本需要在节点CPU间通过多次点对点通信完成的集合操作(如AllReduce),可以在交换芯片层级完成,大大缩短了AI训练中的同步瓶颈时间。
这一系列优化不仅针对物理传输链路,还包含对交换层处理逻辑的全面重构,旨在让以太网脱离“大吞吐、弱实时”的传统认知,转而成为HPC与AI领域中一种具备实时性和计算协同性的底层通信平台。
Part 2
扩展以太网(SUE)的架构落地:
挑战InfiniBand与NVLink
Tomahawk Ultra的战略定位不仅是推出一款新的以太网交换芯片,更是通过“扩展以太网”(SUE)这个全新通信架构,挑战目前由NVIDIA等厂商主导的专有互联技术体系。
当前AI与HPC系统中广泛使用的NVLink、Quantum InfiniBand、甚至即将面世的UALink,均为非标准或半标准化技术,存在生态孤岛、互操作性差、定制成本高的问题。
在SUE架构下,Broadcom设计了两个层级:
◎ SUE(Scale-Up Ethernet)完整版本:支持全套网络内计算、信用流控、报头压缩等高级特性,构建面向超大规模GPU/AI集群的交换骨干。
◎ SUE-Lite版本:为追求部分特性但资源受限的场景提供更轻量级选项,利于更广泛的以太网场景渗透。
在部署层面,Tomahawk Ultra可与Broadcom现有的Tomahawk 5保持引脚兼容,并且已经与Tomahawk 6系列(102.4T版本)并行上市。
后者继续在“Scale-Out Ethernet”方向发力,满足传统超大数据中心对带宽的极致要求。而Tomahawk Ultra则转向“Scale-Up”方向,满足GPU之间、XPU之间的紧密互联需求。这种双轮战略将Broadcom推向了从传统数据中心向AI-native网络转型的前沿。
在接口协议标准方面,Tomahawk Ultra仍然保留完整的以太网兼容性,意味着其可运行在标准化操作系统、驱动栈以及TCP/IP协议之上,不需要像InfiniBand或NVLink那样依赖定制系统。对AI系统开发者来说,这提供了更高的可接入性与更广的硬件生态选择。
Broadcom在数据包路径方面做了进一步硬化优化,使得XPU端可以更快地“发包”,交换芯片可以几乎零等待地中转、聚合、再发出数据,整体链路延迟保持在250ns水平。这一表现已经接近InfiniBand中的最佳配置,而成本与部署难度则明显低于后者。
小结
Tomahawk Ultra代表了Broadcom对以太网架构理解的深化,不以吞吐量最大化为第一目标,而是围绕小包处理、低延迟通信、网络内计算、链路层可靠性与无损机制构建出一条通向AI与HPC集群的新路径。
相比专有互联协议,以太网具备通用性、兼容性与可维护性的天然优势,而Tomahawk Ultra正是试图把以太网从“适合大数据流的通用网络”,演进为“支持小数据包、低延迟、高协同的计算级通信结构”。