MLCommons组织于2024年9月发布MLPerf1.0基准,Hammerspace使用该基准来验证新发布的Tier 0架构性能与优势。本次测试是在安装内置ScaleFlux NVMe磁盘(未使用其计算存储功能)的Supermicro服务器上运行。用Hammerspace Tier 0基准结果与其他厂商早前提交的基准结果(MLCommons data as of: 10/25/2024)进行比较。
同时,为突出Tier 0的性能优势,本次使用两个测试场景进行对比。该测试在开放分组(Open Division)进行,尚未经过MLCommons组织审查,该结果将在下一个审查周期向MLCommons组织提交。
第一个测试场景(2a):
使用4台Linux存储服务器(下图Linux Storage Servers)的典型Hypersacle NAS架构配置。使用此配置完成两次测试,一次是客户端使用200GbE连接,另一次是客户端使用400GbE连接。需要强调的是,Linux存储服务器只是用于导出NFSv3的标准Linux服务器,并没有安装任何第三方软件。
所有客户端系统都使用标准Linux的pNFSv4.2挂载由Hammerspace提供的NFS共享,这是Hypersacle NAS架构的体现。与Linux Storage Server一样,客户端是标准Linux服务器。与其他厂商的并行文件系统不同,Hammerspace不需要在客户端上安装任何特殊软件即可实现峰值性能。
客户端和存储服务器分别使用2x200GbE或2x400GbE连接到网络。Anvil节点分别通过2x100GbE连接。由于Anvil仅参与元数据通信(没有数据流过它们),因此100GbE就足够了。
上图为使用外部共享存储方式测试(非Tier 0技术)
第二个测试场景(2b):
用于演示Tier 0技术的性能,两个互为冗余的Anvil元数据服务器负责元数据操作。此测试中的客户端有两个角色:运行基准测试代码和扮演存储服务器,测试数据存储在内置的ScaleFlux CSD5000 NVMe磁盘。此测试中未使用ScaleFlux磁盘的计算存储功能。
需要强调的是,扮演双重角色的客户端只是一台没有安装任何第三方软件的标准Linux服务器。内部磁盘通过NFSv3导出并使用pNFSv4.2挂载。虽然文件系统元数据路径需要通过网络到达Anvils元数据服务器,但数据路径完全保留在客户端主机内,使用Tier 0与NFS旁路协议(LOCALIO)为客户端提供对本地文件系统的直接访问。这种直接数据路径可提高吞吐量并减少延迟。
客户端服务器使用2x400GbE接口连接到网络。每个Anvil节点都通过2个100GbE链路连接。由于Anvil仅参与元数据通信(没有数据流经它们),因此 100GbE就足够了。要了解更多Tier 0技术,请访问“利用GPU服务器本地磁盘打造“第0层”受保护可流动存储,实现100倍Checkpoint性能提升”
上图为使用服务器内置NVMe磁盘方式测试(Tier 0技术)
硬件配置:
软件配置:
上述硬件均使用相同软件,如下:
Anvil节点运行Hammerspace v5.1;Hammerspace将Linux操作系统、应用程序和所有依赖项打包为单个安装包。
Linux存储服务器与客户端
Linux存储服务器运行Rocky Linux v9.4,无需任何附加补丁和软件。
MLPerf基准测试代码
使用修改后的MLPerf基准测试代码,使得可以绕过客户端页面缓存。这对于Tier 0不是必需的,它代表了额外的调整以提高性能。
测试结果:
1个客户端(1U空间) :
支持33个模拟H100 GPU,91.8GB/s带宽
3个客户端(3U空间):
支持99个模拟H100 GPU,275.5GB/s带宽
Hammerspace仅使用1个客户端,性能便超过了18个客户端的Lustre存储系统,如果双方使用相同数量客户端时(均为18个),Hammerspace性能是Lustre的20倍!
关键点:
Tier 0技术消除网络带宽限制
众所周知,高性能存储对于保持GPU处于高利用率是必不可少,测试结果也表明,高速网络至关重要:客户端分别使用2x100GbE和2x400GbE连接,GPU支持数量从7个增加到25个(吞吐量也相应增加),很明显 100GbE接口是一个严重的瓶颈。
比高速网络更好的唯一方法就是没有网络。消除网络并使用GPU本地存储提供最佳性能。如图所示,使用Tier 0本地存储比通过2x400GbE访问外部共享存储时多32%的模拟H100 GPU数量,总吞吐量提高28%。
性能可线性扩展
Tier 0使GPU服务器能够处理本地存储的数据。Hammerspace数据编排用于将数据传送到Tier 0存储,并使该数据得到保护(备份),并将检查点文件和计算结果卸载到其他存储层(对象存储或磁带存储)。由于处理是在本地进行,因此随着更多具有Tier 0存储的GPU服务器添加到集群中,性能会线性扩展。
Tier 0技术对于降低资本支出和运营支出有着极大的优势
借助Tier 0,Hammerspace将现有GPU服务器本地NVMe磁盘纳入全局共享文件系统,消除了原本无法使用的障碍。有着众多的优势:
- 节省外部存储投资:使用本地NVMe存储可减少所需的外部高性能存储以及相关的网络、电源和冷却费用。
- 节省系统上线时间:Hammerspace软件可在几分钟内使用现有存储,从而节省了安装和配置外部存储和网络硬件所需的时间。
- CPU效率:与传统并行文件系统需要安装私有客户端而导致消耗大量主机CPU资源不同,Tier 0运行时几乎不需要任何CPU开销。这为运行业务工作负载保留了更多服务器资源。
- 提高GPU效率:Tier 0将检查点持续时间从几分钟缩短到几秒钟。这释放了大量额外的GPU计算能力,无需投资额外硬件即可更快地完成作业。检查点用例的完整分析在此处:利用GPU服务器本地磁盘打造“第0层”受保护可流动存储,实现100倍Checkpoint性能提升