Hammerspace使用服务器本地NVMe磁盘打造全局共享存储，在MLPerf1.0基准中创造新纪录#科技#MLPerf#全局#Linux#Tier#测试

MLCommons组织于2024年9月发布MLPerf1.0基准，Hammerspace使用该基准来验证新发布的Tier 0架构性能与优势。本次测试是在安装内置ScaleFlux NVMe磁盘（未使用其计算存储功能）的Supermicro服务器上运行。用Hammerspace Tier 0基准结果与其他厂商早前提交的基准结果（MLCommons data as of: 10/25/2024）进行比较。

同时，为突出Tier 0的性能优势，本次使用两个测试场景进行对比。该测试在开放分组（Open Division）进行，尚未经过MLCommons组织审查，该结果将在下一个审查周期向MLCommons组织提交。

第一个测试场景(2a)：

使用4台Linux存储服务器(下图Linux Storage Servers)的典型Hypersacle NAS架构配置。使用此配置完成两次测试，一次是客户端使用200GbE连接，另一次是客户端使用400GbE连接。需要强调的是，Linux存储服务器只是用于导出NFSv3的标准Linux服务器，并没有安装任何第三方软件。

所有客户端系统都使用标准Linux的pNFSv4.2挂载由Hammerspace提供的NFS共享，这是Hypersacle NAS架构的体现。与Linux Storage Server一样，客户端是标准Linux服务器。与其他厂商的并行文件系统不同，Hammerspace不需要在客户端上安装任何特殊软件即可实现峰值性能。

客户端和存储服务器分别使用2x200GbE或2x400GbE连接到网络。Anvil节点分别通过2x100GbE连接。由于Anvil仅参与元数据通信（没有数据流过它们），因此100GbE就足够了。

上图为使用外部共享存储方式测试（非Tier 0技术）

第二个测试场景(2b)：

用于演示Tier 0技术的性能，两个互为冗余的Anvil元数据服务器负责元数据操作。此测试中的客户端有两个角色：运行基准测试代码和扮演存储服务器，测试数据存储在内置的ScaleFlux CSD5000 NVMe磁盘。此测试中未使用ScaleFlux磁盘的计算存储功能。

需要强调的是，扮演双重角色的客户端只是一台没有安装任何第三方软件的标准Linux服务器。内部磁盘通过NFSv3导出并使用pNFSv4.2挂载。虽然文件系统元数据路径需要通过网络到达Anvils元数据服务器，但数据路径完全保留在客户端主机内，使用Tier 0与NFS旁路协议（LOCALIO）为客户端提供对本地文件系统的直接访问。这种直接数据路径可提高吞吐量并减少延迟。

客户端服务器使用2x400GbE接口连接到网络。每个Anvil节点都通过2个100GbE链路连接。由于Anvil仅参与元数据通信（没有数据流经它们），因此 100GbE就足够了。要了解更多Tier 0技术，请访问“利用GPU服务器本地磁盘打造“第0层”受保护可流动存储，实现100倍Checkpoint性能提升”

上图为使用服务器内置NVMe磁盘方式测试（Tier 0技术）

硬件配置：

软件配置：

上述硬件均使用相同软件，如下：

Anvil节点运行Hammerspace v5.1；Hammerspace将Linux操作系统、应用程序和所有依赖项打包为单个安装包。

Linux存储服务器与客户端

Linux存储服务器运行Rocky Linux v9.4，无需任何附加补丁和软件。

MLPerf基准测试代码

使用修改后的MLPerf基准测试代码，使得可以绕过客户端页面缓存。这对于Tier 0不是必需的，它代表了额外的调整以提高性能。

测试结果：

1个客户端（1U空间）：

支持33个模拟H100 GPU，91.8GB/s带宽

3个客户端（3U空间）：

支持99个模拟H100 GPU，275.5GB/s带宽

Hammerspace仅使用1个客户端，性能便超过了18个客户端的Lustre存储系统，如果双方使用相同数量客户端时（均为18个），Hammerspace性能是Lustre的20倍！

关键点：

Tier 0技术消除网络带宽限制

众所周知，高性能存储对于保持GPU处于高利用率是必不可少，测试结果也表明，高速网络至关重要：客户端分别使用2x100GbE和2x400GbE连接，GPU支持数量从7个增加到25个（吞吐量也相应增加），很明显 100GbE接口是一个严重的瓶颈。

比高速网络更好的唯一方法就是没有网络。消除网络并使用GPU本地存储提供最佳性能。如图所示，使用Tier 0本地存储比通过2x400GbE访问外部共享存储时多32%的模拟H100 GPU数量，总吞吐量提高28%。

性能可线性扩展

Tier 0使GPU服务器能够处理本地存储的数据。Hammerspace数据编排用于将数据传送到Tier 0存储，并使该数据得到保护（备份），并将检查点文件和计算结果卸载到其他存储层（对象存储或磁带存储）。由于处理是在本地进行，因此随着更多具有Tier 0存储的GPU服务器添加到集群中，性能会线性扩展。

Tier 0技术对于降低资本支出和运营支出有着极大的优势

借助Tier 0，Hammerspace将现有GPU服务器本地NVMe磁盘纳入全局共享文件系统，消除了原本无法使用的障碍。有着众多的优势：

节省外部存储投资：使用本地NVMe存储可减少所需的外部高性能存储以及相关的网络、电源和冷却费用。
节省系统上线时间：Hammerspace软件可在几分钟内使用现有存储，从而节省了安装和配置外部存储和网络硬件所需的时间。
CPU效率：与传统并行文件系统需要安装私有客户端而导致消耗大量主机CPU资源不同，Tier 0运行时几乎不需要任何CPU开销。这为运行业务工作负载保留了更多服务器资源。
提高GPU效率：Tier 0将检查点持续时间从几分钟缩短到几秒钟。这释放了大量额外的GPU计算能力，无需投资额外硬件即可更快地完成作业。检查点用例的完整分析在此处：利用GPU服务器本地磁盘打造“第0层”受保护可流动存储，实现100倍Checkpoint性能提升

Hammerspace使用服务器本地NVMe磁盘打造全局共享存储，在MLPerf1.0基准中创造新纪录

猜你喜欢

摄影圈私藏名单公开！2025年6台最佳相机排行榜：平价到高端，无人机360运动全都有(摄影圈私藏名片违法吗)

张歆艺晒儿子旅行照，6岁四坨暴晒黑成炭，袁弘打趣称弃子保母(张歆艺晒儿子生日照片)

gost认证 GOST标准关系 GOST Certification GOST Standards Relationship(gost-uz认证)

跟着ins时尚博主Sonia Dhi学搭配，基础款也能穿出惊艳感(ins值得关注的时尚博主)

维峰电子：公司高频高速连接器有fakra、mini fakra以及以太网等射频连接器布局(维峰电子公司面试邀请)