Hammerspace使用『服务器』本地NVMe磁盘打造全局共享存储,在MLPerf1.0基准中创造新纪录

MLCommons组织于2024年9月发布MLPerf1.0基准,Hammerspace使用该基准来验证新发布的Tier 0架构性能与优势。本次测试是在安装内置ScaleFlux NVMe磁盘(未使用其计算存储功能)的Supermicro『服务器』上运行。用Hammerspace Tier 0基准结果与其他厂商早前提交的基准结果(MLCommons data as of: 10/25/2024)进行比较。

同时,为突出Tier 0的性能优势,本次使用两个测试场景进行对比。该测试在开放分组(Open Division)进行,尚未经过MLCommons组织审查,该结果将在下一个审查周期向MLCommons组织提交。

第一个测试场景(2a):

使用4台Linux存储『服务器』(下图Linux Storage Servers)的典型Hypersacle NAS架构配置。使用此配置完成两次测试,一次是客户端使用200GbE连接,另一次是客户端使用400GbE连接。需要强调的是,Linux存储『服务器』只是用于导出NFSv3的标准Linux『服务器』,并没有安装任何第三方软件。

所有客户端系统都使用标准Linux的pNFSv4.2挂载由Hammerspace提供的NFS共享,这是Hypersacle NAS架构的体现。与Linux Storage Server一样,客户端是标准Linux『服务器』。与其他厂商的并行文件系统不同,Hammerspace不需要在客户端上安装任何特殊软件即可实现峰值性能。

客户端和存储『服务器』分别使用2x200GbE或2x400GbE连接到网络。Anvil节点分别通过2x100GbE连接。由于Anvil仅参与元数据通信(没有数据流过它们),因此100GbE就足够了。

上图为使用外部共享存储方式测试(非Tier 0技术)

第二个测试场景(2b):

用于演示Tier 0技术的性能,两个互为冗余的Anvil元数据『服务器』负责元数据操作。此测试中的客户端有两个角色:运行基准测试代码和扮演存储『服务器』,测试数据存储在内置的ScaleFlux CSD5000 NVMe磁盘。此测试中未使用ScaleFlux磁盘的计算存储功能。

需要强调的是,扮演双重角色的客户端只是一台没有安装任何第三方软件的标准Linux『服务器』。内部磁盘通过NFSv3导出并使用pNFSv4.2挂载。虽然文件系统元数据路径需要通过网络到达Anvils元数据『服务器』,但数据路径完全保留在客户端主机内,使用Tier 0与NFS旁路协议(LOCALIO)为客户端提供对本地文件系统的直接访问。这种直接数据路径可提高吞吐量并减少延迟。

客户端『服务器』使用2x400GbE接口连接到网络。每个Anvil节点都通过2个100GbE链路连接。由于Anvil仅参与元数据通信(没有数据流经它们),因此 100GbE就足够了。要了解更多Tier 0技术,请访问“利用GPU『服务器』本地磁盘打造“第0层”受保护可流动存储,实现100倍Checkpoint性能提升”

上图为使用『服务器』内置NVMe磁盘方式测试(Tier 0技术)

硬件配置:

软件配置:

上述硬件均使用相同软件,如下:

Anvil节点运行Hammerspace v5.1;Hammerspace将Linux操作系统、应用程序和所有依赖项打包为单个安装包。

Linux存储『服务器』与客户端

Linux存储『服务器』运行Rocky Linux v9.4,无需任何附加补丁和软件。

MLPerf基准测试代码

使用修改后的MLPerf基准测试代码,使得可以绕过客户端页面缓存。这对于Tier 0不是必需的,它代表了额外的调整以提高性能。

测试结果:

1个客户端(1U空间) :

支持33个模拟H100 GPU,91.8GB/s带宽

3个客户端(3U空间):

支持99个模拟H100 GPU,275.5GB/s带宽

Hammerspace仅使用1个客户端,性能便超过了18个客户端的Lustre存储系统,如果双方使用相同数量客户端时(均为18个),Hammerspace性能是Lustre的20倍!

关键点:

Tier 0技术消除网络带宽限制

众所周知,高性能存储对于保持GPU处于高利用率是必不可少,测试结果也表明,高速网络至关重要:客户端分别使用2x100GbE和2x400GbE连接,GPU支持数量从7个增加到25个(吞吐量也相应增加),很明显 100GbE接口是一个严重的瓶颈。

比高速网络更好的唯一方法就是没有网络。消除网络并使用GPU本地存储提供最佳性能。如图所示,使用Tier 0本地存储比通过2x400GbE访问外部共享存储时多32%的模拟H100 GPU数量,总吞吐量提高28%。

性能可线性扩展

Tier 0使GPU『服务器』能够处理本地存储的数据。Hammerspace数据编排用于将数据传送到Tier 0存储,并使该数据得到保护(备份),并将检查点文件和计算结果卸载到其他存储层(对象存储或磁带存储)。由于处理是在本地进行,因此随着更多具有Tier 0存储的GPU『服务器』添加到集群中,性能会线性扩展。

Tier 0技术对于降低资本支出和运营支出有着极大的优势

借助Tier 0,Hammerspace将现有GPU『服务器』本地NVMe磁盘纳入全局共享文件系统,消除了原本无法使用的障碍。有着众多的优势:

  • 节省外部存储投资:使用本地NVMe存储可减少所需的外部高性能存储以及相关的网络、电源和冷却费用。
  • 节省系统上线时间:Hammerspace软件可在几分钟内使用现有存储,从而节省了安装和配置外部存储和网络硬件所需的时间。
  • CPU效率:与传统并行文件系统需要安装私有客户端而导致消耗大量主机CPU资源不同,Tier 0运行时几乎不需要任何CPU开销。这为运行业务工作负载保留了更多『服务器』资源。
  • 提高GPU效率:Tier 0将检查点持续时间从几分钟缩短到几秒钟。这释放了大量额外的GPU计算能力,无需投资额外硬件即可更快地完成作业。检查点用例的完整分析在此处:利用GPU『服务器』本地磁盘打造“第0层”受保护可流动存储,实现100倍Checkpoint性能提升

特别声明:[Hammerspace使用『服务器』本地NVMe磁盘打造全局共享存储,在MLPerf1.0基准中创造新纪录] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

从预警到康复 多项应急医学领域最新科研成就亮相

今天(12日),国家应急医学研究中心和应急管理部发布了我国应急医学领域多项成果,其中最新科研成就,前沿产品及各场景应急医学救援解决方案纷纷亮相。现场,“蔚蓝守护”“天际驰援&

从预警到康复 多项应急医学领域最新科研成就亮相

成都彭州3.9级地震 震源深度13公里(彭州地震最新消息)

中国地震台网正式测定:12月13日6时52分,在四川成都市彭州市(北纬31.37度,东经103.81度)发生3.9级地震,震源深度13公里

成都彭州3.9级地震 震源深度13公里(彭州地震最新消息)

和田玉手工雕刻雕花仿古兽面戒指💍扳指如何选择?2025年原创设计新品大赏(和田玉手工雕刻和机器雕刻有什么区别)

随着2025年珠宝市场的消费升级,和田玉手工雕刻雕花仿古兽面戒指💍扳指成为潮流新品。如何挑选高品质、设计独特的作品?本文从原创设计、材质工艺、佩戴场景等角度全面解读,助您找到心仪好物。

和田玉手工雕刻雕花仿古兽面戒指💍扳指如何选择?2025年原创设计新品大赏(和田玉手工雕刻和机器雕刻有什么区别)

一块儿童安全手表,为何成了孩子们的“社交硬通货”?(儿童安全手绘)

在这个属于他们的“江湖”里,“大佬榜”备受关注,“扩列”(增加好友)成为新的社交需求,“点主”(在主页点赞)是每日必做的功课……这些让成年人感到陌生的词汇,正构筑着未成年人的数字社交世界。 记者注意到,…

一块儿童安全手表,为何成了孩子们的“社交硬通货”?(儿童安全手绘)

24 层 HDI PCB 生产厂家|适配 5G 基站,交付周(pcbhdi工艺)

创盈电路技术的阻抗公差为±8%(Max >50ohm 时为+- 5%),能够有效减少信号反射和失真,保证 5G 基站的信号传输质量。选择创盈电路技术作为 24 层 HDI PCB 的生产厂家,能够为 5G…

24 层 HDI PCB 生产厂家|适配 5G 基站,交付周(pcbhdi工艺)