近日,云尖信息携手英特尔,针对Gaudi® 2E AI加速器HL-288 PCIe卡(简称Intel®Gaudi® 2E PCIe卡,下同)完成专项调优与适配工作,并重磅推出Intel Eagle Stream平台4U8卡解决方案。该方案通过软硬件协同优化,显著提升深度学习训练与推理性能,尤其在大模型训练、高内存容量需求及实时推理等高强度场景中表现突出,可充分满足行业对高效AI计算的核心诉求。
图1 云尖信息G7466 X6(4U8卡)服务器规格
而Intel®Gaudi® 2E PCIe卡基于Habana Gaudi2架构设计,面向数据中心和企业级AI工作负载优化,旨在提供高性能、高效率的生成式AI计算。
图2 Intel®Gaudi® 2E PCIe单卡 (全高全长双宽FHFLDW)
该卡配备96 GB大容量内存,其先进的HBM控制器针对随机访问和线性访问场景进行了深度优化,在各种访问模式下可提供高内存带宽,有效避免因显存不足造成AI训练或推理任务的延迟问题,保障计算流程的流畅性。在扩展性方面,该卡表现尤为突出:单卡原生集成24个50GbE RoCE v2 RDMA端口,通过配套的四卡全连接板,可对四张PCIe卡进行全连接,提升多卡互联性能。全连接板与每张PCIe卡内18个50Gbps口相连,实现四张卡两两互联300Gbps的通信带宽。
图3 Intel®Gaudi® 2E PCIe四卡 (接全连接板)
同时,该卡基于Intel的可编程TPC和GEMM引擎,融合了诸多技术创新,支持各种面向AI级的高级数据类型,如FP8/BF16/PF16/TF32和FP32。通过外接网卡,实现横向扩展,以满足多节点集群的需要。
据最新实测数据显示,G7466 X6服务器:搭配8张Intel®Gaudi® 2E PCIe卡,运行DeepSeek-R1-671B模型,在输入/输出token长度均为1k,多用户并发数为32的条件下,单并发Token生成效率达11 Tokens/s,可满足企业级私有化部署。搭配2张Intel®Gaudi® 2E PCIe卡,运行
DeepSeek-R1-Distill-Qwen-32B模型,在输入/输出token长度均为1k、多用户并发数为32的条件下,单并发Token生成效率达20 Tokens/s,可满足AI推理(知识库)一体化应用。
在AI算力需求爆发的当下,云尖信息G7466 X6服务器与Intel®Gaudi® 2E AI加速卡的强强联合,正是精准呼应 “训推一体” 的高效算力需求—— 从模型训练的深度突破到推理部署的实时响应,其全能表现将切实助力各行各业加速 AI 技术落地与价值释放。若您想了解更多适配场景、性能数据或定制化方案,欢迎联系交流,我们将为您提供更详尽的技术解读与全流程支持,让高效AI算力真正转化为业务增长的强劲引擎。