训推一体，全能高效 | 云尖信息G7466 X6服务器 x IntelGaudi 2E AI加速卡 #科技 #推理 #信息 #Gaudi #训练 #服务器

近日，云尖信息携手英特尔，针对Gaudi® 2E AI加速器HL-288 PCIe卡（简称Intel®Gaudi® 2E PCIe卡，下同）完成专项调优与适配工作，并重磅推出Intel Eagle Stream平台4U8卡解决方案。该方案通过软硬件协同优化，显著提升深度学习训练与推理性能，尤其在大模型训练、高内存容量需求及实时推理等高强度场景中表现突出，可充分满足行业对高效AI计算的核心诉求。

图1 云尖信息G7466 X6（4U8卡）服务器规格

而Intel®Gaudi® 2E PCIe卡基于Habana Gaudi2架构设计，面向数据中心和企业级AI工作负载优化，旨在提供高性能、高效率的生成式AI计算。

图2 Intel®Gaudi® 2E PCIe单卡（全高全长双宽FHFLDW）

该卡配备96 GB大容量内存，其先进的HBM控制器针对随机访问和线性访问场景进行了深度优化，在各种访问模式下可提供高内存带宽，有效避免因显存不足造成AI训练或推理任务的延迟问题，保障计算流程的流畅性。在扩展性方面，该卡表现尤为突出：单卡原生集成24个50GbE RoCE v2 RDMA端口，通过配套的四卡全连接板，可对四张PCIe卡进行全连接，提升多卡互联性能。全连接板与每张PCIe卡内18个50Gbps口相连，实现四张卡两两互联300Gbps的通信带宽。

图3 Intel®Gaudi® 2E PCIe四卡（接全连接板）

同时，该卡基于Intel的可编程TPC和GEMM引擎，融合了诸多技术创新，支持各种面向AI级的高级数据类型，如FP8/BF16/PF16/TF32和FP32。通过外接网卡，实现横向扩展，以满足多节点集群的需要。

据最新实测数据显示，G7466 X6服务器：搭配8张Intel®Gaudi® 2E PCIe卡，运行DeepSeek-R1-671B模型，在输入/输出token长度均为1k，多用户并发数为32的条件下，单并发Token生成效率达11 Tokens/s，可满足企业级私有化部署。搭配2张Intel®Gaudi® 2E PCIe卡，运行

DeepSeek-R1-Distill-Qwen-32B模型，在输入/输出token长度均为1k、多用户并发数为32的条件下，单并发Token生成效率达20 Tokens/s，可满足AI推理（知识库）一体化应用。

在AI算力需求爆发的当下，云尖信息G7466 X6服务器与Intel®Gaudi® 2E AI加速卡的强强联合，正是精准呼应 “训推一体” 的高效算力需求—— 从模型训练的深度突破到推理部署的实时响应，其全能表现将切实助力各行各业加速 AI 技术落地与价值释放。若您想了解更多适配场景、性能数据或定制化方案，欢迎联系交流，我们将为您提供更详尽的技术解读与全流程支持，让高效AI算力真正转化为业务增长的强劲引擎。