AMD周四公布了其下一代 AI 『芯片』 Instinct MI400 系列的新细节,该系列『芯片』将于明年出货。
AMD 称,MI400 『芯片』可组装成名为 Helios 的完整『服务器』机架,这使得数千个『芯片』能够以 “机架级” 系统的形式连接在一起。
“我们首次将机架的每个部分设计为一个统一系统,”AMD 首席执行官苏姿丰周四在加利福尼亚州圣何塞的发布活动上表示。
OpenAI 首席执行官山姆・奥特曼与苏姿丰一同登台,并表示其公司将使用 AMD 『芯片』。
“当你第一次告诉我这些规格时,我心想,这不可能,听起来太疯狂了,” 奥特曼说,“这将是一件了不起的事情。”
AMD 的机架级设置将使『芯片』对用户而言像一个统一系统,这对大多数 AI 客户(如云服务提供商和开发大型语言模型的公司)至关重要。这些客户需要覆盖整个『数据中心』并消耗大量电力的 “超大规模” AI 计算机集群。
“可以将 Helios 视为一个真正像单个大型计算引擎一样运作的机架,” 苏姿丰将其与『英伟达』预计明年发布的 Vera Rubin 机架进行了对比。
AMD 的机架级技术还使其最新『芯片』能够与『英伟达』的 Blackwell 『芯片』竞争,后者已配置 72 个图形处理单元(GPU)。『英伟达』是 AMD 在开发和部署 AI 应用的大型『数据中心』 GPU 领域的主要且唯一竞争对手。
AMD 称,作为『英伟达』的重要客户,OpenAI 一直在为其 MI400 路线图提供反馈。借助 MI400 『芯片』和今年的 MI355X 『芯片』,AMD 计划在价格上与竞争对手『英伟达』展开竞争。该公司一位高管周三对记者表示,由于功耗更低,这些『芯片』的运行成本将更低,且 AMD 正以 “激进” 的价格削弱『英伟达』的市场份额。
到目前为止,『英伟达』在『数据中心』 GPU 市场占据主导地位,部分原因在于它是首家开发出 AI 开发者所需软件的公司,这些软件可让原本为 3D 游戏显示图形而设计的『芯片』发挥作用。在过去十年 AI 热潮之前,AMD 专注于在『服务器』 CPU 领域与英特尔竞争。
苏姿丰表示,尽管『英伟达』使用其 “专有” CUDA 软件,AMD 的 MI355X 仍可超越『英伟达』的 Blackwell 『芯片』。
“这表明我们拥有真正强大的硬件,这是我们一直知道的,但也表明开源软件框架取得了巨大进步,” 苏姿丰说。
2025 年迄今为止,AMD 股价持平,这表明华尔街尚未将其视为对『英伟达』主导地位的重大威胁。
AMD 『数据中心』 GPU 总经理安德鲁・迪克曼(Andrew Dieckmann)周三表示,AMD 的 AI 『芯片』将在运行成本和购置成本上更低。
“总体而言,我们在价格上有显著优势,再加上我们的性能竞争优势,因此能节省相当可观的两位数百分比成本,” 迪克曼说。
未来几年,大型云公司和各国都准备斥资数千亿美元💵围绕 GPU 建造新的『数据中心』集群,以加速前沿 AI 模型的开发。仅今年,大型科技公司的计划资本支出就包括 3000 亿美元💵。
AMD 预计到 2028 年 AI 『芯片』总市场规模将超过 5000 亿美元💵,尽管尚未说明其能占据多少市场份额 —— 据分析师估计,『英伟达』目前占据超过 90% 的市场份额。
两家公司都承诺每年发布新的 AI 『芯片』,而非每两年一次,这凸显了竞争的激烈程度,以及尖端 AI 『芯片』技术对微软、甲骨文和亚马逊等公司的重要性。
苏姿丰称,AMD 在过去一年收购或投资了 25 家 AI 公司,包括今年早些时候收购『服务器』制造商 ZT Systems,该公司开发了 AMD 构建机架规模系统所需的技术。
“这些 AI 系统变得极其复杂,全栈解决方案确实至关重要,” 苏姿丰说。
AMD 当前的销售情况
目前,云服务提供商正在安装的最先进的 AMD AI 『芯片』是其 Instinct MI355X,该公司称其已于上月开始批量出货。AMD 表示,从第三季度开始,云服务提供商将可租用该『芯片』。
为 AI 构建大型『数据中心』集群的公司希望有『英伟达』的替代方案,不仅是为了降低成本和提供灵活性,还为了满足对 “推理”(即实际部署聊天『机器人』️或生成式 AI 应用所需的计算能力)日益增长的需求,这比传统『服务器』应用需要更多的处理能力。
“真正改变的是对推理的需求显著增长,” 苏姿丰说。
AMD 官员周四表示,他们认为其新『芯片』在推理方面优于『英伟达』的『芯片』。这是因为 AMD 的『芯片』配备了更多高速内存,使更大的 AI 模型能够在单个 GPU 上运行。
AMD 称,MI355X 的计算能力是其前身的七倍。这些『芯片』将能够与『英伟达』去年年底开始出货的 B100 和 B200 『芯片』竞争。
AMD 表示,其 Instinct 『芯片』已被 10 大 AI 客户中的 7 家采用,包括 OpenAI、特斯拉、xAI 和 Cohere。
AMD 称,甲骨文计划向其客户提供包含超过 13.1 万个 MI355X 『芯片』的集群。
Meta 官员周四表示,他们正在使用 AMD 的 CPU 和 GPU 集群来运行其 Llama 模型的推理,并计划购买 AMD 的下一代『服务器』。
微软代表表示,其使用 AMD 『芯片』为其 Copilot AI 功能提供服务。
价格竞争
AMD 拒绝透露其『芯片』的成本 —— 它不单独销售『芯片』,最终用户通常通过戴尔或超微电脑等硬件公司购买 —— 但该公司计划让 MI400 『芯片』在价格上竞争。
这家位于圣克拉拉的公司将其 GPU 与 2022 年收购 Pensando 获得的 CPU 和网络『芯片』搭配,以构建其 Helios 机架。这意味着其 AI 『芯片』的更广泛采用也将惠及 AMD 的其他业务。与『英伟达』的专有 NVLink 不同,它还使用名为 UALink 的开源网络技术来紧密集成其机架系统。
AMD 声称,其 MI355X 每美元💵可提供比『英伟达』『芯片』多 40% 的代币(一种 AI 输出的衡量标准),因为其『芯片』比竞争对手的功耗更低。
『数据中心』 GPU 每颗『芯片』可能耗资数万美元💵,云公司通常会大量购买。
AMD 的 AI 『芯片』业务仍远小于『英伟达』。该公司表示,其 2024 财年 AI 销售额为 50 亿美元💵,但摩根大通分析师预计该类别今年将增长 60%。