在 2025 年 Hot Chips 大会上,AMD 对外详细阐述了其最新的 CDNA🧬 4 架构以及基于该架构的 MI350 系列加速器。
与前代 MI300 相比,MI350 在工艺、封装、内存层次结构和互连带宽上进行了全面升级,目标直指快速膨胀的大模型训练与推理市场。
其核心亮点包括 1850 亿晶体管的堆叠式设计、3nm N3P 工艺计算芯片、双 NUMA 域灵活分区、FP4/FP6 等新型低精度数据格式支持,以及 ROCm 软件生态的进一步优化。
AMD 试图借助 MI350 系列在超大规模 AI 计算中的部署优势,缩小与竞争对手在算力市场的差距,功耗、系统集成难度和生态成熟度等问题仍然是其未来能否大规模渗透的关键挑战。
AMD架构演进:
从芯粒堆叠到数据类型
CDNA🧬 4 架构的设计延续了 AMD 在 MI300 上的 3D 堆叠思路,但在关键细节上进行了大幅度优化。
通过技术的演进,MI350 既在性能指标上提升了一个量级,也在功耗控制与灵活性方面引入了更多机制,从而更好地适应 AI 模型参数规模持续增长的趋势。
● 工艺与封装升级
MI350 采用台积电 3nm N3P 工艺制造计算芯片,带来更优的能效比。
AMD 沿用了“基座芯片 + 计算芯片”的分层堆叠设计,每个基座上集成 4 个计算芯片,最终在一对 I/O 芯片上实现多达 8 个 XCD 的封装,总晶体管数达到 1850 亿个,远超上一代 MI300 的规模。
这种高度集成不仅带来性能提升,也反映出 AMD 在先进封装上的成熟度。
I/O 芯片依旧使用 6nm 工艺,AMD 在会上直言,尝试缩小工艺节点对基础芯片几乎没有收益。
原因在于 I/O 芯片的关键任务是承担互连与数据传输,过高的制程并不能显著提升带宽,却会推高成本。
AMD 的取舍体现出一种工程上的务实,即在计算密集部分推进制程,而在互连与控制部分追求稳定与成本平衡。
● 内存层次与带宽扩展
相较于 MI300,MI350 的 Infinity Fabric 互连由 IF3 升级至 IF4,每插座带宽提升了 2TB/s。这种带宽提升对 AI 模型尤为重要,因为训练与推理过程对内存访问的需求呈指数级增长。
与此同时,MI350 将本地数据存储(LDS)容量翻倍,使得核心在访问临时数据时延更低,进一步提升了吞吐效率。
更大容量的 HBM 内存为模型训练提供了支撑,也让用户在相同算力需求下需要更少的 GPU 数量,从而降低同步开销与能耗。这一点🕐️对于超大规模模型训练尤其重要,因为跨 GPU 同步往往是训练效率的瓶颈。
● 数据类型与算力优化
在数据类型支持方面,CDNA🧬 4 引入了对 FP6 和 FP4 精度格式的硬件支持,并将传统 AI 数据类型的吞吐率几乎翻倍。
低精度算术对于生成式 AI 模型训练与推理尤为关键,因为它们允许在牺牲有限精度的前提下,大幅提升算力利用率与能效。
AMD 在演示中强调,在 FP4/FP6 支持下,MI350 在部分推理任务中的速度有望超过竞争对手两倍以上。
MI350 的峰值时钟频率可达 2.4GHz,结合 8 个 XCD 及每个 XCD 4MB 的 L2 缓存,整体计算密度进一步提升。这种数据类型与时钟频率的结合,使 MI350 成为面向大语言模型与生成式 AI 的高适配产品。
● 灵活的 GPU 分区机制
CDNA🧬 4 的另一个重要特征是灵活的 GPU 分区。MI350 可以作为单一 NUMA 域运行,也可以划分为两个域,从而减少跨芯片访问延迟。
此外,单个 XCD 还能够被划分为独立的计算分区,类似于在一颗 GPU 中提供多实例化的能力。
这种灵活性意味着用户可以根据任务规模与延迟需求,将 MI350 作为单一大芯片或多个中型芯片使用,适配从超大模型训练到中型推理的不同场景。
总体而言,MI350 的架构演进体现出三个方向:
◎一是工艺制程与堆叠规模的持续推进,
◎二是内存带宽与缓存层次的全面扩展,
◎三是数据类型支持的多样化与灵活性。
这些进展共同指向一个核心目标,即在 AI 模型规模迅速膨胀的背景下,为训练与推理提供更高效、更灵活的硬件支撑。
Part 2
市场应用与战略影响:
从机架部署到软件生态
MI350 系列如何在现实市场落地,将决定 AMD 能否在与竞争对手的算力大战中获得更大份额。
MI350 系列分为 MI350X(风冷)与 MI355X(液冷)。
◎前者作为 MI300 的直接升级,能够兼容现有的数据中心基础设施;
◎后者则面向超大规模计算场景,单 GPU 功耗可达 1.4kW,但通过液冷实现高效散热,AMD 并不单纯追求顶级性能,而是希望兼顾传统数据中心与新一代高性能集群的不同需求。
在机架级部署方面,液冷方案最多支持单机架 96 至 128 个 GPU,而风冷方案上限为 64 个 GPU。AMD 甚至提供了参考机架方案,将 GPU、CPU 与横向网络接口均纳入 AMD 自研体系。
这种“整机架解决方案”不仅展示了 AMD 在硬件层面的系统能力,也体现了其向整体平台供应商转型的战略企图。
硬件性能的释放离不开软件支持。
AMD 在 Hot Chips 上特别强调 ROCm 7 的逐步完善,尤其是在兼容主流 AI 框架、提升编译优化与运行时效率方面取得进展。过去 AMD 在 AI 生态上落后于竞争对手,但 ROCm 的迭代显示其正在缩小差距。
AMD 在灵活分区与 NUMA 优化上的软件支持,将成为 MI350 吸引超大规模用户的重要条件。
对于需要部署数百甚至上千 GPU 的云计算厂商而言,软件层面的灵活性与稳定性比单个芯片的性能提升更具价值。
AMD 在 MI350 上的进展正值 AI 硬件需求爆发的关键时期。
◎大语言模型的上下文窗口不断拉长,对显存和带宽的需求持续攀升;
◎生成式 AI 应用的普及也推动了推理端的算力消费。
在这一趋势下,AMD 试图通过 MI350 系列满足高端市场的性能要求,并借助与 OEM、云服务商的合作,扩大部署规模。
挑战仍然存在。
◎单 GPU 功耗高达 1.4kW 对数据中心电力与散热提出了严苛要求,意味着潜在用户必须投入额外成本改造基础设施。
◎ROCm 正在追赶,但生态成熟度仍然逊色于 CUDA,这将影响开发者的迁移意愿。
◎最后,竞争对手在市场占有率与客户绑定方面依旧具有优势,AMD 能否真正突围,还需在产品之外展现出供应链稳定性与长期路线图执行力。
MI350 在市场应用上的价值体现在三方面:通过双平台设计满足不同用户需求,通过 ROCm 优化增强生态适配性,以及通过整机架方案展示系统级能力。但要实现规模化突破,AMD 仍需应对功耗、生态和市场惯性的挑战。
Hot Chips 2025 上的 MI350/CDNA🧬 4 发布,是 AMD 在 AI 硬件赛道上的一次重要节点。通过在工艺、封装、内存和数据类型上的全方位升级,MI350 系列不是 AMD 试图以整个平台能力切入超大规模 AI 市场的战略体现。
特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权©️或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。