芝能智芯出品
在 2025 年 Hot Chips 大会上,谷歌详解介绍了 Ironwood 的新一代张量处理单元(TPU),并以此成为大会机器学习专场的焦点。
与以往的 TPU 产品相比,Ironwood 最大的特点在于它是谷歌首次明确定位于大规模推理而非训练的计算芯片,从单纯的模型训练走向大规模推理部署的现实需求。
Part 1
推理为核心:
Ironwood 的定位与架构突破
长期以来,TPU 的设计更多面向训练任务,强调在极大规模参数下的矩阵计算能力,大模型逐步进入实际应用场景,推理任务所需的算力和能效比已经成为新的瓶颈。
Ironwood 并非是训练与推理通用的折中方案,真正针对推理优化的体系架构。
从硬件组织层面来看,Ironwood 最大的变化体现在 SuperPod 的扩展能力。通过光路交换机(OCS)的引入,一个 Pod 内最多能够支持 9,216 颗芯片,远超上一代 TPUv4 的 4,096 芯片规模。
谷歌在构建超大规模 AI 集群时,可以在单一体系下提供高达 42.5 百亿亿次浮点运算的峰值性能。
更为关键的是,OCS 的灵活互联让系统能够在硬件失效时通过检查点恢复和重构,保持整体可用性,这对于需要长时间运行、几乎不允许宕机的推理服务而言至关重要。
在存储架构上,Ironwood 采用了最新的 HBM3e 技术,单芯片配置 192GB 高带宽内存,总体可扩展至 1.77PB 的共享寻址空间,提升了对大模型参数的直接加载能力,也降低了因频繁数据交换带来的延迟与功耗。
谷歌强调,内存系统是其架构中最重要的优化方向之一,这与大语言模型在推理时对内存带宽和容量的极高依赖高度契合。
Ironwood 还是谷歌首次采用多计算芯片组的 TPU,每个封装内集成两个计算芯片。
通过突破单一光罩尺寸的限制,谷歌能够在不牺牲良率的前提下进一步提升单芯片的计算密度,标志着 TPU 正式迈入多芯片协同的新时代,与 GPU 业界普遍采用的 MCM(多芯片模块)方向保持一致。
Part 2
能效、可靠性与系统观:
从单芯片到数据中心
如果说架构扩展奠定了 Ironwood 的规模基础,那么能效与可靠性的提升,则决定了它能否真正适应长期在线的大规模推理任务。
◎首先是能效。Ironwood 采用 FP8 精度来应对大语言模型和混合专家模型推理的计算需求,既保证了足够的精度,也显著降低了计算和存储开销。
官方数据显示,Ironwood 在每瓦性能上较 TPUv4 提升了近 6 倍,而如果与 Trillium 相比,也有两倍的进步。
考虑到其峰值功耗达到 10 兆瓦,能效的提升并非锦上添花,而是确保这一系统能在数据中心环境中具备长期可持续运行的根本条件。
谷歌在冷却和电力稳定性上也做了大量设计。Ironwood 使用了第三代液冷技术,采用多重循环系统以保证冷却板不被杂质堵塞。这种基础设施改进虽然并不显眼,却体现了谷歌对硬件全生命周期可靠性的重视。
此外,系统还配备了平滑功率波动的软硬件手段,减少负载骤变对电网的冲击,从而让兆瓦级集群能够以相对平稳的方式运行。
◎可靠性、可用性和可维护性(RAS)被谷歌反复强调。
Ironwood 集成了安全启动、信任根、自检和静默数据损坏捕获等功能。这些机制在传统高性能计算领域已较为常见,但谷歌将其引入 TPU 的原因,是因为云端推理对服务连续性和数据正确性有极高要求。
相比训练任务,推理通常直接面向终端用户,其错误更可能带来应用层面的故障,因此这一代 TPU 不仅是速度的追求,更是面向实际运营需求的完整系统优化。
谷歌在 Ironwood 的设计和生产过程中大量引入 AI 技术,包括利用 AI 辅助设计 ALU 电路与优化布局规划。这种“AI 造芯片”的方式,说明了算力需求与工具演化之间的互促关系,也为未来计算体系的演进提供了新的方向。
小结
Ironwood 是谷歌在推理时代抢占先机的战略举措,大模型的应用逐渐从实验室走向产业落地,推理算力的规模化与可持续性成为关键问题。
谷歌通过 Ironwood 是芯片层面的改进,更是从芯片、互连到冷却、电力控制,再到安全与可靠性的全链条系统思维。