
当HBM叠上GPU,散热难题如何成为算力突破的 “拦路虎”?
打开AMD或『英伟达』最先进的AI产品封装,你会发现一个熟悉的布局:GPU两侧是高带宽内存(HBM),这是目前最先进的内存『芯片』。这些内存『芯片』尽可能靠近它们所服务的计算『芯片』,以减少AI计算中最大的瓶颈——将每秒数十亿比特的数据从内存传输到逻辑电路所需的能量和延迟。但是,如果将HBM堆叠在GPU顶部,进一步拉近计算和内存的距离,又会怎样呢?

图中较大的黑色方块是连接到AMD Instinct MI300X GPU 逻辑『芯片』的高带宽内存[中心]。 来源:AMD
Imec近期利用先进的热模拟技术研究了这种情况,并在2025 年 12 月举行的 IEEE 国际电子器件会议(IEDM) 上公布了结果,结果令人沮丧。3D堆叠会使GPU 内部的工作温度翻倍,导致其无法正常工作。但由 Imec 的James Myers领导的团队并没有就此放弃。他们找到了一些工程优化方案,最终可以将温差降低到几乎为零。
2.5D和3D先进封装Imec 首先对一个 GPU 和四个 HBM 『芯片』进行了热模拟,模拟的是目前常见的封装形式,即所谓的 2.5D 封装。也就是说,GPU 和 HBM 都位于称为中介层的基板上,彼此之间的距离非常小。这两种『芯片』通过集成在中介层表面的数千个微米级铜互连线连接。在这种配置下,模型GPU 的功耗为 414 瓦,峰值温度略低于 70°C——这是处理器的典型温度。内存『芯片』的功耗约为40 瓦,温度略低一些。热量通过封装顶部的液冷散热,这种液冷方式在新型AI『数据中心』中已十分常见。
jrhz.info“虽然目前仍在采用这种方法,但它未来的扩展性并不理想——尤其因为它会遮挡GPU的两侧,限制封装内部GPU之间的连接,”Imec高级研究员陈宇凯在IEDM大会上告诉『工程师』们。相比之下,“3D方案可以带来更高的带宽、更低的延迟……最重要的改进在于封装尺寸。”
不幸的是,正如陈和他的同事们发现的那样,最直接的堆叠方式,即简单地将HBM『芯片』放在 GPU 顶部,并在中心添加一块空白硅来填补空隙,会导致 GPU 的温度飙升至惊人的 140°C——远远超过典型 GPU 的 80°C 限制。
系统技术协同优化Imec团队着手尝试一系列旨在降低温度的技术和系统优化方案。他们首先尝试的是去除一层多余的硅片。要理解其中的原因,首先必须了解HBM究竟是什么。
这种内存由多达12 个高密度DRAM『芯片』堆叠而成。每个『芯片』都薄至几十微米,并布满了垂直连接。这些薄『芯片』彼此堆叠,并通过微小的焊球连接,而这堆内存又垂直连接到另一块硅片,称为基片。基片是一个逻辑『芯片』,用于对数据进行多路复用,并将数据压缩到数量有限的导线中,这些导线能够穿过毫米级的间隙连接到GPU。
但由于HBM 现在位于 GPU 顶部,因此不再需要这样的数据泵。数据位可以直接流入处理器,而无需考虑『芯片』侧面有多少根导线。迈尔斯表示,当然,这一改变意味着要将内存控制电路从基础『芯片』移到 GPU 中,从而改变处理器的布局。但他认为应该有足够的空间,因为 GPU 不再需要用于解复用传入内存数据的电路。
去掉内存这个中间环节,温度只降低了不到4 摄氏度。但重要的是,它应该能大幅提升内存和处理器之间的带宽,这对于团队尝试的另一项优化——降低 GPU 速度——至关重要。
这似乎与提升人工智能计算能力的初衷背道而驰,但在这种情况下,这反而成为一种优势。大型语言模型属于所谓的“内存密集型”问题,也就是说,内存带宽是主要的限制因素。但迈尔斯团队估计,在GPU上采用3D堆叠HBM技术可以将带宽提升四倍。有了这额外的性能提升空间,即使将GPU时钟频率降低50%,仍然能够带来性能提升,同时还能将温度降低20摄氏度以上。实际上,处理器可能不需要降低这么多。迈尔斯表示,将时钟频率提高到70%只会使GPU温度升高1.7摄氏度。
优化的HBM温度大幅下降的另一个原因是提高了HBM堆叠层及其周围区域的导热性。这包括将四个堆叠层合并成两个更宽的堆叠层,从而消除一个散热区域;减薄堆叠层顶部通常较厚的『芯片』;以及用空白硅片填充HBM周围的更多空间以增强导热性。
经过上述所有措施,堆叠『芯片』的运行温度约为88°C。最终的优化使温度降至接近 70°C。通常,『芯片』约 95% 的热量是从封装顶部散发的,在本例中,顶部由水带走热量。但如果在底部也采用类似的冷却方式,堆叠『芯片』的温度最终会再降低 17°C。
Myers表示,尽管在IEDM上展示的研究表明,GPU搭载HBM内存或许可行,但这未必是最佳选择。“我们正在模拟其他系统配置,以帮助我们确定这是否是最佳方案,”他说道。“GPU搭载HBM内存引起了一些业内人士的兴趣,”因为他认为这种方式能让GPU更靠近散热系统。但这很可能是一个更复杂的设计,因为GPU的电力和数据必须垂直流经HBM才能到达GPU。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。




