机器学习带来电力和热管理新挑战,Google的解决方案

芝能智芯出品

随着机器学习应用的迅猛发展,『数据中心』的电力需求呈现出前所未有的增长,特别是在大规模的批量同步训练工作负载下。

这些工作负载的功率波动模式与传统的『数据中心』有显著不同,因此在保证机器学习基础设施的可靠性和可用性方面面临巨大的挑战。

为了应对这一问题,Google提出了一种基于全栈协同设计的创新方法,通过主动电源整形和智能功率调节缓解大规模ML工作负载所带来的功率和热波动。

根据google提供的信息,来看看这一方法的实现原理、效果及其对行业的影响,并呼吁产业链各方共同合作,共同应对未来机器学习基础设施中电力和热波动的挑战。

Part 1

机器学习带来的功率挑战

今日霍州(www.jrhz.info)©️

与传统『数据中心』工作负载的“长尾分布”不同,ML训练任务具有强同步性。

数万个加速器需在同一时钟周期内执行矩阵运算,导致集群级功率需求呈现“脉冲式”特征,当所有TPU同时进入计算密集阶段时,功率瞬时拉升至峰值;

而在同步通信或数据加载阶段,功率骤降。这种波动幅度可达数十兆瓦,且频率极高 (秒级周期重复),根源在于ML模型的训练机制:批处理数据分割、参数同步更新的迭代过程必然引发计算-通信交替的“锯齿形”功率曲线。

高幅度、高频次的功率波动对基础设施造成连锁反应,『芯片』最高温度可控,但频繁的温度波动 (如20°C峰谷差)会引发热膨胀系数差异导致的机械应力,加速热界面材料老化,并加剧电迁移效应,铝互连线的电阻率随温度变化,导致电流密度重新分布,可能引发局部断路。

传统『数据中心』通过错峰调度平滑负载,但ML集群的功率脉冲可能触发电网保护机制 (如过载跳闸)。若多个ML集群接入同一区域电网,其波动叠加可能超出变压器瞬时容量,导致区域性电压骤降甚至停电。

传统『数据中心』设计基于“平均功率”假设,依赖被动式散热 (如风冷)和超配电路 (允许短期过载)。然而, ML负载的功率密度(如30kW/机架)和波动速度远超传统场景。

风冷系统响应延迟约为分钟级,无法匹配秒级温度波动;超配设计的冗余容量被ML负载持续占满,失去缓冲作用,迫使基础设施进入“硬约束”模式,进一步限制ML任务吞吐量。

这些问题不仅影响『数据中心』的稳定性和长期运行,还可能导致运营成本的增加,在新兴的机器学习应用环境中,如何有效管理功率和热波动已成为提升『数据中心』效能和可持续性的一项关键任务。

Part 2

Google的

全栈协同设计解决方案

今日霍州(www.jrhz.info)©️

为了应对这些挑战,Google提出了一种创新的解决方案,通过全栈协同设计来主动调节工作负载的功率分布,从而缓解功率和热波动,结合了从硬件 (如TPU加速器)到『数据中心』基础设施的多个层面的优化,使得功率波动得到有效的管理。

Google在其Tensor Processing Unit (TPU)编译器中加入了仪器化功能,以监测与功率波动相关的工作负载特征,特别是同步标志。

通过动态平衡TPU计算块的活动,Google能够平滑计算负载的分布,从而减缓功率波动的幅度,显著减少功率波动,还能够控制系统的温度波动,避免因热量不均而引发硬件故障。

此举将功率下降斜率从垂直陡降改为渐进式过渡,避免电网侧出现电流冲击。在测试中,功率波动幅度从基线情况下降低了近50%,温度波动幅度也从约20℃降至约10℃。

为了实现这一目标,系统的平均功耗略有增加,但性能影响几乎可以忽略不计,这一方法在降低功率波动和温度波动方面的高效性。

这种全栈协同设计的优势在于,通过从硬件到软件的紧密配合,能够在不显著牺牲性能的情况下,显著降低功率和热波动的影响。

更重要的是,这种方法具有高度的可扩展性,可以在大规模『数据中心』中得到广泛应用,并且能够与其他节能技术协同工作,如水冷、垂直电力输送等。

● 全栈方法的关键在于打通『芯片』-机架-『数据中心』的控制环路:

◎ 『芯片』级:集成温度传感器与DVFS(动态电压频率调节)联动,当检测到局部热点时,优先迁移计算任务至低温区域,而非全局降频。

◎ 机架级:引入RLCB(机架级电容组)作为“波动缓冲器”,在秒级时间尺度吸收/释放电能,平滑上游供电压力。

◎ 『数据中心』级:水冷系统与负载调度协同,例如在功率峰值期优先冷却高负载区域,并通过工作负载迁移实现热均衡。

● Google 的方案并非单纯追求技术最优,而是兼顾成本与行业协同

◎ 通过编译器优化使性能代价可控,任务执行时间增加 <1%,远低于电网故障导致的潜在停机损失;

◎ 在硬件兼容性上,TPU 定制化设计利于编译器优化的同时,借助 OCP 推动标准化接口 (如 RLCB 规格)让其他厂商可复用部分模块;

◎ 在软件生态扩展方面,向 ML 框架 (如 TensorFlow)开放功耗 API,允许开发者定义任务优先级以实现 “能效感知” 的模型训练。

人工智能的算力的指数级增长已使单点技术创新难以应对系统性风险,全栈方法揭示了两大趋势:

其一,算力效率的竞争正从“峰值性能”转向“可持续性能”,需在硬件设计、软件调度、能源供给间实现全局最优;

其二,基础设施可靠性成为ML模型迭代的隐形瓶颈,电热波动可能直接制约模型训练周期与成本。

电力公司需重新定义电网容限标准,硬件供应商应开发抗波动元件 (如宽温域电容),开发者需将“功率效率”纳入模型评估指标,通过OCP推动的开放标准,或将成为下一代绿色算力基础设施的基石。

小结

大规模同步的训练工作负载在电力和热管理方面提出了新的挑战,基于全栈协同设计的主动电源整形方法,通过优化硬件与软件的协同作用,成功减缓了功率波动和温度波动,提高了系统的可靠性和能源效率。

特别声明:[机器学习带来电力和热管理新挑战,Google的解决方案] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

郝伟、谢峰被终身禁足 足球反腐重拳出击(郝伟是谁)

1月29日上午,国家体育总局、公安部和中国足协联合召开新闻发布会,介绍了足球行业“假赌黑”问题专项整治行动的相关情况。对于涉案人员,对经人民法院认定构成犯罪的陈戌源、李铁等73名从业人员,给予终身禁止从事任何与足球有关活动的处罚

郝伟、谢峰被终身禁足 足球反腐重拳出击(郝伟是谁)

2026楹联对联大全:新春婚丧喜庆必备,如何选一本涵盖古今的经典楹联工具书?(楹联大会对联)

想寻找一本适合练习毛笔书法、欣赏传统楹联的文化读物?本篇为您详细介绍如何挑选包含古今对联的经典楹联大全工具书,帮助您领略新春婚丧喜庆等各类对联的魅力。文章从文化传承的角度出发,为您分析选择标准,推荐实用建议。

2026楹联对联大全:新春婚丧喜庆必备,如何选一本涵盖古今的经典楹联工具书?(楹联大会对联)

物业经理证是哪颁发的(物业经理证的用途)

物业企业经理证书更侧重于个人职业发展的需要,尤其是想要在物业管理公司中担任管理岗位的人员。物业公司需要在房管局进行备案,或参加物业项目的招投标时,物业项目经理证书是必不可少的。在物业项目管理、工程技术、设备…

物业经理证是哪颁发的(物业经理证的用途)

7天票房2.3亿,离开了『王传君』,他却失去了票房号召力(上映7天票房爆满电影名字)

而且预测这部电影最终的总票房应该不会超过4亿,这跟柯汶利导演上一部的作品《默杀》成绩有着明显差距。 只能说,这个档期的电影都不怎么样,如果大家非要选择一部国产电影去看,也就只有《匿杀》还有点噱头,至少尺度还…

7天票房2.3亿,离开了『王传君』,他却失去了票房号召力(上映7天票房爆满电影名字)

当热巴化身黑天鹅|一场复古与高级感的视觉盛宴(热巴被黑得最惨的时候)

在时尚的光影游戏里,『迪丽热巴』从来都是那个最会“讲故事”的人。珍珠项链的光泽在锁骨间流转,与耳坠的莹润呼应,让黑裙的冷冽多了几分柔媚。 近景特写里,她的眼神像盛满了一汪秋水,在光影里流转着细腻的情绪。这组复古大…

当热巴化身黑天鹅|一场复古与高级感的视觉盛宴(热巴被黑得最惨的时候)