特斯拉披露百万核心Dojo超算故障检测技术,失误一次数周训练白费

特斯拉披露百万核心Dojo超算故障检测技术,失误一次数周训练白费

6 月 7 日消息,特斯拉昨日发文,向用户介绍了其百万核心级 Dojo 超算系统的故障核心检测技术。

据介绍,该公司开发的 Stress 工具能够在不停机的状态下,跨处理器乃至跨集群检测易引发静默数据错误(SDC)的核心。

特斯拉表示,Dojo 是当前全球唯二现存的最大处理器之一。这种晶圆级『芯片』采用整片 300mm 晶圆制成,单『芯片』尺寸已达物理极限。

由于 Dojo 大『芯片』的超高复杂性,即使在制造过程中也难以 100% 检测缺陷晶粒,而静默数据错误的检测更困难。

虽然 SDC 在所有硬件上都难以避免,但 Dojo 处理器有着 8,850 个核心、18000A 电流及 15000W 的超高功耗,这会严重放大其影响,因此所有核心必须按设计运行,否则单个数据错误便可毁掉整个耗时数周才能完成 AI 训练成果。

特斯拉将晶圆级 Dojo 处理器称为“训练模块”,每个模块包含 25 个 645mm² 的 D1 Chip,采用台积电 InFO_SoW 技术封装,集成 354 个定制的 64 位 RISC-V 核心(含 1.25MB SRAM 用于存储数据和指令),以 5×5 集群排列并通过机械网络互联,可提供 10TB/s 带宽。每个 D1 还支持 4TB/s 片外带宽,因此单个“训练模块”总共具备 8,850 核心,支持 8/16/32/64 位整数及多种数据格式。

为应对核心故障风险,特斯拉最初采用差分模糊测试技术:生成随机指令集并同步发送至所有核心,通过比对输出结果识别差异。但因为主机与训练模块间通信开销过大,该过程耗时明显过长。

为了提高效率,特斯拉想办法改进了其检测技术,这个过程主要通过三项创新来完成:

为每个核心分配 0.5MB 随机指令专属负载,利用训练模块内部高带宽通信(而非主机通信)实现核心间负载传递与顺序执行,将指令测试量提升至 4.4GB 且大幅缩短时间 使核心在不重置状态下多次运行负载,增加执行环境随机性以暴露潜在错误。公司称执行次数增加带来的速度损失远低于检测可靠性提升 通过 XOR 操作周期性整合寄存器值至指定 SRAM 区域,使缺陷计算单元识别概率提升 10 倍(经缺陷核心实测),且性能损耗可控

特斯拉表示,该技术不仅适用于训练模块层级或集成 12 个模块的机柜层级,更可在集群层级运作,实现百万级运行核心中的故障定位。

特斯拉报告显示,经优化配置的 Stress 监测系统在 Dojo 集群中检出大量故障核心。检测耗时分布呈现两极分化:多数缺陷在执行 1GB-100GB 负载指令(数秒至数分钟)时被发现;难检测缺陷需执行 1000GB 以上指令(数小时)。

需强调的是,Stress 工具测试负载轻量且核心自包含,支持后台测试无需离线。最终仅故障核心会被禁用,且每个 D1 『芯片』可容忍数个核心失效而不影响整体功能。

特斯拉透露,Stress 工具除检测故障核心外,还能发现罕见设计级缺陷并通过软件调整修复。在监测系统广泛部署期间,多个底层软件问题也被发现并修正。从官方获悉,目前 Stress 工具已全面集成至运行中的 Dojo 集群,在 AI 训练期间实施硬件健康监测。特斯拉表示,通过该监测观察到的故障率与谷歌和 meta 公布的数据相当,表明监测工具与硬件水准达到行业同等水平。

特别声明:[特斯拉披露百万核心Dojo超算故障检测技术,失误一次数周训练白费] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

特朗普威胁将宣布全国进入紧急状态 回应华盛顿市长决定(特朗普宣布)

美国东部时间9月15日凌晨,『美国总统特朗普』在其『社交平台』“真实社交”上发帖威胁称,他将宣布美国全国进入紧急状态,并对华盛顿特区进行全面联邦管制

特朗普威胁将宣布全国进入紧急状态 回应华盛顿市长决定(特朗普宣布)

这一夜,36岁『刘亦菲』的肌肉小腿,治好了多少人的身材焦虑

可『刘亦菲』这肌肉小腿,给这畸形审美观来了个当头棒喝,告诉大伙儿,健康才是真的美。最重要的是,『刘亦菲』在每部剧里都能保持最好的状态,不拉胯,所以也没有人愿意去纠结她的生活问题。 说到底,『刘亦菲』的肌肉小腿,不光是她…

这一夜,36岁『刘亦菲』的肌肉小腿,治好了多少人的身材焦虑

16年了,潜伏8位演员境况各异,有人嫁亿万富豪,有人入狱了(潜伏十六个字)

她的表演天赋在电影和电视剧领域得到了更大的发挥,广受观众和业内人士的认可。 通过回顾这些演员们的近况,我们可以感受到人生的起伏和变化,但同时也看到了他们的坚韧和努力。希望在未来,他们能继续在人生的舞台上大放异…

16年了,潜伏8位演员境况各异,有人嫁亿万富豪,有人入狱了(潜伏十六个字)

埃尔伯特·弗兰克·考克斯:第一位获得数学博士学位的黑人数学家(弗兰克埃亨)

埃尔伯特·弗兰克·考克斯Elbert Frank Cox(1895–1969)是一位开创性的数学家,在数学领域打破了重大的种族壁垒。除了学术成就之外,考克斯还以坚韧不拔的精神和对教育的热情,激励了一代又一代…

埃尔伯特·弗兰克·考克斯:第一位获得数学博士学位的黑人数学家(弗兰克埃亨)

“双化”协同,驱动绿色共富先行

市经信局绿色制造处处长陈戈表示,这一创新举措以场景应用推动企业碳效评价结果与绿色金融、绿电交易、亩均评价、节能技改、绿色工厂评价等深度融合,推动湖州星级绿色工厂覆盖率超90%。南太湖未来城等引领性零碳建筑示…

“双化”协同,驱动绿色共富先行