特斯拉披露百万核心Dojo超算故障检测技术,失误一次数周训练白费

特斯拉披露百万核心Dojo超算故障检测技术,失误一次数周训练白费

6 月 7 日消息,特斯拉昨日发文,向用户介绍了其百万核心级 Dojo 超算系统的故障核心检测技术。

据介绍,该公司开发的 Stress 工具能够在不停机的状态下,跨处理器乃至跨集群检测易引发静默数据错误(SDC)的核心。

特斯拉表示,Dojo 是当前全球唯二现存的最大处理器之一。这种晶圆级芯片采用整片 300mm 晶圆制成,单芯片尺寸已达物理极限。

由于 Dojo 大芯片的超高复杂性,即使在制造过程中也难以 100% 检测缺陷晶粒,而静默数据错误的检测更困难。

虽然 SDC 在所有硬件上都难以避免,但 Dojo 处理器有着 8,850 个核心、18000A 电流及 15000W 的超高功耗,这会严重放大其影响,因此所有核心必须按设计运行,否则单个数据错误便可毁掉整个耗时数周才能完成 AI 训练成果。

特斯拉将晶圆级 Dojo 处理器称为“训练模块”,每个模块包含 25 个 645mm² 的 D1 Chip,采用台积电 InFO_SoW 技术封装,集成 354 个定制的 64 位 RISC-V 核心(含 1.25MB SRAM 用于存储数据和指令),以 5×5 集群排列并通过机械网络互联,可提供 10TB/s 带宽。每个 D1 还支持 4TB/s 片外带宽,因此单个“训练模块”总共具备 8,850 核心,支持 8/16/32/64 位整数及多种数据格式。

为应对核心故障风险,特斯拉最初采用差分模糊测试技术:生成随机指令集并同步发送至所有核心,通过比对输出结果识别差异。但因为主机与训练模块间通信开销过大,该过程耗时明显过长。

为了提高效率,特斯拉想办法改进了其检测技术,这个过程主要通过三项创新来完成:

为每个核心分配 0.5MB 随机指令专属负载,利用训练模块内部高带宽通信(而非主机通信)实现核心间负载传递与顺序执行,将指令测试量提升至 4.4GB 且大幅缩短时间 使核心在不重置状态下多次运行负载,增加执行环境随机性以暴露潜在错误。公司称执行次数增加带来的速度损失远低于检测可靠性提升 通过 XOR 操作周期性整合寄存器值至指定 SRAM 区域,使缺陷计算单元识别概率提升 10 倍(经缺陷核心实测),且性能损耗可控

特斯拉表示,该技术不仅适用于训练模块层级或集成 12 个模块的机柜层级,更可在集群层级运作,实现百万级运行核心中的故障定位。

特斯拉报告显示,经优化配置的 Stress 监测系统在 Dojo 集群中检出大量故障核心。检测耗时分布呈现两极分化:多数缺陷在执行 1GB-100GB 负载指令(数秒至数分钟)时被发现;难检测缺陷需执行 1000GB 以上指令(数小时)。

需强调的是,Stress 工具测试负载轻量且核心自包含,支持后台测试无需离线。最终仅故障核心会被禁用,且每个 D1 芯片可容忍数个核心失效而不影响整体功能。

特斯拉透露,Stress 工具除检测故障核心外,还能发现罕见设计级缺陷并通过软件调整修复。在监测系统广泛部署期间,多个底层软件问题也被发现并修正。从官方获悉,目前 Stress 工具已全面集成至运行中的 Dojo 集群,在 AI 训练期间实施硬件健康监测。特斯拉表示,通过该监测观察到的故障率与谷歌和 meta 公布的数据相当,表明监测工具与硬件水准达到行业同等水平。

特别声明:[特斯拉披露百万核心Dojo超算故障检测技术,失误一次数周训练白费] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

杨浦举办区校企创新沙龙,为AI算法与数据科学搭建产学研对接平台(杨浦区新建学校)

翔实的案例和数据引发了不少听众的兴趣,也对同济大学计算机科学与技术学院这个成立还不足一年的新学院产生了浓厚的兴趣,在会后与饶卫雄等深入交流,探讨如何将AI更快捷、可靠地应用在各自行业的软件开发、产品设计等应用…

杨浦举办区校企创新沙龙,为AI算法与数据科学搭建产学研对接平台(杨浦区新建学校)

中信重工取得转子轴大长径比深盲孔抛磨装置专利,使工件无需放置机床上即可进行深盲孔抛磨(中信重工要重组吗)

金融界2025年8月2日消息,国家知识产权局信息显示,中信重工机械股份有限公司取得一项名为“转子轴大长径比深盲孔抛磨装置”的专利,授权公告号CN223172657U,申请日期为2024年09月。 专利摘要显示…

中信重工取得转子轴大长径比深盲孔抛磨装置专利,使工件无需放置机床上即可进行深盲孔抛磨(中信重工要重组吗)

微距之眼:智能工业内窥镜如何重构工业检测的精度维度(微距功能)

当传统检测手段仍在与模糊成像和主观判断搏斗时,智能内窥镜已构建起连接微观缺陷与宏观决策的数字桥梁。当德国蔡司推出可进行三维形貌重建的内窥镜系统时,其测量精度已达到±0.01mm,这意味着工业检测开始具备精密计…

微距之眼:智能工业内窥镜如何重构工业检测的精度维度(微距功能)

CAS:2288-74-6,3,5-二氯-4-甲氧基哒嗪,有机化合物

中文名称:3,5-二氯-4-甲氧基哒嗪医药中间体:3,5-Dichloro-4-methoxypyridazine在医药领域被广泛用作中间体,用于合成多种药物分子。Promethazine-d4 hyd…

CAS:2288-74-6,3,5-二氯-4-甲氧基哒嗪,有机化合物

带货视频播放量不错,但转化率奇低,怎么优化(带货视频播放量低的原因)

视频开头没抓住痛点,用户秒划走 你视频前三秒是不是在自说自话“家人们今天给大家推荐个好东西”,用户心里想的肯定是“关我啥事”,举个例子,卖护肤品的,开头直接怼脸拍,“姐妹们看我这张脸,昨天刚熬完夜,今天皮肤…

带货视频播放量不错,但转化率奇低,怎么优化(带货视频播放量低的原因)