一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖

一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

深度学习界的传奇论文,终于等来了它的“封神”时刻!

刚刚,ICML 2025会议上,2015年发表的Batch Normalization(批次归一化,简称BatchNorm)论文荣获时间检验奖

这篇如今引用量超过6万次的开创性工作,是深度学习发展史上一个里程碑式的突破,极大地推动了深层神经网络的训练和应用。

可以说它是让深度学习从小规模实验,走向大规模实用化和可靠性的关键技术之一。

一个简单想法,让训练速度起飞

2015年的深度学习界正面临一个棘手的问题:训练深层神经网络实在太难了。

当时的研究者们发现,随着网络层数增加,训练变得极其不稳定。需要小心翼翼地调整学习率,生怕一个不小心梯度就消失或爆炸了了。

更要命的是,网络对参数初始化极其敏感,同样的架构换个初始化方法可能就完全训练不动。

jrhz.info

当时谷歌研究员 Sergey Ioffe和 Christian Szegedy,找到了问题的关键: 训练过程中网络内部节点数据分布发生变化

左:Sergey Ioffe,右:Christian Szegedy

他们把这个现象定义为 “内部协变量偏移”(Internal Covariate Shift),指深度神经网络在训练中,每一层的参数都在不断更新,导致后续层的输入数据分布一直在变化,迫使网络需要持续适应新的数据分布,从而带来上面的一系列问题。

他们的解决思路却出奇地简单:既然对输入层的数据做标准化能帮助模型训练,那么 对隐藏层做类似的操作或许也能起作用。

具体来说,BatchNorm会对每个小批次数据计算均值和方差,然后用这些统计量对数据进行标准化,让它们的分布变成均值为0、方差为1的标准正态分布。

但这里有个巧妙的设计——BN还引入了两个可学习的参数γ(缩放)和β(平移),让网络能够自己决定需要什么样的数据分布。这保证了网络的表达能力不会因为强制标准化而受限。

原论文的实验结果非常出色,在当时最先进的图像分类模型上,使用BN后只需要原来1/14的训练步数就能达到相同精度。

还在ImageNet分类任务上达到当时的最佳结果,超越人类评估者的准确率。

成为深度学习基石,却被发现“理论有误”

BatchNorm论文初版提交于2015年初,它的影响力远超作者最初的预期,不仅大幅加速了模型训练,还带来了一系列意想不到的好处。

比如它天然具有的正则化效果,由于每个小批次的均值和方差都存在细微差异,这为网络的激活值引入了噪声,其效果类似于Dropout,有助于提升模型的泛化能力,在某些情况下甚至可以替代Dropout。

在BatchNorm出现之前,训练深度超过几十层的网络非常困难。

何恺明等发表于2015年底的 ResNet就将残差连接与BatchNorm等技术结合,使得训练拥有上百甚至上千层的超深度网络成为现实。

后续几乎所有的主流卷积神经网络(如ResNet, DenseNet, Inception)和许多其他类型的模型都广泛采用了BatchNorm。

然而戏剧性的一幕出现在2018年。

MIT的团队发表的一篇论文, 直接挑战了BatchNorm的核心理论。

他们设计了一个巧妙的实验:在标准BN层后面故意加入随机噪声,人为地重新引入“内部协变量偏移”。按照原论文的理论,这应该会破坏BN的效果。

但实验结果却显示,即使存在剧烈的分布偏移,带BatchNorm的模型训练速度 依然远快于不带BatchNorm的模型。

相反,这项研究发现了BatchNorm对训练过程的更根本的影响: 它使Optimization Landscape更加平滑,这种平滑性使梯度的行为更具预测性和稳定性,从而实现更快的训练。

到了2022年,又有新的研究从几何视角提供了更深入的见解。

这项研究认为,BN实际上是一种无监督学习技术,它能让网络的决策边界在训练开始前就主动适应数据的内在结构,相当于一种“智能初始化”。

此外,由小批次统计量变化引入的噪声有助于增大分类边界的间隔(margin),从而提升模型的泛化能力。

两位作者如今在做什么

十年过去了,这篇改变深度学习历史的论文的两位作者Sergey Ioffe和Christian Szegedy,如今都在哪里?

两人都在谷歌工作了十余年,直到2023年Christian Szegedy加入马斯克团队,成为xAI的联合创始人。

随后2024年初,Sergey Ioffe也跟随他加入xAI到现在,刚刚发布的Grok 4中或许也有他的贡献。

不过Christian Szegedy后面已经离开xAI,加入另一家AI代码生成和优化初创公司 Morph Labs担任首席科学家。

这家公司的目标相当宏大——实现“可验证的超级智能”。看来这位深度学习先驱,正在为AI的下一个十年布局。

BatchNorm原论文:

https://arxiv.org/abs/1502.03167

参考链接:

特别声明:[一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

天仙新剧和男主2集狂亲15次,网友发言:想打人!!(天仙新剧和男主角🎭️是谁)

因为『刘亦菲』本身就是一个大美女,剧中有四个男人为她疯狂迷恋,很符合形象。因为他高大帅气的形象,让不少观众都觉得适配,但是最后发现被渣男不忠诚,在他有未婚妻的情况下还谈恋爱,实在是损人不利己的表现。 感觉玫瑰的故…

天仙新剧和男主2集狂亲15次,网友发言:想打人!!(天仙新剧和男主角🎭️是谁)

CE认证整改方案(3c认证整改报告)

许多企业在申请过程中可能因技术文件不全、测试未通过或设计缺陷等问题未能获得认证。 针对测试不通过的产品,需从设计源头整改:-文档整改:1-2周; -设计改进及样品制作:2-4周; -重新测试:1-3周(需与…

CE认证整改方案(3c认证整改报告)

何鸿燊仨子女受邀看阅兵,何超琼『打扮』庄重现身,何猷龙何猷启低调(何鸿燊 子女)

当金色阳光洒满长安街时,何猷启的相机📷️定格了历史性瞬间——这位素来低调的何家三房公子,正戴着统一发放的『遮阳帽』,在观礼人群中神采飞扬地自拍🤳。这个细节意外成为香港豪门参与九三阅兵最生动的注脚,也揭开了赌王家族与霍…

何鸿燊仨子女受邀看阅兵,何超琼『打扮』庄重现身,何猷龙何猷启低调(何鸿燊 子女)

深海攻坚利器:API 2Y-60钢板如何扛住海洋极端环境?(深海攻击电影在线播放)

环境适应性:专为海洋平台、石油管道、港口机械设计,抗海水腐蚀、抗疲劳载荷及塑性变形二、化学成分与冶金工艺1. 成分设计(熔炼分析%) 26: 低碳当量设计(Ceq≤0.43%):确保焊接性优异,避免热影响区裂…

深海攻坚利器:API 2Y-60钢板如何扛住海洋极端环境?(深海攻击电影在线播放)

陈楚生将担任选秀“评委”?八大平台共同合作,竟是翻版超女快男(陈楚生 sing)

混战类选秀的扑街史告诉我们——男女混搭选秀真的就是收视率黑洞!想想那些年翻车的混战综艺...不过有陈楚生坐镇,光是"0713男团追忆杀"就能承包热搜榜了吧?如今新人选秀停摆三年后,这档号称&quo

陈楚生将担任选秀“评委”?八大平台共同合作,竟是翻版超女快男(陈楚生 sing)