我们必须要承认:那些实际的技术创新在这些案例中可能并非决定性因素。 设想一下这种不符合事实的场景:若 AlexNet 未曾诞生,也许就会出现另一种可以处理 ImageNet 的架构。若 Transformers 未被发现,我们或将继续使用 LSTMs/SSMs,或者找到其他完全不同的东西来学习我们能在网上获得的大量有用的训练数据。
这与 "唯数据论" 不谋而合 ------ 一些研究人员注意到,相较于训练技术、模型优化技巧和超参调整方法,数据才是能带来最大变化的变量。
有这么一个典型案例,研究人员尝试用不同于 transformer 的架构开发类 BERT 模型 [23]。他们花了一年左右的时间,以数百种不同的方式对架构进行了调整,最终成功开发出了一种不同类型的模型(这是一种状态空间模型 /"SSM"),在相同的数据上进行训练时,它的表现与原始的 transformer 大致相当。
这一发现意义深远,因为它暗示我们从给定数据集中学到的东西是有上限的。世界上的所有训练技巧与模型升级,都无法绕过一个冷酷的事实:你能从给定数据集中学到的东西是有限的。
或许这正是《苦涩的教训》[24] 的核心启示:如果数据是唯一重要的东西,为什么 95% 的人都在研究新方法?




