【蓝因子教育】若理论基础皆非创新，突破性进展的本质是什么？(蓝因子护肤品官方店) #科技 #数据 #教育 #模型 #因子 #理论

我们不妨先达成共识：这些 "重大突破" 实则是既有知识的创新应用。首先，这告诉我们一些关于下一个突破性进展（即前文所述的 "神秘的第五次突破"）的信息。我们的突破不太可能源自一个全新的理论，而应是我们早已熟知的事物的再次出现。

但是，这里还缺少一个环节，这四项突破中的每一项都使我们能够从新的数据源中学习：

1）AlexNet 及其后续模型：解锁了 ImageNet [19]（标注了类别标签的大型图像数据库），推动了计算机视觉十五年的进步。

2）Transformers：开启了在 "『互联网』" 上的训练，以及下载、分类和解析网络上所有文本 [20] 的竞赛（当前基本完成 [21]）。

3）RLHF：使模型能从人类标注信息中学习 "优质文本" 的标准（主要是学习一种感觉）。

4）推理能力：让模型能够通过 "验证器 [22]" 学习 ------ 比如可以评估语言模型输出的计算器和编译器。

请记住，每一个里程碑都标志着对应数据源（ImageNet、全网文本、人类反馈、验证器）首次实现规模化应用。 每一个里程碑之后，都会掀起一场研究热潮：研究人员们争相（a）从所有可用的数据来源中榨取剩余的有效数据；（b）通过新技巧提升数据的利用效率，使系统更高效、对数据的需求更低（预计 2025-2026 年我们将见证推理模型领域的此类竞赛 ------ 研究人员争相对可验证的内容进行发掘、分类和验证）。

自我们构建 ImageNet [19]（当时最大的网络图像公共数据集）起，AI 的发展之势便已势不可挡。