显而易见,我们的下一次范式转变不会来自对 RL 的改进或一种新型神经网络。它将会出现在我们解锁一个我们以前从未接触过或尚未妥善利用的数据源时。
当前大家集中攻关的数据来源就是视频数据。某网站数据 [25] 显示,YouTube 每分钟上传约 500 小时的视频数据。视频数据规模远超全网文本的总量,且信息维度更丰富:视频数据中不仅包含语音文本,还有语气变化以及丰富的物理和文化信息 ------ 这些都是无法从文本中收集到的。
可以肯定的是,只要我们的模型足够高效,或者我们的算力足够强大,谷歌就会开始在 YouTube 数据上训练模型。毕竟坐拥丰富资源却闲置不用,实属暴殄天物。
人工智能下一个 "大范式" 的最后一个竞争者是具身数据采集系统(大众称之为机器人)。 目前,我们还无法以适合在 GPU 上训练大型模型的方式收集和处理来自摄像头和传感器的信息。如果我们能开发更智能的传感器,或将算力提升到能够轻松处理机器人的海量数据流,或许将开辟一种全新的应用场景。
YouTube、机器人抑或是其他领域是否会成为 AI 技术的下一站?语言模型目前虽占据主流,但我们似乎也很快就会耗尽语言数据。如果我们想在人工智能领域寻求下一次突破,或许我们应该停止追逐新理论,转而开始寻找新数据源。