自2017年Attention Is All You Need出世、提出Transformer架构以来,7年已过。
AI行业对Transformer的路径依赖引发了越来越多的“过时”争论,体现出日渐迫切的架构创新需求。目前行业内针对这一问题主要存在两条架构层创新技术路径:
一是对Transformer架构进行改进,特别是针对其核心组件—Attention机制的优化与变体探索,例如稀疏Attention等技术,旨在提升计算效率和内存利用率,以更好地适应大规模训练场景。
二是对非Transformer架构进行探索,如新型RNN架构等。这些架构试图从根本上摆脱对Attention机制的依赖,并在长序列建模、并行计算和推理效率上展现出独特优势。
值得注意的是,当前大模型架构的发展呈现出日益明显的混合趋势,不同架构之间的界限越来越模糊,更多性能领先的创新架构具备“博采众家之长”的特点。
本报告将围绕以上两条探索路径展开梳理,并拆解这些大模型架构创新的底层逻辑,对大模型架构层未来发展可能的演进方向及趋势作出分析。
报告目录:
01 Transformer的主流与挑战
02 Transformer架构改进
03 非Transformer架构突围
04 架构创新底层逻辑
报告预览如下(末尾下载通道):