行业发展历程与现状
自2017年Transformer架构提出以来,大模型发展历经三个阶段。2017-2019年是Transformer时代开启期,预训练与Scaling Law范式出现,BERT等模型推动预训练+微调成为主流。2020-2022年为巅峰期,参数规模突破千亿,多模态模型萌芽。2023年至今进入后Transformer时代,预训练范式见顶,创新架构探索兴起,如Mamba、RWKV等非Transformer架构涌现并落地。
Transformer架构的挑战
其二次计算复杂度导致算力消耗激增,推理成本高,端侧部署受限,长序列任务效率低。如GPT-4推理资源密度高,训练规模增长快,预计2030年需近2000万个H100级GPU,部署门槛大幅提高。且Next-Token Prediction范式被指更像反应而非理解,模型训练效率提升有限。
架构创新探索路径
Transformer改进
注意力机制创新:包括线性、稀疏、动态、块注意力等。稀疏注意力如动态+块注意力,划分上下文块动态选择历史块计算;线性注意力将复杂度降至O(N log N)。还有键值缓存机制,保留最近上下文KV。
FFN层改进:有MoE混合专家、类脑稀疏等路径。MoE如MH-MoE提升专家激活率并融合语义;类脑稀疏拆解FFN为动态激活神经元组。
其他改进:归一化层替换或去归一化,输入层改进如LongRoPE提升长上下文性能。
非Transformer架构
新型RNN:RWKV-7引入广义Delta Rule,优化状态演化;Titans用神经记忆模块管理内存;xLSTM增强长序列建模;Mamba-2通过限制矩阵结构提升训练效率。
新型CNN:Hyena Hierarchy用MLP参数化全局卷积捕获长程依赖。
其他:TimeMixer仅用前馈网络建模序列;RetNet在状态空间模型中加门路由;LFM分解权重矩阵减少计算量。
行业趋势与争论
当前存在突破智能天花板与压缩智能密度两条路线之争,前者坚持Transformer追求性能,后者选非Transformer/线性Transformer提升效率,混合架构成大趋势。技术迭代遵循突破-优化-再突破周期,目前处于新技术突破前夜,混合Hybrid架构是探索方向,未来需平衡性能与效率,推动大模型在更多场景落地。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系