今天分享的是:智猩猩『DeepSeek』大解读系列公开课第一期课件-『DeepSeek』 V3R1架构的深度分析与深度思考-中存算董事长陈巍
报告共计:53页
该课件由中存算董事长陈巍博士撰写,深度分析『DeepSeek』 V3/R1架构,核心围绕五大维度展开。首先是Scaling law与Moore's law的范式共生,Scaling law描述模型性能随规模、数据、算力提升的规律,Moore's law体现『芯片』晶体管增长与成本下降,二者结合,叠加每年4倍的算法进步,等效形成(Moore’s law)²的效应,同时提及MoE架构与Amdahl’s Law的关联,指出MoE通过激活部分专家减少计算量,但需平衡负载。其次是『DeepSeek』的架构提升,V3是6710亿参数的MoE模型,每Token激活370亿参数,R1基于V3强化推理能力,核心创新包括多头潜注意力(MLA),将KV缓存转为低秩潜向量,降低93.3%缓存并保留性能;『DeepSeek』MoE通过细粒度专家分割和共享专家隔离减少参数冗余;无辅助损失『负载均衡』避免路由崩溃;GRPO算法替代PPO,无需显式价值网络,降低显存占用提升训练速度。第三是V3/R1训练架构与软硬件协同,软件上采用FP8混合精度训练框架减少显存与提速,DualPipe算法优化流水线并行减少通信开销,跨节点All-to-All通信内核充分利用带宽,还通过HAI-LLM框架优化多种并行策略;硬件上采用两层Fat-Tree拓扑+InfiniBand集群架构降低互连成本,开发HFReduce优化通信,并有显存节省技术。第四是训练流程与RL潜力,V3经基础预训练(14.8T数据集,含中文与FIM训练)、SFT(1.5M实例+R1合成数据)、RL(规则与模型奖励,GRPO策略);R1分冷启动(CoT SFT)、推理RL(GRPO+语言一致性奖励)、拒绝采样SFT(800k样本)、全场景RL四阶段,训练中出现“顿悟时刻”,模型自主延长思考优化策略。最后是算力竞赛思考,『DeepSeek』关键贡献在于软硬件结合提升效率,虽存在对『英伟达』生态依赖,但证明本土团队实力,建议发展开源生态与新架构AI『芯片』,还提及企业级大模型『服务器』与小易智能营销平台应用,附相关资源汇总链接。
以下为报告节选内容