今天分享的是:智猩猩『DeepSeek』大解读系列公开课第一期课件-『DeepSeek』 V3R1架构的深度分析与深度思考
报告共计:53页
『DeepSeek』 V3/R1架构深度分析总结
陈巍博士在公开课课件中对『DeepSeek』 V3/R1架构进行了系统解析,围绕模型架构创新、训练优化、软硬件协同及行业价值展开深度思考,揭示其在大模型效率与性能平衡上的突破性进展。
架构层面,V3/R1以混合专家(MoE)与多头潜注意力(MLA)为核心创新。V3作为6710亿参数的MoE模型,每个Token仅激活370亿参数,通过『DeepSeek』MoE架构实现细粒度专家分割与共享专家隔离,减少参数冗余。MLA技术通过将KV矩阵转化为低秩潜向量,在降低93.3% KV缓存的同时保留关键信息,解决了传统注意力机制显存占用过高的痛点,配合细粒度量化、在线量化等优化,进一步提升存储效率。此外,无辅助损失『负载均衡』策略有效避免“路由崩溃”,保障MoE训练稳定。
训练流程体现“精调-强化学习”的迭代升级。V3依托14.8T预训练数据集,采用Fill-in-Middle方法优化代码能力,整合多语言数据并强化中文支持;SFT阶段结合R1合成数据集构建高质量Prompt体系,强化推理能力。R1则通过四阶段训练:以CoT数据冷启动植入推理能力,基于GRPO算法进行推理强化学习,引入拒绝采样补充多领域数据,最终通过全场景对齐实现实用化。训练中出现的“顿悟时刻”标志模型可自主延长思考时间优化策略,验证了强化学习的潜力。
软硬件协同是效率提升的关键支撑。软件层面,基于HAI-LLM框架优化张量并行(TP)、流水线并行(PP)等策略,FSDP实现通信与计算重叠,训练时间缩短近半;DualPipe算法减少流水线气泡,跨节点All-to-All通信内核充分利用IB与NVLink带宽。硬件上采用两层Fat-Tree拓扑集群,交换机数量减少40%,结合FP8混合精度训练框架,通过高精度累加等技术平衡精度与效率,显存占用显著降低。
应用与行业价值方面,模型通过蒸馏技术向Llama、Qwen等Dense模型迁移推理能力,适配不同场景需求。其关键贡献在于构建“MLA+MoE+GRPO”技术体系,实现与顶尖模型相当的性能,同时降低训练与推理成本。课件也指出,当前大模型发展仍依赖CUDA生态,未来需加强开源生态与新型架构『芯片』建设,凸显算力与算法协同进化的核心趋势。
以下为报告节选内容