智猩猩『DeepSeek』大解读系列公开课第一期课件-『DeepSeek』 V3(大猩猩智慧) #科技 #软硬件 #推理 #数据 #架构 #效率

今天分享的是：智猩猩『DeepSeek』大解读系列公开课第一期课件-『DeepSeek』 V3R1架构的深度分析与深度思考

报告共计：53页

『DeepSeek』 V3/R1架构深度分析总结

陈巍博士在公开课课件中对『DeepSeek』 V3/R1架构进行了系统解析，围绕模型架构创新、训练优化、软硬件协同及行业价值展开深度思考，揭示其在大模型效率与性能平衡上的突破性进展。

架构层面，V3/R1以混合专家（MoE）与多头潜注意力（MLA）为核心创新。V3作为6710亿参数的MoE模型，每个Token仅激活370亿参数，通过『DeepSeek』MoE架构实现细粒度专家分割与共享专家隔离，减少参数冗余。MLA技术通过将KV矩阵转化为低秩潜向量，在降低93.3% KV缓存的同时保留关键信息，解决了传统注意力机制显存占用过高的痛点，配合细粒度量化、在线量化等优化，进一步提升存储效率。此外，无辅助损失『负载均衡』策略有效避免“路由崩溃”，保障MoE训练稳定。

训练流程体现“精调-强化学习”的迭代升级。V3依托14.8T预训练数据集，采用Fill-in-Middle方法优化代码能力，整合多语言数据并强化中文支持；SFT阶段结合R1合成数据集构建高质量Prompt体系，强化推理能力。R1则通过四阶段训练：以CoT数据冷启动植入推理能力，基于GRPO算法进行推理强化学习，引入拒绝采样补充多领域数据，最终通过全场景对齐实现实用化。训练中出现的“顿悟时刻”标志模型可自主延长思考时间优化策略，验证了强化学习的潜力。

软硬件协同是效率提升的关键支撑。软件层面，基于HAI-LLM框架优化张量并行（TP）、流水线并行（PP）等策略，FSDP实现通信与计算重叠，训练时间缩短近半；DualPipe算法减少流水线气泡，跨节点All-to-All通信内核充分利用IB与NVLink带宽。硬件上采用两层Fat-Tree拓扑集群，交换机数量减少40%，结合FP8混合精度训练框架，通过高精度累加等技术平衡精度与效率，显存占用显著降低。

应用与行业价值方面，模型通过蒸馏技术向Llama、Qwen等Dense模型迁移推理能力，适配不同场景需求。其关键贡献在于构建“MLA+MoE+GRPO”技术体系，实现与顶尖模型相当的性能，同时降低训练与推理成本。课件也指出，当前大模型发展仍依赖CUDA生态，未来需加强开源生态与新型架构『芯片』建设，凸显算力与算法协同进化的核心趋势。

以下为报告节选内容