『DeepSeek』首次回应蒸馏OpenAI质疑 澄清训练数据来源!9月18日,『DeepSeek』团队的研究论文登上了国际权威期刊《Nature》的封面。这篇由梁文锋担任通讯作者的论文详细介绍了『DeepSeek』-R1模型。今年1月,『DeepSeek』曾在arxiv上发布了初版预印本论文,此次发布的版本补充了更多模型细节,并减少了拟人化描述。
论文中提到,R1模型的训练成本仅为29.4万美元💵。此前有报道称,OpenAI研究人员认为『DeepSeek』可能使用了OpenAI模型的输出来训练R1,从而在资源较少的情况下加速模型能力提升。对此,『DeepSeek』在补充材料中回应称,『DeepSeek』-V3-Base的训练数据仅来自普通网页和电子书,不包含任何合成数据。尽管一些网页包含大量OpenAI模型生成的答案,这可能导致基础模型间接受益于其他强大模型的知识,但『DeepSeek』表示已在预训练中针对数据污染进行了处理。
哥伦布市俄亥俄州立大学的AI研究员Huan Sun认为,『DeepSeek』的反驳具有说服力。Hugging Face的机器学习『工程师』Lewis Tunstall也表示,现有证据表明仅使用纯强化学习即可获得极高性能。
『DeepSeek』在论文中还提到,R1基于『DeepSeek』-V3模型训练,总训练成本约为600万美元💵,远低于竞争对手的数千万美元💵。『DeepSeek』-R1已成为全球最受欢迎的开源推理模型,在Hugging Face上的下载量超过1090万次,也是首个经过同行评审的主流『大语言模型』。
该论文题为《『DeepSeek』-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,展示了通过大规模强化学习激发大模型推理能力的重要成果。以往的研究主要依赖大量监督数据来提升模型性能,而『DeepSeek』团队则开辟了一种新思路,即使不用监督微调作为冷启动,也能显著提升模型的推理能力。如果再加上少量的冷启动数据,效果会更好。
在强化学习过程中,模型正确解答数学问题时会获得高分奖励,答错则会受到惩罚。这种机制使模型学会了逐步解决问题并揭示步骤,从而提高其在编程和研究生水平科学问题上的表现。为了降低训练成本,『DeepSeek』采用了群组相对策略优化(GRPO)方法,并设计了简单模板来引导基础模型,要求模型先给出推理过程再提供最终答案。此外,开发团队还直接使用『DeepSeek』-R1整理的80万个样本来微调Qwen和Llama等开源模型,结果表明这种简单的蒸馏方法显著增强了小模型的推理能力。『DeepSeek』首次回应蒸馏OpenAI质疑 澄清训练数据来源!