『DeepSeek』首次回应蒸馏OpenAI质疑澄清训练数据来源(deepice) #新闻

『DeepSeek』首次回应蒸馏OpenAI质疑澄清训练数据来源！9月18日，『DeepSeek』团队的研究论文登上了国际权威期刊《Nature》的封面。这篇由梁文锋担任通讯作者的论文详细介绍了『DeepSeek』-R1模型。今年1月，『DeepSeek』曾在arxiv上发布了初版预印本论文，此次发布的版本补充了更多模型细节，并减少了拟人化描述。

论文中提到，R1模型的训练成本仅为29.4万美元💵。此前有报道称，OpenAI研究人员认为『DeepSeek』可能使用了OpenAI模型的输出来训练R1，从而在资源较少的情况下加速模型能力提升。对此，『DeepSeek』在补充材料中回应称，『DeepSeek』-V3-Base的训练数据仅来自普通网页和电子书，不包含任何合成数据。尽管一些网页包含大量OpenAI模型生成的答案，这可能导致基础模型间接受益于其他强大模型的知识，但『DeepSeek』表示已在预训练中针对数据污染进行了处理。

哥伦布市俄亥俄州立大学的AI研究员Huan Sun认为，『DeepSeek』的反驳具有说服力。Hugging Face的机器学习『工程师』Lewis Tunstall也表示，现有证据表明仅使用纯强化学习即可获得极高性能。

『DeepSeek』在论文中还提到，R1基于『DeepSeek』-V3模型训练，总训练成本约为600万美元💵，远低于竞争对手的数千万美元💵。『DeepSeek』-R1已成为全球最受欢迎的开源推理模型，在Hugging Face上的下载量超过1090万次，也是首个经过同行评审的主流『大语言模型』。

该论文题为《『DeepSeek』-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》，展示了通过大规模强化学习激发大模型推理能力的重要成果。以往的研究主要依赖大量监督数据来提升模型性能，而『DeepSeek』团队则开辟了一种新思路，即使不用监督微调作为冷启动，也能显著提升模型的推理能力。如果再加上少量的冷启动数据，效果会更好。

在强化学习过程中，模型正确解答数学问题时会获得高分奖励，答错则会受到惩罚。这种机制使模型学会了逐步解决问题并揭示步骤，从而提高其在编程和研究生水平科学问题上的表现。为了降低训练成本，『DeepSeek』采用了群组相对策略优化（GRPO）方法，并设计了简单模板来引导基础模型，要求模型先给出推理过程再提供最终答案。此外，开发团队还直接使用『DeepSeek』-R1整理的80万个样本来微调Qwen和Llama等开源模型，结果表明这种简单的蒸馏方法显著增强了小模型的推理能力。『DeepSeek』首次回应蒸馏OpenAI质疑澄清训练数据来源！