『DeepSeek』基础知识 #科技 #Zero #代码生成 #推理 #技术 #『DeepSeek』

『DeepSeek』由梁文峰于2023年7月创立，团队成员多来自国内顶尖高校，专注于通用人工智能技术研发应用。自2024年1月起，陆续发布多个大模型，其中『DeepSeek』-V3和『DeepSeek』-R1系列备受关注。

『DeepSeek』-V3是高性能、低成本的开源通用语言模型，参数规模达6710亿，处理单token时仅激活370亿参数，训练成本为278.8万H800 GPU小时，远低于同类模型。在数学推理、代码生成、常识推理等基准测试中表现出色，接近或超越GPT-4 Turbo等顶尖模型，生成吐字速度提升至60TPS。它采用多头潜在注意力和『DeepSeek』MoE架构，结合无辅助损失策略、多token预测训练目标、FP8混合精度训练等技术，支持千卡级训练，推理环节通过独特策略提升资源利用率。

『DeepSeek』-R1和『DeepSeek』-R1-Zero是基于『DeepSeek』-V3混合专家架构的开源推理大模型。R1-Zero完全依赖强化学习训练，跳过监督微调，探索纯RL的可行性，出现“顿悟”现象；R1在其基础上引入冷启动数据和多阶段优化，结合监督微调与强化学习，提升输出质量，适用于实际场景。R1在数学、代码、自然语言推理等任务上性能比肩OpenAI o1正式版，在Chatbot Arena基准测试中排名全类别大模型第三。其训练方法亮点突出，通过重新设计流程降低内存占用和计算开销，采用多种奖励机制，采用“思考-回答”训练模板，支持蒸馏技术和开放思维链输出。

『DeepSeek』大模型在市场上引发巨大反响，『DeepSeek』 App上线后日活跃用户增长迅速，在多个国家的应用商店排名领先。其出现改变了AI技术发展方向，打破算力至上认知，提升算法创新地位；改变全球AI格局，威胁美国AI领导地位，缩小中美差距，提升国产AI产业链信心；加速AI端侧应用落地，降低大模型价格，推动应用普及；冲击AI算力供给关系，长期看将增加算力需求；引领开源力量发展，吸引开发者，冲击闭源模型市场。众多云厂商、运营商和生态链企业纷纷接入『DeepSeek』，应用场景广泛，涵盖文本生成、自然语言处理、代码编程、图表绘制等领域，不同版本的模型适用于不同需求的任务场景。