告别中英文混杂！『DeepSeek』-V3.1-Terminus升级，国产大模型突破效率瓶颈(告别翻译为英文) #科技 #国产 #Agent #效率 #中英文 #Search

『DeepSeek』-V3.1-Terminus：一次显著的模型升级与未来展望

『DeepSeek』于9月22日重磅发布了线上模型『DeepSeek』-V3.1-Terminus，这并非简单的迭代，而是对模型能力的一次全面跃升。『斯坦福大学』和加州伯克利大学的研究员已指出，『大语言模型』在处理超长上下文时，尤其在关键信息位于文本中间位置时，性能会显著下降。这意味着，即使上下文窗口扩展至128K，相当于10万汉字（远超7万字的《边城》），模型仍然可能面临信息提取的挑战。行业正积极探索更高效的架构，例如优化注意力机制或引入外部记忆库（如Pinecone向量数据库），以降低长文本处理的计算成本并提升信息检索效率。『DeepSeek』-V3.1-Terminus的升级，在一定程度上回应了这一行业难题，但其在超长文本中间位置信息获取效率和不同任务下的性能稳定性，仍有待进一步观察。

此次升级的核心在于显著增强了模型的语言一致性和Agent能力。『DeepSeek』-V3.1-Terminus有效解决了此前困扰用户的诸多问题，例如中英文混杂和异常字符等。更令人瞩目的是，新模型提供了“思考模式”和“非思考模式”两种运行模式，均支持128K的超长上下文。 “非思考模式”偏重快速响应，默认输出4K tokens，最高可达8K；而“思考模式”则专注于深度逻辑分析和长篇内容创作，默认输出32K tokens，最高可达64K tokens。

在Agent能力方面，Code Agent和Search Agent的性能获得了大幅提升。在代码修复测评SWE-bench等复杂任务中，『DeepSeek』-V3.1-Terminus的表现相比前代模型有了显著进步。 Search Agent在多项搜索评测指标上均取得了较大提升，尤其在需要多步推理的复杂搜索和多学科专家级难题测试中，其性能已大幅超越早期版本。需要注意的是，Search Agent的工具集与上一版本有所不同，具体细节请参考HuggingFace官方文档。

基准测试结果显示，『DeepSeek』-V3.1-Terminus相比V3.1版本，整体性能提升幅度在0.2%到36.5%之间，其中在HLE（人类终极测试）上的进步最为显著。 HLE测试涵盖了专家级高难度知识、多模态理解和深度推理等多个方面，这充分体现了新模型在复杂任务处理能力上的提升。此外，在网页浏览（BrowseComp）、简单问答（SimpleQA）以及多项编程相关测试中，新模型也取得了小幅提升，仅在中文网页浏览（BrowseComp-zh）上略有下降。

从商业角度来看，『DeepSeek』继续秉持透明和高性价比的定价策略。百万tokens输入费用为缓存命中0.5元、未命中4元，百万tokens输出定价12元。这一策略有效降低了高频调用场景下的运营成本，尤其有利于需要重复访问相同知识库的应用。

技术架构方面，『DeepSeek』-V3.1-Terminus采用了UE8M0 FP8 Scale参数精度，并与即将发布的下一代国产『芯片』高度适配。此举不仅提升了模型的效率，也积极推动了国产算力产业链的发展，未来基于『DeepSeek』模型的训练和推理将有望更多地应用国产AI『芯片』，助力国产算力生态的建设。『DeepSeek』-V3.1-Terminus的发布，无疑是国产大模型发展进程中的一个重要里程碑，其未来发展值得期待。