『DeepSeek』-V3.1最终版本发布！R2可能真的要来了(deepec) #科技 #Agent #能力 #方面 #SWEbench #模型

『DeepSeek』-V3.1最终版本发布！R2可能真的要来了

9月22日，『DeepSeek』线上模型正式升级至『DeepSeek』-V3.1-Terminus版本，这一命名选择引发了业界广泛关注和解读。Terminus源自拉丁语，意为“终点”，意味着该版本是『DeepSeek』-V3.1系列的最终版本。此次更新主要针对前期版本存在的核心技术问题进行了系统性优化，其中最显著的改进是有效缓解了中英文混杂输出的问题

在推理能力测试方面，新版本在MMLU-Pro测试中从84.8分提升至85.0分，GPQA-Diamond测试从80.1分提升至80.7分。最为显著的改进体现在Humanity's Last Exam测试中，分数从15.9大幅跃升至21.7，提升幅度达到36.5%。代码相关测试中，LiveCodeBench从74.8微升至74.9，而Codeforces评分从2091略降至2046，Aider-Polyglot从76.3微降至76.1。

在智能体工具使用能力方面，Terminus版本展现出更为突出的进步。BrowseComp测试从30.0显著提升至38.5，增幅达28.3%，而中文版本BrowseComp-zh则从49.2降至45.0。SimpleQA准确率从93.4%提升至96.8%，增长3.6个百分点。软件工程相关测试中，SWE Verified从66.0提升至68.4，SWE-bench Multilingual从54.5提升至57.8，增幅为6.1%。Terminal-bench测试更是从31.3跃升至36.7，提升幅度达17.3%。

从测试数据可以看出，Terminus版本在复杂推理任务和工具调用能力方面取得了显著进步，特别是在网页浏览、软件工程和终端操作等实际应用场景中表现突出。

在功能层面，『DeepSeek』-V3.1-Terminus版本对Code Agent和Search Agent的性能进行了深度优化，这两个核心组件在代码生成、调试优化以及信息检索、内容理解方面的准确性和响应效率都实现了明显提升。

『DeepSeek』-R2本预计为5月发布，可随后该模型发布被推迟，因此『DeepSeek』接下来发布的模型，就很有可能是『DeepSeek』-R2了。（作者/苗正）