『DeepSeek』-V3.1最终版本发布!R2可能真的要来了
9月22日,『DeepSeek』线上模型正式升级至『DeepSeek』-V3.1-Terminus版本,这一命名选择引发了业界广泛关注和解读。Terminus源自拉丁语,意为“终点”,意味着该版本是『DeepSeek』-V3.1系列的最终版本。此次更新主要针对前期版本存在的核心技术问题进行了系统性优化,其中最显著的改进是有效缓解了中英文混杂输出的问题
在推理能力测试方面,新版本在MMLU-Pro测试中从84.8分提升至85.0分,GPQA-Diamond测试从80.1分提升至80.7分。最为显著的改进体现在Humanity's Last Exam测试中,分数从15.9大幅跃升至21.7,提升幅度达到36.5%。代码相关测试中,LiveCodeBench从74.8微升至74.9,而Codeforces评分从2091略降至2046,Aider-Polyglot从76.3微降至76.1。
在智能体工具使用能力方面,Terminus版本展现出更为突出的进步。BrowseComp测试从30.0显著提升至38.5,增幅达28.3%,而中文版本BrowseComp-zh则从49.2降至45.0。SimpleQA准确率从93.4%提升至96.8%,增长3.6个百分点。软件工程相关测试中,SWE Verified从66.0提升至68.4,SWE-bench Multilingual从54.5提升至57.8,增幅为6.1%。Terminal-bench测试更是从31.3跃升至36.7,提升幅度达17.3%。
从测试数据可以看出,Terminus版本在复杂推理任务和工具调用能力方面取得了显著进步,特别是在网页浏览、软件工程和终端操作等实际应用场景中表现突出。
在功能层面,『DeepSeek』-V3.1-Terminus版本对Code Agent和Search Agent的性能进行了深度优化,这两个核心组件在代码生成、调试优化以及信息检索、内容理解方面的准确性和响应效率都实现了明显提升。
『DeepSeek』-R2本预计为5月发布,可随后该模型发布被推迟,因此『DeepSeek』接下来发布的模型,就很有可能是『DeepSeek』-R2了。(作者/苗正)




