『DeepSeek』 V3.1上线:架构调整与能力优化并存(deepkey)

『DeepSeek』于8月19日晚间上线了全新的V3.1版本,官方强调上下文长度拓展至128k,但此次更新的核心在于模型底层架构的演进。V3.1采用混合推理架构,使用一个模型同时支持思考模式与非思考模式,用户通过API调用时,模型明确标识为V3,而非过去的R1。这种架构调整简化了部署和运维,提高了算力利用效率,但也可能影响非推理任务的能力。

在能力优化方面,『DeepSeek』 V3.1的编程能力大幅提升。根据Aider编程基准测试数据,V3.1取得了71.6%的高分,超越了此前的R1版本和闭源模型Claude 4 Opus。在SVGBench测试中,V3.1仅次于GPT-4.1-mini,远超前代R1;在多任务语言理解的MMLU测试中,V3.1得分达到88.5%,表现不逊于GPT-5。不过,在研究生级别问答(GPQA)和软件工程(SWE-Bench)等领域,V3.1与GPT-5相比仍存在差距。

『DeepSeek』 V3.1的成本效益也显著提升。完成一次完整的编程任务,V3.1的成本仅需约1.01美元💵,远低于Claude 4 Opus(便宜68倍)。官方宣布的最新价格表显示,输入价格为0.5元/百万tokens(缓存命中),4元/百万tokens(缓存未命中),输出价格为12元/百万tokens,该价格于2025年9月6日00:00起生效。成本下降主要得益于思维链压缩训练,减少了无意义的思维链输出。

V3.1的智能体能力也显著增强,通过后训练优化,新模型在工具使用与智能体任务中表现突出。在SWE-bench Verified基准测试中,V3.1得分66.0分,远超前代;在Terminal-Bench测试中,V3.1得分31.3分,是前代的五倍以上。在网页浏览和工具调用能力上,V3.1也获得了全面增强。

然而,V3.1的“模型融合”策略引发了社区的激烈争论。部分用户反馈,V3.1版本重新出现了幻觉严重和中英夹杂的问题,且在面对复杂问题时表现出“能省则省”的倾向。此外,『DeepSeek』激进的更新策略也引发了商业API用户的不满,新模型直接覆盖旧模型,且不提供旧版本的API,导致线上生产业务的API可能在毫无预警的情况下被更改,严重影响了商业应用的稳定性。

特别声明:[『DeepSeek』 V3.1上线:架构调整与能力优化并存(deepkey)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

谁能杀死美团?(谁能杀死美团外卖员)

但在刚刚过去的2025年,美团被看得见的敌人和看不见的敌人围剿到年底,曾经深不可测的护城河被一次次凿开。 已经牺牲了“团好货”和美团优选,美团必须死保即时零售这个不能退让的核心战场,对于京东、阿里只是主业的…

谁能杀死美团?(谁能杀死美团外卖员)

实时投票系统如何颠覆传统民主决策?(实时投票工具)

前端负责与用户互动,后端负责业务处理,数据库用于存放投票信息,网络通信保障数据即时更新。 后端技术选用Node.js、SpringBoot等框架,确保了数据处理和服务接口的高效运行。 设计并实施实时投票系统…

实时投票系统如何颠覆传统民主决策?(实时投票工具)

iPhone高空诡异鼓包?落地自动复原!这不是自愈是警告⚠️(苹果手机高空坠落试验)

另一位用户的iPhone 15更夸张,两次乘机都出现鼓包,落地后均自动复原,直到去售后换了电池,这个问题才彻底消失。 第三种是结合使用体验判断:如果手机续航突然“尿崩”,以前充满能⽤一天,现在半天就没电;或者…

iPhone高空诡异鼓包?落地自动复原!这不是自愈是警告⚠️(苹果手机高空坠落试验)

市场预警:内存价格涨势未止,预计一季度再飙涨50%

内存现在的价格已经算是坐上火箭了,价格达到了让人无法接受的程度,然而这远远不是内存的终点,由于DRAM颗粒严重的供不应求,导致整个行业正处于前所未有的疯狂期,目前有消息称内存价格将会在今年第一季度继续上涨50…

市场预警:内存价格涨势未止,预计一季度再飙涨50%

追光而行,华宝新能的「光储『机器人』️」,在CES交出能源自主新答卷(追光而行什么意思)

现场工作人员向雷科技介绍,技术层面,华宝新能已布局全球专利超2248项,强大的研发实力是其产品创新的基础;生态层面,通过『数字化』M2C全球直销模式,华宝新能能紧密对接用户全场景需求,“研产销”一体化体系进一步…

追光而行,华宝新能的「光储『机器人』️」,在CES交出能源自主新答卷(追光而行什么意思)