DeepSeek V3.1上线:架构调整与能力优化并存(deepkey)

<strong>DeepSeek</strong> V3.1上线:架构调整与能力优化并存(deepkey)

DeepSeek于8月19日晚间上线了全新的V3.1版本,官方强调上下文长度拓展至128k,但此次更新的核心在于模型底层架构的演进。V3.1采用混合推理架构,使用一个模型同时支持思考模式与非思考模式,用户通过API调用时,模型明确标识为V3,而非过去的R1。这种架构调整简化了部署和运维,提高了算力利用效率,但也可能影响非推理任务的能力。

在能力优化方面,DeepSeek V3.1的编程能力大幅提升。根据Aider编程基准测试数据,V3.1取得了71.6%的高分,超越了此前的R1版本和闭源模型Claude 4 Opus。在SVGBench测试中,V3.1仅次于GPT-4.1-mini,远超前代R1;在多任务语言理解的MMLU测试中,V3.1得分达到88.5%,表现不逊于GPT-5。不过,在研究生级别问答(GPQA)和软件工程(SWE-Bench)等领域,V3.1与GPT-5相比仍存在差距。

DeepSeek V3.1的成本效益也显著提升。完成一次完整的编程任务,V3.1的成本仅需约1.01美元💵,远低于Claude 4 Opus(便宜68倍)。官方宣布的最新价格表显示,输入价格为0.5元/百万tokens(缓存命中),4元/百万tokens(缓存未命中),输出价格为12元/百万tokens,该价格于2025年9月6日00:00起生效。成本下降主要得益于思维链压缩训练,减少了无意义的思维链输出。

V3.1的智能体能力也显著增强,通过后训练优化,新模型在工具使用与智能体任务中表现突出。在SWE-bench Verified基准测试中,V3.1得分66.0分,远超前代;在Terminal-Bench测试中,V3.1得分31.3分,是前代的五倍以上。在网页浏览和工具调用能力上,V3.1也获得了全面增强。

然而,V3.1的“模型融合”策略引发了社区的激烈争论。部分用户反馈,V3.1版本重新出现了幻觉严重和中英夹杂的问题,且在面对复杂问题时表现出“能省则省”的倾向。此外,DeepSeek激进的更新策略也引发了商业API用户的不满,新模型直接覆盖旧模型,且不提供旧版本的API,导致线上生产业务的API可能在毫无预警的情况下被更改,严重影响了商业应用的稳定性。

特别声明:[DeepSeek V3.1上线:架构调整与能力优化并存(deepkey)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

不愧为超模出身,简单一身白色穿搭,也时髦高级(不愧为超模出身什么意思)

不愧为超模出身,简单一身白色<strong>穿搭</strong>,也时髦高级(不愧为超模出身什么意思)

阿富汗客车司机超速行驶致76死 事故原因曝光(阿富汗的车)

阿富汗西部赫拉特省当地时间19日晚发生了一起严重的交通事故,导致超过50人死亡,其中包括10多名儿童。事故发生在一辆从伊朗返回阿富汗的客车上,该车正前往首都喀布尔。在行驶至赫拉特市附近时,客车与一辆卡车和一辆摩托车相撞并引发火灾

阿富汗客车司机超速行驶致76死 事故原因曝光(阿富汗的车)

谷歌称“绿蓝气泡”之争已翻篇:RCS 让安卓iOS 信息沟通无障碍

8 月 21 日消息,今天召开的 2025 年 Made by Google 发布会上,Google 市场副总裁 AdrienneLofton 宣布,关于“绿泡 vs 蓝泡”短信颜色之争已经结束。…

谷歌称“绿蓝气泡”之争已翻篇:RCS 让<strong>安卓</strong>iOS 信息沟通无障碍

真维斯品牌运动大使邓丽娟勇夺2025成都世运会攀岩“双冠”(真维斯是运动品牌吗)

在第十二届世界运动会攀岩赛场上,真维斯品牌运动大使、中国国家攀岩队运动员邓丽娟,凭借精准的技术动作和出色的爆发力,留下了她职业生涯的荣耀时刻。从巅峰到转型,再到品牌焕新,真维斯携手攀岩世界冠军邓丽娟,以拼搏诠…

真维斯品牌运动大使邓丽娟勇夺2025成都世运会攀岩“双冠”(真维斯是运动品牌吗)

消失太久的吴磊,终究还是走了胡歌的老路(消失太久的朋友圈文案)

在《星汉灿烂》中,他饰演了一位遭受家暴的阴沉将军;在《爱情而已》中,他则化身为被姐姐驯化的年下小奶狗;而在《暴雪时分》中,他为角色“哑巴”台球手更是奉献了不超过200句的台词。 虽然在过去三年里,他仅播出两部…

消失太久的<strong>吴磊</strong>,终究还是走了<strong>胡歌</strong>的老路(消失太久的朋友圈文案)