MMLU、MMLU-Pro等基准中,『DeepSeek』-V3得分达88.5,接近GPT-4o(82)

MMLU、MMLU-Pro等基准中,『DeepSeek』-V3得分达88.5,接近GPT-4o(82)
一、MMLU(Massive Multitask Language Understanding)

『DeepSeek』-V3 在 MMLU(Massive Multitask Language Understanding) 基准测试中展现了卓越的性能,成为当前开源大型语言模型中的佼佼者,并在多项子任务中接近甚至超越顶尖闭源模型。以下是其表现及技术亮点的详细解析:

1. 综合性能表现

  • MMLU(5-shot):『DeepSeek』-V3 在 MMLU 测试中取得了 87.1% 的准确率,显著优于前代模型(如 『DeepSeek』-V2 的 78.4%),并接近闭源模型 GPT-4o(约 87.2%)和 Claude-3.5-Sonnet(88.3%)的水平。
  • MMLU-Pro(5-shot):在更复杂的 MMLU-Pro 测试中,其准确率为 75.9%,高于 Meta 的 Llama 3.1 405B(73.3%)和 Qwen2.5 72B(71.6%),但略低于 Claude-3.5-Sonnet(78.0%)。
  • MMLU-Redux:在包含对抗性问题的 MMLU-Redux 测试中,『DeepSeek』-V3 以 86.2% 的准确率 领先于同类模型。

对比其他模型

模型MMLU (Acc.)MMLU-Pro (Acc.)MMLU-Redux (Acc.)『DeepSeek』-V387.1%75.9%86.2%GPT-4o-051387.2%72.6%88.0%Claude-3.5-Sonnet88.3%78.0%88.9%Qwen2.5-72B85.0%71.6%83.2%

2. 技术优势支撑性能

『DeepSeek』-V3 的高效表现源于其创新架构与训练策略:

  • 混合专家架构(MoE):总参数量达 671B,但每个 token 仅激活 37B 参数,动态分配计算资源以提升推理效率。
  • 多头潜在注意力(MLA):通过低秩压缩技术减少键值缓存(KV Cache)的内存占用,降低推理延迟,同时保持与标准注意力机制相当的精度。
  • 多令牌预测(MTP):预测未来多个 token 以提升训练效率,并可通过推测解码加速推理速度达 1.8 倍。
  • FP8 混合精度训练:结合 FP8 低精度计算与高精度参数存储,减少 GPU 内存占用,同时维持训练稳定性,显著降低成本。

3. 细分领域表现

  • 中文知识理解:在 C-SimpleQA(中文事实性知识)测试中,『DeepSeek』-V3 以 64.8% 的正确率 超过 GPT-4o(59.3%)和 Claude-3.5-Sonnet(51.3%),凸显其在中文场景的优化。
  • 数学与代码能力
  • MATH-500:准确率高达 90.2%,远超 GPT-4o(74.6%)和 Llama 3.1(73.8%)。
  • HumanEval:代码生成任务 Pass@1 达 65.2%,优于 Qwen2.5(53.0%)和 Llama 3.1(54.9%)。

4. 成本与效率的平衡

  • 训练成本:完整训练仅消耗 278.8 万 H800 GPU 小时,总成本约 557.6 万美元💵,仅为 GPT-4 的十分之一。
  • 推理速度:通过算法优化,生成速度提升至 60 TPS(每秒处理 token 数),较前代模型提升 3 倍。

5. 开源生态与行业影响

  • 开源支持:『DeepSeek』-V3 开源了 FP8 权重,支持通过 SGLang、LMDeploy 等框架在『英伟达』和 AMD GPU 上运行,开发者可灵活部署。
  • 行业竞争力:其高性能与低成本对未找到核心场景的大模型公司构成威胁,尤其在代码、数学等垂直领域可能快速形成壁垒。

总结

『DeepSeek』-V3 在 MMLU 系列测试中的表现不仅巩固了其作为“最强开源模型”的地位,还通过技术创新与成本控制为行业树立了新标杆。尽管在通用性上仍需追赶闭源模型,但其在中文知识、数学推理等领域的优势,以及经济高效的训练模式,已为 AI 开发提供了更普惠的解决方案。

二、MMLU-Pro

『DeepSeek』-V3 在 MMLU-Pro 基准测试中展现了卓越的性能,成为当前开源模型中的顶尖选手,并在多项子任务中接近甚至超越闭源模型。

以下是其表现及技术亮点的详细解析:

1. MMLU-Pro 性能表现

  • 综合成绩:『DeepSeek』-V3 在 MMLU-Pro(5-shot)测试中取得了 75.9% 的准确率,显著优于前代模型 『DeepSeek』-V2(51.4%)和其他主流开源模型(如 Qwen2.5-72B 的 71.6%),且接近闭源模型 Claude-3.5-Sonnet(78.0%)的水平。
  • 对比闭源模型:尽管与 Claude-3.5-Sonnet 仍有微小差距,但 『DeepSeek』-V3 在复杂推理任务中的表现已大幅缩小开源与闭源模型的性能鸿沟。

主要竞争对手对比

模型MMLU-Pro(5-shot 准确率)模型类型激活参数量『DeepSeek』-V375.9%开源 MoE37BClaude-3.5-Sonnet78.0%闭源-Qwen2.5-72B71.6%开源 Dense72BLlama-3.1-405B73.3%开源 Dense405B

2. 技术优势支撑 MMLU-Pro 表现

『DeepSeek』-V3 的高效表现源于其创新架构与训练策略:

  • 混合专家架构(MoE):总参数量达 671B,但每个 token 仅激活 37B 参数,动态分配计算资源以提升推理效率。
  • 无辅助损失『负载均衡』:通过动态调整专家偏置项实现『负载均衡』,避免了传统辅助损失对模型性能的负面影响,确保训练稳定性和效率。
  • 多令牌预测(MTP):预测未来多个 token 以提升数据利用效率,并通过推测解码加速推理速度达 1.8 倍。
  • FP8 混合精度训练:结合 FP8 低精度计算与高精度参数存储,减少 GPU 内存占用,同时维持训练稳定性,显著降低成本。

3. 细分领域表现

在 MMLU-Pro 的细分领域(如计算机科学、数学、物理等)中,『DeepSeek』-V3 的亮点包括:

  • 数学推理:在 MATH-500 测试中以 90.2% 的准确率超越 GPT-4o(74.6%)和 Claude-3.5-Sonnet(78.3%)。
  • 代码能力:在编程竞赛基准 LiveCodeBench 中以 40.5% 的 Pass@1 成绩领先,接近 Claude-3.5-Sonnet(36.3%)。
  • 中文知识:在中文事实性知识测试(C-SimpleQA)中以 64.8% 的正确率超过 GPT-4o(59.3%)和 Claude-3.5-Sonnet(51.3%)。

4. 局限性及对比分析

  • 上下文窗口:『DeepSeek』-V3 的上下文长度扩展至 128K,但仍小于 Claude-3.5-Sonnet 的 200K,可能影响超长文本任务的表现。
  • 评估波动性:部分第三方测试(如 Hugging Face 的 MMLU-Pro CS 子集测试)显示其准确率为 78%,与官方数据存在差异,可能与测试范围或温度设置有关。

5. 行业影响与开源优势

  • 经济性:『DeepSeek』-V3 的完整训练仅需 557.6 万美元💵,是同类闭源模型成本的十分之一,为中小团队提供了高性能开源选择。
  • 多平台兼容:通过 SGLang 框架支持『英伟达』和 AMD GPU 推理,开发者可灵活部署。

总结

『DeepSeek』-V3 在 MMLU-Pro 测试中的表现不仅巩固了其作为“最强开源模型”的地位,还通过技术创新与成本控制为行业树立新标杆。尽管在通用性上仍需追赶闭源模型,但其在数学推理、中文知识等领域的优势,以及经济高效的训练模式,已为 AI 开发提供了更普惠的解决方案。未来若进一步扩展多模态能力,其竞争力或将进一步提升。

特别声明:[MMLU、MMLU-Pro等基准中,『DeepSeek』-V3得分达88.5,接近GPT-4o(82)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

福建南平,漂亮农村离异女子沈丹成网红:最有人间烟火气(福建南平百科)

银幕上正放映着她与德国丈夫引进的《西线无战事》——这尊奖杯🏆️本该放在梳妆台上,此刻却成了最特别的观影伴侣。"德国丈夫的预言,让这位当红女星开始了比演戏更疯狂的副业。她硬是把《玛丽娅·布劳恩的婚姻》整部电影台词用…

福建南平,漂亮农村离异女子沈丹成网红:最有人间烟火气(福建南平百科)

『巩俐』在晚宴上被拍,身材下垂竟还敢穿紧身衣,膀大腰圆毫无气质(『巩俐』的节目)

在影片中,她将九儿的坚韧、泼辣与对生活的热爱演绎得淋漓尽致,让观众们深深地记住了这个角色,也记住了『巩俐』这个名字。 总之,『巩俐』是中国演艺圈的一面旗帜,她的演艺成就、艺术追求和人生态度都值得我们深入学习和借鉴。…

『巩俐』在晚宴上被拍,身材下垂竟还敢穿紧身衣,膀大腰圆毫无气质(『巩俐』的节目)

『明星』️同款冲锋衣!三合一内胆可脱卸,上身又美又飒,一眼心动~(『明星』️同款冲锋衣排名)

一件颜值高、不畏湿冷、防风还保暖的冲锋衣,是这个季节的刚需~ 手感舒适顺滑,版型又不软塌,包容性好,秋季穿它透气舒适,不会特别的闷热! 特别是对于有的肚子的姐妹,真的可以买一件回家试试,是真的遮肉显瘦显高!…

『明星』️同款冲锋衣!三合一内胆可脱卸,上身又美又飒,一眼心动~(『明星』️同款冲锋衣排名)

52岁赵海燕豁出去了,不顾及副教授身份,赵大牛搞比赛她又唱又跳(赵海燕多大岁数了)

这位多才多艺的艺术家不仅拥有令人艳羡的学历背景,更在演艺道路上创造了属于自己的辉煌篇章。从最初与小沈阳夫妇合租的艰难岁月,到最终双双考入本山艺术大学并获得留校任教资格,这对模范夫妻用实力证明了坚持的力量。 在…

52岁赵海燕豁出去了,不顾及副教授身份,赵大牛搞比赛她又唱又跳(赵海燕多大岁数了)

免流量卡隐藏扣费陷阱,移动花卡免流APP清单(流量卡免流应用)

跳转链接是流量黑洞:从百度贴吧点击跳到携程的链接、从『抖音』『直播间』进入淘宝商品页……只要离开了免流APP的"核心环境",流量保护就失效了。但对于一个多任务用户(日均消耗3GB以上,频繁使用微信、传文件、更新系

免流量卡隐藏扣费陷阱,移动花卡免流APP清单(流量卡免流应用)