通义Qwen3非思考模型上新 多项能力达到Gemini2.5、GPT-4o水平

通义Qwen3非思考模型上新 多项能力达到Gemini2.5、GPT-4o水平

凤凰网科技讯 7月30日,阿里巴巴通义千问团队宣布推出Qwen3系列模型的最新版本 ——Qwen3-30B-A3B-Instruct-2507。这一非思考模式(non-thinking mode)的开源模型仅需激活3B参数,即可在多项核心能力上达到与Gemini 2.5-Flash(non-thinking)、GPT-4o等闭源模型相当的性能水平,同时在多语言覆盖、用户偏好对齐和长文本处理等领域实现突破性提升。目前,该模型已在魔搭社区(ModelScope)和HuggingFace平台全面开源。

作为Qwen3-30B-A3B模型中的新版本,Qwen3-30B-A3B-Instruct-2507延续了通义千问团队在架构创新上的优势,在大幅降低计算成本的同时,实现了与千亿级闭源模型的性能对标。官方数据显示,该模型在数学推理(AIME25测试得分61.3)、代码生成(LiveCodeBenchv6得分43.2)、研究生级物理和天文学问题(GPQA测试得分70.4)、人类偏好对齐(Arena-Hard v2得分69)、函数调用能力(BFCL-v3得分65.1)等关键基准测试中表现突出,部分指标甚至超越GPT-4o等。

在通用能力层面,模型全面强化了指令遵循、逻辑推理、数学、科学、编程及工具使用等多方面。在多语言的长尾知识覆盖方面,模型进步显著;在主观和开放任务中,新模型与进一步紧密对齐了用户偏好,可以生成更高质量的文本,为用户提供更有帮助的回答;长文本理解能力提升至256K。

通义千问是阿里巴巴达摩院自主研发的大语言模型系列,自2023年发布以来,已开源超200个模型,全球下载量突破3亿次,衍生模型数超10万个。

特别声明:[通义Qwen3非思考模型上新 多项能力达到Gemini2.5、GPT-4o水平] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

Prolyl Hydroxylase 3;脯氨酸羟化酶 3

功能研究显示,将 PAX2 导入 PAX2 - null COS - 7 细胞可促进细胞增殖,而共表达 PHD3可抑制这一过程,但羟基化酶缺陷的 PHD3 (H196A) 则无此抑制作用 。 Huang, …

Prolyl Hydroxylase 3;脯氨酸羟化酶 3

适马300-600mm F4 镜头为何成生态摄影利器?(适马300-600mm镜头)

300-600mm F4 DG OS |Sports镜头重量接近4000克,如果加上全画幅机身总重量在5000克左右,对于一支恒定光圈的变焦镜头来说,重量自然是可以接受的。适马300-600mm F4 D…

适马300-600mm F4 镜头为何成生态摄影利器?(适马300-600mm镜头)

小米手机拼图大法:一键把N张照片变一张,朋友圈点赞收割机!(小米手机拼图功能)

今天就来和大家分享一下这个隐藏的修图神器,从基础操作到高阶玩法一网打尽,让你的照片瞬间变身朋友圈爆款!用了小米的拼图功能后,我再也不用纠结"朋友圈发哪张"这个世纪难题了! 如果你也受够了单张照片的单调,可

小米手机拼图大法:一键把N张照片变一张,朋友圈点赞收割机!(小米手机拼图功能)

成毅《赴山海》告黑有了新进展!《赴山海》因谣言延播属实太冤(成毅《赴山海》空降播出)

一部倾注了台前幕后众多演员与工作者们无数心血的佳作,却在临近上映时遭遇无端谣言恶意竞争,被迫延播。而近日,一直备受观众们关注的《赴山海》剧组告黑也有了新的进展。 我以心中期待,且等谣言散去,也等《赴山海》…

成毅《赴山海》告黑有了新进展!《赴山海》因谣言延播属实太冤(成毅《赴山海》空降播出)

三星计划砍掉Galaxy S26标准版:主打高端,涨价势不可挡?(三星计划在中国的投资)

这几年即使是旗舰手机,其配置也有很大的不同,最明显的就是iPhone手机,包括高刷屏基本上只会用在Pro系列上,标准版则没有,因此只有Pro系列才算是真正的旗舰手机。如今作为手机巨头的三星则更进一步,计划直接…

三星计划砍掉Galaxy S26标准版:主打高端,涨价势不可挡?(三星计划在中国的投资)