阿里AI四连发,横扫全球开源榜单第一名(阿里的连招)

阿里AI四连发,横扫全球开源榜单第一名(阿里的连招)

阿里巴巴通义团队用四连发的重磅出击,横扫Github开源榜单。

本周从7月22日到25日,阿里接连推出Qwen3-235B非思考版本、Qwen3-Coder编程模型、Qwen3-235B-A22B-Thinking-2507推理模型,以及WebSailor AI Agent框架,四款产品横扫基础模型、编程模型、推理模型和智能体领域的开源榜单。

权威机构Artificial Analysis更是直接评价:

『通义千问』3是全球最智能的非思考基础模型。

非思考模型也能性能“爆表”

,周二凌晨阿里巴巴『通义千问』团队推出非思考模式(Non-thinking)最新模型,命名为Qwen3-235B-A22B-Instruct-2507-FP8。

这款非思考模型在多项关键基准测试中表现出色。不仅全面超越了Kimi-K2等顶级开源模型,甚至领先Claude-Opus4-Non-thinking等顶级闭源模型。

值得一提的是,本次更新的Qwen3模型在Agent能力尤其亮眼:在BFCL(Agent能力)测评中表现卓越。这意味着模型在理解复杂指令、自主规划、调用工具以完成任务的能力上,达到了一个新的高度。“主打Agent”,将是未来AI应用的核心竞争力。

编程模型引发社区沸腾

7月23日发布的Qwen3-Coder更是在全球开发者社区引发轰动。

,这款基于MoE架构的编程模型拥有480B总参数,35B激活参数,原生支持256K上下文,可扩展至1M。

在开发者最关注的SWE-bench Verified基准测试中,Qwen3-Coder取得了开源模型最佳表现。

模型在7.5万亿token规模上训练,其中包含70%代码数据,并通过长时程强化学习和2万个虚拟环境的大规模实战训练,在真实世界的多轮交互任务中展现出色能力。

阿里还推出了配套的命令行工具Qwen Code,为开发者提供了完整的编程解决方案。

科技界领袖纷纷为Qwen3-Coder点赞,例如Perplexity CEO Aravind Srinivas盛赞Qwen3-coder的实力:

成果令人惊叹,开源正在获胜。

推特创始人Jack Dorsey更是强调Qwen3和Goose——其Block公司开发的AI Agent框架,搭配使用的话非常棒:

goose配合Qwen3-Coder等于哇哦

AI Agent框架挑战闭源垄断

阿里通义实验室同期开源的WebSailor AI Agent框架,直接对标OpenAI的Deep Research产品。

这款框架在BrowseComp-en/zh测试中性能显著优于所有开源智能体,可媲美专属闭源模型。

WebSailor采用复杂任务生成和强化学习模块的双重技术架构。通过构建复杂知识图谱和动态采样策略,系统能够在海量信息中进行高效检索和推理。

除了在复杂任务上的卓越表现,WebSailor在简单任务上也表现出色。例如,在SimpleQA基准测试中,WebSailor的性能超过了所有其他模型产品。

该项目在GitHub已获得超过5000颗星,并曾拿下每日增长趋势第一名。

WebSailor的核心技术主要围绕复杂任务生成和强化学习模块展开,这两个模块相互配合,共同推动了开源智能体在复杂信息检索任务中的性能提升。

该框架的开源意义重大,打破了闭源系统在信息检索领域的垄断地位,为全球开发者提供了媲美Deep Research的开源解决方案。

推理模型登顶全球开源冠军

7月25日发布的Qwen3-235B-A22B-Thinking-2507成为本周最重磅的产品。

  • AIME25(数学)达到92.3分。
  • LiveCodeBench v6(编程)获得74.1分。
  • WritingBench(写作)达到88.3分。
  • PolyMATH(多语言数学)获得60.1分。

更详细的榜单表现来看,Qwen3推理模型相较于其他模型来看也毫不逊色(除了 R1,其他都是顶尖闭源模型)。

该模型采用MoE架构,总参数235B,激活参数22B,拥有94层结构和128个专家系统,原生支持262,144 tokens上下文长度。模型专为思考模式构建,默认聊天模板自动包含思考标签,为深度推理提供了强大支撑。

OpenRouter数据显示,阿里千问的API调用量在过去几天暴涨,已超过1000亿tokens,包揽最热门调用模型前三名。这一数据直接反映了市场对阿里开源模型的认可度。

全球网友也是被通义的最强推理模型给惊呆了。有网友直接表示:

中国的开源o4-mini。

AI Thinkers更是评论道:

中国刚刚发布了一款怪物级的AI模型

特别声明:[阿里AI四连发,横扫全球开源榜单第一名(阿里的连招)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

好人家水煮鱼调料198g到底有多香?餐厅同款家用真香警告⚠️🔥(好人家水煮鱼调料好吃吗)

想在家复刻川菜馆级水煮鱼却怕味道不正宗?好人家198g水煮鱼调料,源自川渝地道配方,还原饭店级麻辣鲜香!含辣椒、花椒、豆瓣酱等核心配料,无需复杂步骤,一包搞定锅气十足的招牌菜。适合家庭聚餐、朋友小聚,价格亲民,是新手下厨也能秒变大厨的秘密武

好人家水煮鱼调料198g到底有多香?餐厅同款家用真香警告⚠️🔥(好人家水煮鱼调料好吃吗)

“空天地”无人巡检保供电

国网恩施供电公司来凤运维班班长王强介绍,通过远程智能巡视系统,就能按照预设的时间和航线,对变电站内247个固定巡视点进行精细巡查和红外测温。该公司运检部副主任李清静表示,自去年9月该变电站建成“空天地”一体…

“空天地”无人巡检保供电

五星级酒店同款!100支长绒棉床笠怎么选?纯棉席梦思床垫套全解析(五星级酒店同款 广告法)

你是不是也羡慕五星级酒店的舒适睡眠体验?100支长绒棉床笠就是“『云朵』级”睡感的秘密武器!本文从材质原理、支数含义、适用场景到选购技巧全揭秘,教你一眼识别真·高支高密,避开“伪高端”陷阱。适合追求品质睡眠的精致生活家、过敏体质人群及注重家居质

五星级酒店同款!100支长绒棉床笠怎么选?纯棉席梦思床垫套全解析(五星级酒店同款 广告法)

iPhone 17“又丑又土”怎么还是抢不到 预售火爆引发热议

今年的iPhone 17因设计独特,在发布前被网友广泛吐槽。然而,9月12日晚八点开启预售时,『互联网』上立刻上演了一出从“嫌弃”到“手慢无”的戏码。当晚,无论是官方还是电商渠道都出现了不同程度的加载缓慢情况

iPhone 17“又丑又土”怎么还是抢不到 预售火爆引发热议

“只收梦想,不收租金”!“零租金”的风吹到多个大城市 城市间的“零租金”竞赛

“梦想”能抵扣房租的时代到来了。今年以来,随着深圳提出“只收梦想,不收租金”的口号,国内多个城市的国资企业相继对符合条件的企业抛出“免租金入驻”的橄榄枝,掀起了一场前所未有的“零租金”风暴

“只收梦想,不收租金”!“零租金”的风吹到多个大城市 城市间的“零租金”竞赛