阿里巴巴已推出Qwen3-Coder,这是其迄今最先进的AI编码模型,旨在与西方领先的模型在编程任务上直接竞争。
模型架构与大规模训练
Qwen3-Coder 是 Qwen3 系列的最新成员,该系列于 4 月由阿里巴巴推出,用于通用 AI 应用。 阿里巴巴将此编码版本描述为其迄今最自主代理的模型,旨在处理复杂的多步骤开发工作流程。 其旗舰型号Qwen3-Coder-480B-A35B-Instruct采用专家混合架构,拥有4,800亿个参数,其中350亿个可同时启用。 该模型原生支持高达256,000个token的上下文窗口,并可选择扩展至100万个。
阿里巴巴以7.5万亿个token的庞大数据集训练Qwen3-Coder,其中代码占70%。 为准备这些数据,阿里巴巴使用其先前的Qwen2.5-Coder模型来清理并重写训练语料库。 在后续训练中,阿里巴巴应用了长期强化学习,透过与环境的多阶段互动,教导模型使用工具并处理回馈。 阿里巴巴在Alibaba Cloud上建立了可运行20,000个并行环境的基础设施,以支持此方法。
可与Claude Sonnet 4媲美
阿里巴巴表示 Qwen3-Coder 在需要物理定律推理的任务上表现出色,这是编码模型的常见基准。 根据阿里巴巴的说法,该模型在基于代理的编码、浏览器自动化和工具使用方面,其成绩可与Claude Sonnet 4媲美。
在用于软件工程任务的 SWE-Bench Verified 基准测试中,Qwen3-Coder 在开源模型中展现了最先进的性能,值得注意的是,它无需依赖测试时缩放(通常在推论期间需要额外的计算资源)。 Avi Chawla 进一步比较了 Qwen3-Coder 和 Claude Sonnet 4 在十项 MCP 服务器开发任务中的表现,结果 Qwen3-Coder 在九个案例中胜出,持续取得更高的正确性分数。
以 Gemini Code 为基础
与新模型同时发布的还有 Qwen Code,这是一款供开发者使用的命令行工具。 Qwen Code 以 Gemini Code 为基础,但针对 Qwen3-Coder 进行了优化,更新了提示词和函数呼叫协议,并支持 OpenAI SDK 和环境变量配置。 Qwen3-Coder 还能与现有的开发者工具无缝整合; 例如,搭配Claude Code使用时,需要从Alibaba Cloud Model Studio取得API密钥。
阿里巴巴计划推出更多不同规划的Qwen3-Coder模型,以在降低部署成本的同时提供强劲性能。 阿里巴巴也在探索编码代理是否能随时间自我改进。 尽管480B模型对于标准GPU来说过大,但可通过Alibaba Cloud Model Studio取得API访问权。
开源替代方案
这次发布将 Qwen3-Coder 定位为 Anthropic 和 Google 等公司专有编码助理的开源替代方案,使其有别于大多数西方竞争对手。 鉴于编码任务通常涉及处理大量代码库或文件,API成本可能迅速增加,有时会迫使用户订阅昂贵的服务。 Qwen3-Coder 强大的开源性能可能会对这些供应商构成价格压力。