核心速递:
- GLM-4.6 发布,榜单排名提升,价格不变
- 实测效果对齐 Claude 4,超越其他国产模型
- GLM 开发者包月套餐升级,1/7 价格取得 Claude 4 9/10 的效果,值得使用
这个国庆节,AI 圈主打一个谁都不许放假。
前有 Deepseek-V3.2 开源,后有 Claude Sonnet 4.5 突袭,头部 AI 公司都挤在节前这两天秀肌肉。
在这场混战里,智谱也放出了新模型 GLM-4.6,迄今智谱最强的 Coding 模型。
两个月前,我还在 中大力推荐 GLM。
认为综合质量、成本、速度,GLM 毫无疑问是当时最值得使用的国产 Coding 模型。智谱也凭此在 Openrouter 上,模型调用收入一跃超过其他国产模型收入之和。
而这次 GLM-4.6,则带来了更多提升:
本文将从模型信息、实测效果(直接对比 Claude 4.5、Deepseek V3.2)、价格、综合结论等方面,给到有价值的实测参考信息。
💡 GLM 模型:特性一图速览
智谱这次只发 1 款模型:
GLM-4.6,大杯,355B-A32B。
在真实编程、上下文长度、token 效率、推理能力、Agent 任务等维度,全方位提升。
这是我总结的官方介绍一图流,方便你快速了解新特性:
提炼这次升级的重点:
- Coding 能力升级:在 Claude Code 真实环境中,GLM-4.6 实际性能超越过往,比肩 Claude Sonnet 4
- 上下文长度增加:由 128K 提升至 200K,能支持一次性分析更复杂的项目代码(新 『DeepSeek』 V3.2 仍为 128K)
- Tokens 消耗减少:与前代相比,同类任务可节省 30% 以上 tokens 消耗,干活更快,花钱更少。
所以,真正的问题来了:
作为上季度的最强国产 Coding 模型,GLM-4.6 在遇到 Claude Sonnet 4.5、『DeepSeek』 V3.2 扎堆发布的情况,
是被迫原地踏步,还是再次超出预期?
🖥️ GLM-4.6:横测真实 Coding 场景
每次新模型的发布,用户在乎的其实是相对的结论:
1. 新模型,在目标任务中,排全球/国内模型第几?
2. 和当前在用的模型相比,有没有必要迁移?
以下是 GLM-4.6 和最新 Claude Sonnet 4.5、GPT-5 Codex、『DeepSeek』 V3.2,
以及上代但足够优秀的 Gemini 2.5 Pro、Claude Sonnet 4 等真实对比与结论。
也选了众多测试中,几个有代表性、方便观测对比差距的 Case,与你们分享:
1)经典素养测试:超长论文一图流生成
熟悉我的读者,应该知道我的经典 Benchmark:
让模型阅读长文后,自行提炼关键内容,总结生成一图流网页。
非常经典的任务设计,同时考验模型的长上下文任务表现、推理能力,以及前端 Coding 的质量与设计审美。
模型水平提升很快,这次也增加了任务难度,让 AI 直接挑战论文的提炼,生成总结一图流 html。
我测试用的是 OpenAI 最近发布的 Paper:《How people are using ChatGPT》。
PDF 共 64 页,9.3 MB,需要分析提炼的内容量相当大。(其他模型统一用 Cherry Studio 调用 API 进行测试)
这是两次不同的对比结果,一次与最新模型比,一次与前代 & 自身比:
1)GLM-4.6 与新模型对比:『DeepSeek』 V3.2、Claude Sonnet 4.5、GPT-5 Codex
- GLM-4.6:产出的长图排版十分合理,内容丰富度也不错
- 『DeepSeek』 V3.2 - reasoning :出现了部分图形空白,排版设计单一,重点不突出的问题
- GPT-5 Codex:在文字呈现上较其他模型更丰富深入,像完整报告;但出现了排版溢出的微小瑕疵
- Claude Sonnet 4.5:在布局结构、自主设计感上最具优势,详略得当(不过出现了一处数据幻觉,可以接受)
- 新模型本轮排名:Claude Sonnet 4.5> GPT-5 Codex ≈ GLM-4.6> 『DeepSeek』 V3.2
2)GLM-4.6 与前代对比:GLM-4.5、Claude Sonnet 4、Gemini 2.5 Pro、Qwen3-Max
- GLM-4.6 比起 前代 4.5,在布局设计与推理理解(从内容结构与提炼上看),提升明显
- 基本与 Claude Sonnet 4 持平?我感觉 GLM-4.6 似乎更好一点
- Gemini 2.5 Pro 得益于其独特的结构化思维链,在内容提炼上有独特之处,读起来更容易理解。但前端设计略逊与 GLM
- Qwen3 最近更新了一个 Max 版本,内容丰富度可以。但语言一致性上仍然存在问题,在中文 Prompt 下偏好输出英文,整体布局虽然没有 bug,但设计呈现效果不佳
- 与前代对比结果:GLM-4.6> Gemini 2.5 Pro ≈ Claude Sonnet 4> GLM-4.5 ≈ Qwen3-Max
整体来看,不难发现这个趋势:
这一波 9 月底的 Coding 模型,在推理、上下文注意力、编程稳定性与前端审美,都有了新一轮明显的进步。
本轮测试结论:GLM-4.6 没全守住,但又做得效果非常好。
面对 Claude 4.5 全球最新的顶级模型,GLM-4.6 在设计与长文理解上确实还差一口气。
但它依旧巩固了国产 Coding 模型的一流水准,较自身与前代国产模型有明显进步,甚至与 GPT-5 Codex 相比也互有长处。
考虑到它的高性价比,第一轮测试中,GLM-4.6 在自己的价格区间内,继续做到了最好。
2)垂直商业场景测试:利用统计数据,自行设计数据大屏
继续提升 Coding 任务难度:
我让 AI Deep Research 了24 年国庆节全国旅游数据,并把结果报告给到了 AI,
让其根据数据详情,自行设计一个静态数据大屏。
任务 Prompt 如下:
## 任务
请为旅游行业的决策者,设计并开发一个“2024年国庆黄金周旅游数据智慧大屏”。最终成品需要在一个单页的HTML文件中包含所有代码,确保能直接在浏览器中打开运行。
决策者需要通过这一块屏幕,快速、直观地了解2024年国庆假期的旅游市场全貌,把握核心亮点、发现潜在趋势。
# 要求
视觉: 非常专业、极度美观、一屏统览。
信息: 高信息密度,关键指标一目了然,配合丰富的可视化图表。
动态与交互: 数据加载时有动态效果,配合动效能够响应用户的操作。
其他:不要引用外部组件,防止无法加载、显示的情况
## 核心数据(以文本格式贴入 Prompt)
[2024年国庆黄金『周深』度洞察报告], [表1:2024年国庆假期全国总体旅游数据], [表2:2024年国庆假期交通方式数据], [表3:2024年国庆假期部分省份旅游数据], [表4:2024年国庆假期文旅消费与活动数据], [表5:2024年国庆假期出入境旅游数据], [表6:2024年国庆假期游客画像数据]
这轮拉了 Claude Sonnet 4.5、GLM-4.5、Claude Sonnet 4、『DeepSeek』 V3.2 - reasoning、Gemini 2.5 Pro ,与 GLM-4.6 进行对比。
在没有任何设计风格 Prompt 引导下,各个模型在 1 轮任务 + 1 轮优化后,各个模型生成的前端如图所示:
结果令人意外,本轮测试排名:
- 第一梯队:GLM-4.6≈ Claude Sonnet 4.5
- 第二梯队:Claude Sonnet 4 ≈ Gemini 2.5 Pro
- 第三梯队:GLM-4.5 ≈ 『DeepSeek』 V3.2
这个结果,说实话,完全超出了我的预料,我本以为这会是 Claude 4.5 的主场,但 GLM-4.6 给足了惊喜:
- 在无任何额外 Prompt 指导下,GLM-4.6 取得的效果与 Claude 新模型 Sonnet 4.5 相比丝毫不逊色。更是较 『DeepSeek』 V3.2 以及包括 Claude 4 在内的一众前代模型,有了长足的进步。
- 而数据大屏一向是 To B 软件相当重要的商业化工作。按照 GLM-4.6 的本轮效果,对国内 To B 软件行业,绝对算是重大效率改进。
,其自动排版的底模也选择了 GLM-4.6。
一次胜出是巧合,那两次、三次呢?
可能不得不承认,在需要结合编程与审美的 Coding Agent 任务上,GLM-4.6 可能已经找到了自己的甜点区。
💰 如何定价?Coding Plan 全面升级
聊完了性能,我们再聊点更实在的——价格。
而 GLM-4.6 发布后,除了常规按量付费定价如下外:
智谱也自动升级了 GLM-4.5 时期推出的 GLM Coding Plan 套餐:
- 模型升级:此前已订阅用户,自动升级至 GLM-4.6
- 能力扩展:新增了图像识别与搜索能力
- 更重要的是,价格方面:低至 ¥20/月,Lite/Pro/Max 计划分别每 5 小时提供 120/600/2400 次 Prompts 额度,每月总计可用总量高达几十亿到数百亿 tokens(大概是等量 API 价格的 0.1 折)
- 平台兼容:支持 Claude Code、Roo Code、Kilo Code、Cline等 10+ 编程工具
结合此前的测试结果,你或许可以把 GLM-4.6 视作……
⬇️
大概只用 Claude 1/7 的价格,换来真实开发场景中,超越昨天发布的 『DeepSeek』-V3.2,比肩 Claude Sonnet 4,甚至一些场景还能不弱于 Claude 4.5 的开发体验?
总之,数据不会撒谎:
自打 GLM-4.5 开放 Coding Plan 以来,智谱 MaaS 开放平台的 API 商业化,已实现 10 倍以上的增长。
开发者们,早已用真金白银,进行了投票。
👉 在哪试用 GLM-4.6 ?
- C 端对话:z.ai 、智谱清言已全面支持 GLM-4.6
- API 使用:国内用户通过 bigmodel.cn,海外用户通过 z.ai
- 开源部署:GLM-4.6 将在 Hugging Face、ModelScope发布
- GLM Coding Plan 购买:通过 bigmodel.cn直接购买,支持个人与企业版两类套餐
🎐 写在最后:GLM-4.6,最好的国产 Coding 模型
写到这里,我对 GLM-4.6 的密集测试,总算暂告一段落。
说实话根本没想到在国庆节前最后 2 天,会迎来如此密集的模型发布。(本来都要去度假了……)
一方面,是调用成本降低 50% 的 『DeepSeek』 V3.2,
一方面,Anthropic 家发布 Claude Sonnet 4.5 模型,再次刷新 AI Coding 能力天花板。
在这波 9 月底的模型扎堆迭代的“神仙打架”中,再回头看 GLM-4.6:
- 经典长文一图流测试中,GLM-4.6 的综合表现稳压过了 『DeepSeek』 V3.2 新品与国内其他模型,比肩 Claude 4,甚至能与 GPT-5 Codex 有来有回
- 在本轮贴近商业开发场景的数据大屏测试中,甚至与 Claude 4.5 相比也不逊色,更是明显优于前代模型
这些实测结果,让最后的结论变得不言而喻:
结合性能以及越来越值的 GLM Coding Plan ,GLM-4.6 守住了它「国产最好用 Coding 模型」称号。
GLM-4.6 可能还无法在每一个维度上都比肩像 Claude 4.5 这样“天花板”级别的存在,但它用一个极具诚意的价格,为你提供了一个在绝大多数场景下都“足够好用”,甚至时常有惊喜的 Coding 模型选择。
还是那句话,如果你有 Coding、Agent 任务需求,并且在乎“用得爽”和“用得起”,GLM-4.6 绝对值得你花时间亲自上手试试。
我也很期待你的实测反应与反馈。
希望一泽的文章对你有所启发。
如果觉得这波内容不错,希望帮忙