GLM-4.6 首发实测：和 Claude 4.5 比怎么样？(glm26) #科技 #对比 #『DeepSeek』 #Coding #实测 #模型

核心速递：

GLM-4.6 发布，榜单排名提升，价格不变
实测效果对齐 Claude 4，超越其他国产模型
GLM 开发者包月套餐升级，1/7 价格取得 Claude 4 9/10 的效果，值得使用

这个国庆节，AI 圈主打一个谁都不许放假。

前有 Deepseek-V3.2 开源，后有 Claude Sonnet 4.5 突袭，头部 AI 公司都挤在节前这两天秀肌肉。

在这场混战里，智谱也放出了新模型 GLM-4.6，迄今智谱最强的 Coding 模型。

两个月前，我还在中大力推荐 GLM。

认为综合质量、成本、速度，GLM 毫无疑问是当时最值得使用的国产 Coding 模型。智谱也凭此在 Openrouter 上，模型调用收入一跃超过其他国产模型收入之和。

而这次 GLM-4.6，则带来了更多提升：

本文将从模型信息、实测效果（直接对比 Claude 4.5、Deepseek V3.2）、价格、综合结论等方面，给到有价值的实测参考信息。

💡 GLM 模型：特性一图速览

智谱这次只发 1 款模型：

GLM-4.6，大杯，355B-A32B。

在真实编程、上下文长度、token 效率、推理能力、Agent 任务等维度，全方位提升。

这是我总结的官方介绍一图流，方便你快速了解新特性：

提炼这次升级的重点：

Coding 能力升级：在 Claude Code 真实环境中，GLM-4.6 实际性能超越过往，比肩 Claude Sonnet 4
上下文长度增加：由 128K 提升至 200K，能支持一次性分析更复杂的项目代码（新『DeepSeek』 V3.2 仍为 128K）
Tokens 消耗减少：与前代相比，同类任务可节省 30% 以上 tokens 消耗，干活更快，花钱更少。

所以，真正的问题来了：

作为上季度的最强国产 Coding 模型，GLM-4.6 在遇到 Claude Sonnet 4.5、『DeepSeek』 V3.2 扎堆发布的情况，

是被迫原地踏步，还是再次超出预期？

🖥️ GLM-4.6：横测真实 Coding 场景

每次新模型的发布，用户在乎的其实是相对的结论：

1. 新模型，在目标任务中，排全球/国内模型第几？
2. 和当前在用的模型相比，有没有必要迁移？

以下是 GLM-4.6 和最新 Claude Sonnet 4.5、GPT-5 Codex、『DeepSeek』 V3.2，

以及上代但足够优秀的 Gemini 2.5 Pro、Claude Sonnet 4 等真实对比与结论。

也选了众多测试中，几个有代表性、方便观测对比差距的 Case，与你们分享：

1）经典素养测试：超长论文一图流生成

熟悉我的读者，应该知道我的经典 Benchmark：

让模型阅读长文后，自行提炼关键内容，总结生成一图流网页。

非常经典的任务设计，同时考验模型的长上下文任务表现、推理能力，以及前端 Coding 的质量与设计审美。

模型水平提升很快，这次也增加了任务难度，让 AI 直接挑战论文的提炼，生成总结一图流 html。

我测试用的是 OpenAI 最近发布的 Paper：《How people are using ChatGPT》。

PDF 共 64 页，9.3 MB，需要分析提炼的内容量相当大。（其他模型统一用 Cherry Studio 调用 API 进行测试）

这是两次不同的对比结果，一次与最新模型比，一次与前代 & 自身比：

1）GLM-4.6 与新模型对比：『DeepSeek』 V3.2、Claude Sonnet 4.5、GPT-5 Codex

GLM-4.6：产出的长图排版十分合理，内容丰富度也不错
『DeepSeek』 V3.2 - reasoning ：出现了部分图形空白，排版设计单一，重点不突出的问题
GPT-5 Codex：在文字呈现上较其他模型更丰富深入，像完整报告；但出现了排版溢出的微小瑕疵
Claude Sonnet 4.5：在布局结构、自主设计感上最具优势，详略得当（不过出现了一处数据幻觉，可以接受）
新模型本轮排名：Claude Sonnet 4.5＞ GPT-5 Codex ≈ GLM-4.6＞『DeepSeek』 V3.2

2）GLM-4.6 与前代对比：GLM-4.5、Claude Sonnet 4、Gemini 2.5 Pro、Qwen3-Max

GLM-4.6 比起前代 4.5，在布局设计与推理理解（从内容结构与提炼上看），提升明显
基本与 Claude Sonnet 4 持平？我感觉 GLM-4.6 似乎更好一点
Gemini 2.5 Pro 得益于其独特的结构化思维链，在内容提炼上有独特之处，读起来更容易理解。但前端设计略逊与 GLM
Qwen3 最近更新了一个 Max 版本，内容丰富度可以。但语言一致性上仍然存在问题，在中文 Prompt 下偏好输出英文，整体布局虽然没有 bug，但设计呈现效果不佳
与前代对比结果：GLM-4.6＞ Gemini 2.5 Pro ≈ Claude Sonnet 4＞ GLM-4.5 ≈ Qwen3-Max

整体来看，不难发现这个趋势：

这一波 9 月底的 Coding 模型，在推理、上下文注意力、编程稳定性与前端审美，都有了新一轮明显的进步。

本轮测试结论：GLM-4.6 没全守住，但又做得效果非常好。

面对 Claude 4.5 全球最新的顶级模型，GLM-4.6 在设计与长文理解上确实还差一口气。

但它依旧巩固了国产 Coding 模型的一流水准，较自身与前代国产模型有明显进步，甚至与 GPT-5 Codex 相比也互有长处。

考虑到它的高性价比，第一轮测试中，GLM-4.6 在自己的价格区间内，继续做到了最好。

2）垂直商业场景测试：利用统计数据，自行设计数据大屏

继续提升 Coding 任务难度：

我让 AI Deep Research 了24 年国庆节全国旅游数据，并把结果报告给到了 AI，

让其根据数据详情，自行设计一个静态数据大屏。

任务 Prompt 如下：

## 任务

请为旅游行业的决策者，设计并开发一个“2024年国庆黄金周旅游数据智慧大屏”。最终成品需要在一个单页的HTML文件中包含所有代码，确保能直接在浏览器中打开运行。

决策者需要通过这一块屏幕，快速、直观地了解2024年国庆假期的旅游市场全貌，把握核心亮点、发现潜在趋势。

# 要求

视觉: 非常专业、极度美观、一屏统览。

信息: 高信息密度，关键指标一目了然，配合丰富的可视化图表。

动态与交互: 数据加载时有动态效果，配合动效能够响应用户的操作。

其他：不要引用外部组件，防止无法加载、显示的情况

## 核心数据（以文本格式贴入 Prompt）

[2024年国庆黄金『周深』度洞察报告], [表1：2024年国庆假期全国总体旅游数据], [表2：2024年国庆假期交通方式数据], [表3：2024年国庆假期部分省份旅游数据], [表4：2024年国庆假期文旅消费与活动数据], [表5：2024年国庆假期出入境旅游数据], [表6：2024年国庆假期游客画像数据]

这轮拉了 Claude Sonnet 4.5、GLM-4.5、Claude Sonnet 4、『DeepSeek』 V3.2 - reasoning、Gemini 2.5 Pro ，与 GLM-4.6 进行对比。

在没有任何设计风格 Prompt 引导下，各个模型在 1 轮任务 + 1 轮优化后，各个模型生成的前端如图所示：

结果令人意外，本轮测试排名：

第一梯队：GLM-4.6≈ Claude Sonnet 4.5
第二梯队：Claude Sonnet 4 ≈ Gemini 2.5 Pro
第三梯队：GLM-4.5 ≈ 『DeepSeek』 V3.2

这个结果，说实话，完全超出了我的预料，我本以为这会是 Claude 4.5 的主场，但 GLM-4.6 给足了惊喜：

在无任何额外 Prompt 指导下，GLM-4.6 取得的效果与 Claude 新模型 Sonnet 4.5 相比丝毫不逊色。更是较『DeepSeek』 V3.2 以及包括 Claude 4 在内的一众前代模型，有了长足的进步。
而数据大屏一向是 To B 软件相当重要的商业化工作。按照 GLM-4.6 的本轮效果，对国内 To B 软件行业，绝对算是重大效率改进。

，其自动排版的底模也选择了 GLM-4.6。

一次胜出是巧合，那两次、三次呢？

可能不得不承认，在需要结合编程与审美的 Coding Agent 任务上，GLM-4.6 可能已经找到了自己的甜点区。

💰 如何定价？Coding Plan 全面升级

聊完了性能，我们再聊点更实在的——价格。

而 GLM-4.6 发布后，除了常规按量付费定价如下外：

智谱也自动升级了 GLM-4.5 时期推出的 GLM Coding Plan 套餐：

模型升级：此前已订阅用户，自动升级至 GLM-4.6
能力扩展：新增了图像识别与搜索能力
更重要的是，价格方面：低至 ¥20/月，Lite/Pro/Max 计划分别每 5 小时提供 120/600/2400 次 Prompts 额度，每月总计可用总量高达几十亿到数百亿 tokens（大概是等量 API 价格的 0.1 折）
平台兼容：支持 Claude Code、Roo Code、Kilo Code、Cline等 10+ 编程工具

结合此前的测试结果，你或许可以把 GLM-4.6 视作……

⬇️

大概只用 Claude 1/7 的价格，换来真实开发场景中，超越昨天发布的『DeepSeek』-V3.2，比肩 Claude Sonnet 4，甚至一些场景还能不弱于 Claude 4.5 的开发体验？

总之，数据不会撒谎：

自打 GLM-4.5 开放 Coding Plan 以来，智谱 MaaS 开放平台的 API 商业化，已实现 10 倍以上的增长。

开发者们，早已用真金白银，进行了投票。

👉 在哪试用 GLM-4.6 ？

C 端对话：z.ai 、智谱清言已全面支持 GLM-4.6
API 使用：国内用户通过 bigmodel.cn，海外用户通过 z.ai
开源部署：GLM-4.6 将在 Hugging Face、ModelScope发布
GLM Coding Plan 购买：通过 bigmodel.cn直接购买，支持个人与企业版两类套餐

🎐 写在最后：GLM-4.6，最好的国产 Coding 模型

写到这里，我对 GLM-4.6 的密集测试，总算暂告一段落。

说实话根本没想到在国庆节前最后 2 天，会迎来如此密集的模型发布。（本来都要去度假了……）

一方面，是调用成本降低 50% 的『DeepSeek』 V3.2，

一方面，Anthropic 家发布 Claude Sonnet 4.5 模型，再次刷新 AI Coding 能力天花板。

在这波 9 月底的模型扎堆迭代的“神仙打架”中，再回头看 GLM-4.6：

经典长文一图流测试中，GLM-4.6 的综合表现稳压过了『DeepSeek』 V3.2 新品与国内其他模型，比肩 Claude 4，甚至能与 GPT-5 Codex 有来有回
在本轮贴近商业开发场景的数据大屏测试中，甚至与 Claude 4.5 相比也不逊色，更是明显优于前代模型

这些实测结果，让最后的结论变得不言而喻：

结合性能以及越来越值的 GLM Coding Plan ，GLM-4.6 守住了它「国产最好用 Coding 模型」称号。

GLM-4.6 可能还无法在每一个维度上都比肩像 Claude 4.5 这样“天花板”级别的存在，但它用一个极具诚意的价格，为你提供了一个在绝大多数场景下都“足够好用”，甚至时常有惊喜的 Coding 模型选择。

还是那句话，如果你有 Coding、Agent 任务需求，并且在乎“用得爽”和“用得起”，GLM-4.6 绝对值得你花时间亲自上手试试。

我也很期待你的实测反应与反馈。

希望一泽的文章对你有所启发。

如果觉得这波内容不错，希望帮忙

GLM-4.6 首发实测：和 Claude 4.5 比怎么样？(glm26)

猜你喜欢

葡萄牙体育发布2526赛季Stromp致敬球衣(葡萄牙体育比赛)

『半导体』超纯水设备：守护『芯片』制造的 “水之命脉”(『半导体』超纯水设备有哪些)

免打孔毛巾架怎么选？一杆多用的浴室收纳神器(免打孔毛巾架怎么拆除)

意想不到！分手21年后，『马伊琍』和导演管虎，竟会以这样的方式相见(意想不到分娩现场)

石墨烯取暖，到底好不好？(石墨烯取暖到底怎么样)