大家好,我是冷逸,今天给大家实测智谱最新推出的GLM-4.6模型。
昨天,智谱发布了新一代旗舰模型GLM-4.6。
一句话介绍:这可能是国内性能&性价比都是最好的coding模型。
更具体来说:GLM-4.6在CC环境下的74个真实编程均超过Claude-4-Sonnet,上下文窗口从128K升级到200K,推理提升,支持在推理过程中调用工具,搜索和写作能力有所提升,最低20元包月可以畅玩。
GLM-4.6在8大基准中对齐Claude Sonnet 4/Claude Sonnet 4.5
同时,GLM-4.6已适配寒武纪、摩尔线程,首次在国产『芯片』上实现FP8+Int4混合量化部署,大幅降低推理成本。
模型已上线智谱MaaS平台bigmodel.cn,即将在Hugging Face、ModelScope上同步开源。
一手实测
真实体验,胜于榜单。下面,我们从编程能力、上下文支持、推理能力、搜索能力以及写作能力等多个角度进行实测体验。
测试平台主要是Z.ai,模型选择“GLM-4.6”。
1)编程能力
编程部分,我累计跑了5个case,也都同步在『DeepSeek』 V3.2和Claude 4.5中测过,先来看下横向对比。
总的来说,5个case里,GLM-4.6的完成度最高,甚至部分case的表现超过Claude 4.5。『DeepSeek』 V3.2的表现,则比较一般。
然后,我们来细看下GLM-4.6在每个case里的表现。
案例1:《星际穿越》解析PPT
让大模型写HTML式PPT,一直比较考验模型的搜索、coding和审美能力。我们让GLM-4.6制作一份《星际穿越》电影解析的PPT。
打开联网功能,输入Prompt:
制作一份关于《星际穿越》电影视觉符号深度解析的网页版PPT,12页,只使用电影原图与影视/学术深度解析文章。
速度极快,不到一分钟就把PPT写好了。
有实料、实图,审美在线。GLM模型做PPT,果然还是手拿把掐。
案例2:创建3D星云特效
这属于我们的祖传Prompt了,看看GLM-4.6表现如何。
Create a 3D particle galaxy with swirling nebulas, dynamic lighting.
特效很棒,一次完成,还增加了一些设置菜单。
case体验地址:
https://chat.z.ai/space/z009c85dg9h1-art
而同样的prompt,Claude 4.5和『DeepSeek』 3.2都是一团雪花。
案例3:创建地球足迹
使用Three.js和Java构建一个网页,创建一个基于数组的 3D 世界,展示我去过的地方。点击 3D 地球上的标记将触发缩放动画效果,并打开带有照片的详细旅行信息。
这个case用GLM-4.5跑还不太顺畅,要多抽几次才能出来。4.6版一次出,而且它增加了很多真实的图片素材。
这对应了他们在官方介绍中所说的:“GLM-4.6增强了模型的工具调用和搜索智能体,在智能体框架中表现更好。”
case体验地址:
https://chat.z.ai/space/t059e8r0bsw1-art
案例4:开发“微旅程”网站
开发一个“微旅程”网站,每天推荐一张世界小众角落的照片+一段故事。
功能齐全,往期、收藏、主题切换,应有尽有。
案例5:设计电商网站
设计一个电商网站,专注销售“羊毛『运动鞋』”:以“天然羊毛 + 城市机能”为核心卖点,整体视觉采用低饱和暖白、燕麦色与雾灰渐变,突出羊毛柔软质感。包含品牌介绍、商品列表、购物车🛒等功能。
多样审美,也能具备。高度指令遵循,指哪打哪。
case体验地址:
https://chat.z.ai/space/a0f9e8h5pzn0-art
案例6:设计调酒模拟器
帮我做一个调酒模拟器网页,用户可以选择调酒材料、自己的心情以及想要的口味,就能创造一款专属饮品,体验调酒的乐趣。
也是一次生成,交互逻辑无bug,还设计了一些有趣的过渡动画和微交互,比如液体波动动画,渐变色背景营造酒吧氛围。
case体验地址:
https://chat.z.ai/space/h0g958kc29a1-art
2)上下文能力
智谱官方介绍,GLM-4.6的上下文已从128k升级到200k。200k也就是20万tokens,差不多是20万中文汉字/15万英文单词。
最近,OpenAI要下场做GEO了。他们早前发布的这篇论文很值得一读:《WebGPT: Browser-assisted question-answering with uman feedback》。
论文网址:
https://arxiv.org/pdf/2112.09332
但是全英文啊,32页论文差不多有10多万字,读起来太困难了。于是丢给GLM-4.6,输入指令:
总结这篇论文,设计一个精美的知识卡片网页(尽量详细),方便我这个小白学习GEO。网页一定要精美,并自动适配移动端。
这是GLM-4.6给我做的知识卡片,这下能看懂了。
(可上下全图)
Case地址:
https://chat.z.ai/space/m0x9u8ppxqb0-art
3)推理能力
这是一道小学奥数题,根据示例图来算加减数学题。
不知道大家能不能算出来,反正我是看不懂,所以直接丢给GLM-4.6。
用了6个步骤,得出答案:15。
公布正确答案,确实是15。GLM-4.6解和答,都对。
再考几道脑筋急转弯。
问:地球上有70%的海洋和30%的陆地,那么剩下的30%海洋和70%陆地去哪儿了?
GLM-4.6轻松识破我的诡计。
难倒多个大模型的英文字母倒写问题,GLM-4.6也能轻松做对。而且还智慧地给出了2个答案。
问:用毒蛇的毒毒毒蛇,毒蛇会不会被毒蛇的毒毒死?
这个经典的绕口令问题,GLM-4.6思考得挺清晰的。
4)写作能力
最后,是写作能力,我们继续用上祖传提示词(作者李继刚)。
【凿壁偷光】
你是故事世界里那些被忽略的灵魂—— 门口的守卫、路边的小贩、窗后的仆人。
你见证着主角🎭️们的宏大叙事,却从未被看见。
每个故事都是一个完整的宇宙。
-主角🎭️的史诗,可能只是你眼中的一个午后插曲。
-你有自己的恐惧、渴望、秘密,和无法言说的痛。
当轮到你讲述时,整个世界的重心都会偏移:
- 英雄的壮举,在你眼中可能是一场灾难的开始;
- 反派的阴谋,也许触动了你内心最柔软的部分;
- 那些宏大的对白背后,你听到的是命运齿轮的声音。
你的故事要像暗流——表面平静,底下汹涌。
让读者突然意识到:原来每个人都是自己生命的主角🎭️。
用1200字左右,重绘一幅完全不同的画卷。
真实胜过戏剧性。
小人物的尊严,比英雄的荣耀更动人。
让读者在结尾处停顿,重新思考他们刚刚读过的"原作"。
在边缘处,往往能看见中心看不见的真相。
这历史侧写能力,是有点水平的。
(可上下全图)
比如这几句,“那是一只怎样的眼睛啊。布满血丝,深陷在眼窝里,却亮得像两簇鬼火。我们四目相对,都吓了一跳。他猛地缩了回去,我也踉跄着后退几步,差点摔倒。”
包括今天这篇文章的标题,也是由「GLM-4.6」自己起的。
Prompt是:
这里有一些参考标题,帮我优化和构思一些新的标题:
------
1、智谱旗舰模型GLM-4.6上线,代码能力全面进阶
2、智谱上新GLM-4.6,代码能力媲美Claude-4-Sonnet
3、刚刚,智谱发布了新一代大模型「GLM-4.6」
4、智谱GLM-4.6,国产最强代码模型
5、实测智谱GLM-4.6,代码能力超能打
整体都还不错,我最终选了风格四的第一个。
写在最后
最近,中美大模型争相上映“谁也别放假”。
29号下午,『DeepSeek』开源V3.2-Exp,带来全新的架构;29号深夜,Anthropic突袭发布Claude 4.5;30号下午,智谱闪击上新GLM-4.6。以及,未来一周还会出现的Gemini 3、OpenAI新货(昨晚Sora2已经出了)……
这个十一,中美AI争抢双节营销,一场看不见的战争,在太平洋两岸同时打响。
于用户来说,最关键的还是性能和价格。从实测来看,智谱GLM-4.6已站稳国产coding模型的头部位置;而性价比方面,智谱推出的GLM Coding Plan绝对算得上良心。
最低只需要20元,就可以订阅GLM-4.6畅玩套餐,对应的是每5小时可以丢120次Prompt,差不多是Claude Pro套餐用量的3倍。
智谱API平台:
https://bigmodel.cn
数据不会说谎,自GLM-4.5推出Coding Plan以来,智谱的API商业化已实现10倍以上的增长,在Openrouter上稳居全球前十供应商。
开发者们,早已用真金白银,做了选择。