8月11日,智谱开源了其最新一代视觉理解模型GLM-4.5V,该模型基于智谱新一代文本基座模型GLM-4.5-Air训练而来,拥有1060亿参数和120亿激活参数。GLM-4.5V新增了思考模式的开关功能,用户可自主控制模型是否进行思考。
这一模型的视觉能力解锁了一些有趣的玩法,例如能够区分麦当劳和肯德基炸鸡翅的区别,并从炸鸡的色泽、外皮质感等角度进行了全面分析。此外,GLM-4.5V还可以看图猜地点,在与人类玩家一起参与的拍图猜地点积分赛中,加入比赛7天后,其积分排到了赛事网站的第66名,超越了99%的人类用户。
智谱还分享了GLM-4.5V在42个基准测试中的成绩,该模型在其中41个测试中得分超过同尺寸模型。目前,GLM-4.5V已在开源平台Hugging Face、魔搭、GitHub发布,并提供了FP8量化版本。智谱还为其打造了一个体验App,目前仅有Mac端可用(且必须为非Intel芯片)。
用户可在z.ai选择GLM-4.5V模型,上传图片或视频进行体验,或在智谱清言APP/网页版上传图片开启“推理模式”进行体验。智谱同步开源了一款桌面助手应用,该应用可实时截屏、录屏获取屏幕信息,并依托GLM-4.5V处理多种视觉推理任务,如代码辅助、视频内容分析、游戏解答、文档解读等。
GLM-4.5V API现已上线智谱开放平台BigModel.cn,并提供了2000万tokens的免费资源包。其API最低价为每百万输入tokens/2元、每百万输出tokens/6元,支持图像、视频、文件和文本输入。