近日 Kimi 也开始小规模内测一个 Agent 新品,名称在一众 Agent 友商中,很有人文味与自信,
叫做:「OK Computer」。
不同于此前 Kimi 发布的 Researcher 专精 Deep Research 任务,「OK Computer」则是Kimi 模型的通用 Agent 模式,
配备了单独虚拟电脑,支持更多工具调用,能够完成 网站开发、PPT 设计、数据可视化分析、深度研究、方案策划等任务。
自然,从 25 年 3 月 Manus 发布以来,我们已经见过了层出不穷的通用 Agent 产品,如 Claude Code、扣子空间、Skywork、Lovable 等等……
阅尽千帆,本文仍想通过一系列典型 Agent 任务实测,为你解析 Kimi OK Computer 的真实水平。
我也会将它的表现,和过往深度体验的 Manus 等顶尖 Agent 进行参照,
来看这个以 90 年代最伟大的摇滚专辑之一命名的 Agent,能否如其名般地带来惊喜。
📬 写在测试之前
与先前已发布的 Kimi Researcher 一脉相承,OK Computer 与已有通用 Agent 产品不同,继续延续了端到端强化学习的训练路线:模型即 Agent。
为了能够更好地真实探究 OK Computer 的水平,我已将测试设计为三部分:
1.网页应用开发:从 0-1 设计、开发 Html 宝可梦养成与对战游戏,考察 Agent 自主深度规划与长程执行
2.复杂数据可视化:给定数千条表格数据,呈现可视化分析
3.其他 case 展示,包括绘制 AI PPT、制作个人博客等
并适当选择同类任务下备受用户好评的友商 Agent 进行参照,校准它当下的行业身位。
你可以带着对 Kimi Agent 的好奇,在实测中找到答案。
文末我将向你分享我理解的,OK Computer 对于 Kimi 的特殊意义。
👉 真实实测表现1️⃣ 网页应用开发:宝可梦网页游戏
要测试一个 Agent 的极限,比较好的方式就是给它足够复杂、多步骤、开放式的项目。
我选择让 Agent 从 0-1 自主设计 Html 版宝可梦养成对战游戏,并选择了擅长构建 Web 应用的 Manus、Lovable 作为参照对比。
此题难度在于,考验 Agent 的 Coding 能力外,更考验 Agent 自主规划的完整性,以及长程任务中的 推理-执行-反馈 的循环质量。
测试 Prompt 如下:
我想做一个 Html 版宝可梦养成与对战游戏,能够基于宝可梦游戏的主要玩法,设计一套完整、适合在 Html 游玩的游戏内容,请仔细推敲游戏玩法,使用合适的像素风格宝可梦素材,设计对应游戏 UI 与内容,并完成开发上线。要求实现移动端兼容。
我录了一下各个 Agent 生成的网页游戏的效果,你可以自行来看看效果:
1)Kimi - OK Computer:
OK Computer 独立设计了一个适配 Web 玩法的全新 UI。生成的游戏系统更为完整,比起 Manus、Lovable,多了大厅、宝可梦图鉴,物品背包界面。
对战系统基本实现,但不能更换上阵宝可梦。另外还能查看宝可梦的详细属性,有丰富的疗伤物品、精灵球等不同物品的管理系统。
不过,虽然规划了区域探索、商店、成就系统的功能入口,但并没有一次完成开发,还是有些遗憾。
应用整体无恶性 bug,作为 one prompt 结果相当完整与稳定,在游戏方案的规划上给出了惊喜。
2)Manus:
Manus 作为我的老朋友厂商,表现一如既往的亮眼。虽然首页略微粗糙,但整个游戏的加载过场却是最为接近原版。
另外,Manus 唯一实现了地图探险功能(但地图显示有明显显示 Bug)。
不过你可以看到随着我点击方向键,是能触发出“草丛遇怪”的逻辑。也是唯一一个直接使用了外网宝可梦图像资源,作为游戏贴图的 Agent。
但比起 Kimi,其游戏性功能的实现熟练就少了许多,没有实现背包,也没有宝可梦栏管理等,算是各有侧重。
3)Lovable:
Lovable 在初始界面上给到了最风格化的效果。
但整体实现的玩法实现的是三者最少:仅支持选择宝可梦进行战斗。
战斗系统,比起其他家,还少了道具使用、逃跑等基础功能。从这次测试来看,Agent 可能存在规划不足,执行轮次过少的问题。
另外,下图为移动端兼容效果对比:
BTW:关于各家选择的 UI 风格,我倒是觉得不算决定性差异,因为也没有规定 UI 风格要求 100% 复刻原版游戏,只要 UI 与玩法系统自洽,能稳定运行即可。
综合列出效果对比如下:
不难看出 OK Computer 继承了 K2 模型的优秀 Coding 能力,在另外两家使用 Claude 模型的情况下,仅凭自有国产模型,网页开发效果不弱下风。
另外,可能是得益于端到端强化学习路线,Kimi 也确实展现出 One prompt 下,极为优秀的 Agent 自主规划与多轮执行能力,以及熟练使用图片生成等工具能力。
2️⃣ 复杂数据可视化:洞察数千条 IMDB 剧集数据
在 OK Computer 的宣传视频中,着重宣传了支持海量数据上传,单次处理百万行数据的可视化分析能力。
为了能够测试 Agent 的复杂数据的关联洞察效果,我选择了让 AI 们,来尝试处理来自 IMDb 的数据集,每个数据表包含上千条电影和电视剧数据。
测试 Prompt 如下:
请基于我提供的5份IMDb数据(涵盖电影、电视剧与电子游戏),交付一份独立的HTML深度可视化分析报告。你的任务是超越数据本身,洞察其背后反映的文化趋势和社会现象,并形成一套完整、深刻的分析结论。请自主设计分析框架,运用具有顶级美感的多维信息图表,构建出逻辑清晰的报告结构和解读,最终呈现一份兼具专业深度与视觉冲击力的作品。
共找了 5 份数据集:
每一份数据表内容大概是这样的,以独立剧集的最小粒度数据组成:
在接到任务后,Kimi 首先规划了任务执行的环节:
随后,自行编写了 python 脚本,对数据进行清洗和处理(嗯,不是直接用 LLM 文本能力读取,有效避免幻觉问题,还是很聪明的)
在自主连续运行长达 31 步子任务后,OK Computer 输出了以下可视化数据分析页面:
能够看出分析维度非常多元。
特别棒的是, OK Computer 能够根据分析数据的类型,自主选择太阳图、雷达图、三维散点图、小提琴图等不同合适的图表,来展项数据趋势。
这一点倒是在用过的 Agent 里,会更具有主动性。
另外,这是同提示下 Manus 的效果:
必须声明,Manus 在同类产品中,产出的质量已经是大幅领先。
但仅论可视化的数据呈现,Kimi OK Computer 明显在该类任务中,能够提供更加复杂、多维的效果。
值得一提的是,在测试本轮任务中,我发现不同 Agent 产品对上传文件数量有着不同的控制。
实测中 Kimi、Manus、Skywork 没有限制文件上传数量,而 Minimax Agent、扣子空间 均限制上传数量为 10 个以内。
这项区别也会影响部分用户的选择。
💡 其他的一些 Case
另外也跑了一些零散、但效果都挺不错的 Case,与你分享 Kimi OK Computer 的各项表现:
1)PPT 设计,样式美观,自由编辑
基于上面的 IMDb 剧集数据,我又新开对话,让其生成主题数据洞察 PPT。
阅读附件中的5份IMDb数据(涵盖电影、电视剧与电子游戏),洞察这些数据背后反映的文化趋势与大众品味的变迁,设计一份 20 页的汇报 PPT。要求:1.只允许使用附件中的数据,不得胡编乱造。2.尽可能呈现 PPT 的全部要点、关键数据3.使用 chart 呈现图表,不要用 AI 图片生成来呈现图表4.PPT 美观有设计感
OK Computer 效果如下:
整体来说,OK Computer 所输出的 PPT 设计不错,图文并茂,设计符合主题风格。部分元素会超出页面,需要和 Agent 沟通修改要求后,进行一次修复。
同 Prompt 任务下,对比精通 PPT 的 Skywork 的效果:
结论是,从设计角度来看 Kimi 胜出,幻灯片高度更一致,适合演讲呈现;
而内容丰富度 Skywork 则更胜一筹,更适合内部汇报。
强调一个特别好用的点,对于用户真实使用时,OK Computer 还支持了高自由度的编辑,不仅是文本替换,还支持更改格式、添加图片、流程图、新幻灯片,基本与完整 Office 功能等同。这一点在其他友商 Agent 中格外少见。
导出到本地后,样式与网页 Html 版 PPT 基本一致,不会产生常见的排版变形问题。
2)个人博客开发,设计效果非常 ok
请为我的个人博客「一泽的沉思录」创建一个三栏式布局的网站原型。风格: 我想要一种极简、沉静的黑白风格,字体要优雅。内容:左栏是导航,包含 首页、文章、关于我;中栏是文章列表;右栏放一张能体现‘思考与科技’的黑白摄影风格的图片,请你帮我生成。请确保整个网站的视觉风格高度统一。
诚然在测试过程中,我还是能观察到 OK Computer 待改进的一些问题。
譬如:
暂时还不支持用户接管 Browser,所以无法让 Kimi 替自己调研一些需要登录的网站内容;
在给 PPT 配图时,有时也会过度依赖 AI 生图,而不是正确使用网页图表组件,创建数据图。
这些问题我也一一反馈给了在 Kimi 的朋友,期待他们的改进。
但我们回过头来不能忽略的一点是:
与全球化 Agent 产品不同,Kimi OK Computer 始终使用的都只是 Kimi K2 这款自研 LLM 模型。
不依靠 Claude 的 Coding 能力、不使用 Gemini 的分析规划能力,OK Computer 在众多友商 Agent 之中,依然能展示出其独到的优势。
不得不说,在测试过程中,还是令我感到诧异与惊喜,也值得国内用户试用。
🎐 写在最后:OK Computer 于 Kimi 的特殊意义
此前,Kimi 早就发布了 Researcher 产品。
当时我就评论,Kimi Researcher 达到了国内最佳的 Deep Research 效果(非常长且细致的研究过程,以及相对可控的幻觉水平,时常能关联分析出意外的好观点),
将其大量推荐给了我所认识的 AI 从业者、投资人、学生朋友:
“如果对国外资料检索没有诉求,Kimi Researcher 很可能就是国内研究质量最佳,分析结论常有意外惊喜的 Deep Research 产品”
⬆️ 余杭水质问题发生时,曾用 Researcher 进行事件分析,体感效果仅次于 Gemini DR,为国内最佳
月之暗面研究员 @冯一尘此前在知乎,公开分享了内部洞察:
Researcher 研发过程中,Kimi 团队内部对于 Agent 保持了两个关键信念,一是要做“能长思考”的Agent,二要用端到端强化学习。
他们认为,区别于传统 Agent 的 Workflow 拼装 或 SFT 训练方案, Kimi 通过端到端 RL 所训练的 Agent 模型,能够挣脱“固定提示”的束缚,更加灵活通用,具备更好的主动反思,多轮行动的积极效果。
(此文不论两种技术线路的终局优劣,但这条路线下的 Kimi Researcher,也确实在用户群体中备受好评)
时至今日,Kimi 推出的「OK Computer」新 Agent 模式,依然遵循着这些理念:
借助端到端强化学习技术,将 Kimi K2 模型训练为原生 Agent,让模型学会了 文件系统、浏览器、终端、代码/图片/音频生成 等 20 多种工具的使用方式,自然涌现出「完成一项复杂 Agent 任务」的内在知识。
实测下来,OK Computer 也确实兼具了 K2 模型与模型即 Agent 路线的优势,包括:
1. 继承 K2 的优秀 Coding 能力:生成具备强美观度的前端产物(网页、PPT 等)
2. One prompt 下更好的规划执行:发挥端到端强化学习的优势,在单一提示下,实现更多、更全面的推理,执行轮次更多、报错更少
3. 丰富的工具能力:图片、音频生成;浏览器使用;使用虚拟电脑作为响应环境等
但,如果仅仅将这三点看作孤立的优势,我们就错过了 OK Computer 真正想讲述的故事。
这个故事的核心,是 Kimi 对模型智能的又一次扩展:
从文本模型,扩展为能「拆解目标、规划长程任务、通过行动-反馈达成更优结果」的全能型 Agent。
又名——模型即 Agent。
对于我们用户,尤其是非技术的普通 AI 使用者而言,
则是国内多了一个在轻量网页开发、PPT 设计、数据分析等复杂任务中,表现都相当不错的,全新的全栈 AI 助理。
希望一泽的文章对你有所启发。
如果觉得这波内容不错,希望帮忙