面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测

面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测

近日 Kimi 也开始小规模内测一个 Agent 新品,名称在一众 Agent 友商中,很有人文味与自信,

叫做:「OK Computer」。

不同于此前 Kimi 发布的 Researcher 专精 Deep Research 任务,「OK Computer」则是Kimi 模型的通用 Agent 模式,

配备了单独虚拟电脑,支持更多工具调用,能够完成 网站开发、PPT 设计、数据可视化分析、深度研究、方案策划等任务。

自然,从 25 年 3 月 Manus 发布以来,我们已经见过了层出不穷的通用 Agent 产品,如 Claude Code、扣子空间、Skywork、Lovable 等等……

阅尽千帆,本文仍想通过一系列典型 Agent 任务实测,为你解析 Kimi OK Computer 的真实水平。

我也会将它的表现,和过往深度体验的 Manus 等顶尖 Agent 进行参照,

来看这个以 90 年代最伟大的摇滚专辑之一命名的 Agent,能否如其名般地带来惊喜。

📬 写在测试之前

与先前已发布的 Kimi Researcher 一脉相承,OK Computer 与已有通用 Agent 产品不同,继续延续了端到端强化学习的训练路线:模型即 Agent。

为了能够更好地真实探究 OK Computer 的水平,我已将测试设计为三部分:

1.网页应用开发:从 0-1 设计、开发 Html 宝可梦养成与对战游戏,考察 Agent 自主深度规划与长程执行

2.复杂数据可视化:给定数千条表格数据,呈现可视化分析

3.其他 case 展示,包括绘制 AI PPT、制作个人博客等

并适当选择同类任务下备受用户好评的友商 Agent 进行参照,校准它当下的行业身位。

你可以带着对 Kimi Agent 的好奇,在实测中找到答案。

文末我将向你分享我理解的,OK Computer 对于 Kimi 的特殊意义。

👉 真实实测表现1️⃣ 网页应用开发:宝可梦网页游戏

要测试一个 Agent 的极限,比较好的方式就是给它足够复杂、多步骤、开放式的项目。

我选择让 Agent 从 0-1 自主设计 Html 版宝可梦养成对战游戏,并选择了擅长构建 Web 应用的 Manus、Lovable 作为参照对比。

此题难度在于,考验 Agent 的 Coding 能力外,更考验 Agent 自主规划的完整性,以及长程任务中的 推理-执行-反馈 的循环质量。

测试 Prompt 如下:

我想做一个 Html 版宝可梦养成与对战游戏,能够基于宝可梦游戏的主要玩法,设计一套完整、适合在 Html 游玩的游戏内容,请仔细推敲游戏玩法,使用合适的像素风格宝可梦素材,设计对应游戏 UI 与内容,并完成开发上线。要求实现移动端兼容。

我录了一下各个 Agent 生成的网页游戏的效果,你可以自行来看看效果:

1)Kimi - OK Computer:

OK Computer 独立设计了一个适配 Web 玩法的全新 UI。生成的游戏系统更为完整,比起 Manus、Lovable,多了大厅、宝可梦图鉴,物品背包界面。

对战系统基本实现,但不能更换上阵宝可梦。另外还能查看宝可梦的详细属性,有丰富的疗伤物品、精灵球等不同物品的管理系统。

不过,虽然规划了区域探索、商店、成就系统的功能入口,但并没有一次完成开发,还是有些遗憾。

应用整体无恶性 bug,作为 one prompt 结果相当完整与稳定,在游戏方案的规划上给出了惊喜。

2)Manus:

Manus 作为我的老朋友厂商,表现一如既往的亮眼。虽然首页略微粗糙,但整个游戏的加载过场却是最为接近原版。

另外,Manus 唯一实现了地图探险功能(但地图显示有明显显示 Bug)。

不过你可以看到随着我点击方向键,是能触发出“草丛遇怪”的逻辑。也是唯一一个直接使用了外网宝可梦图像资源,作为游戏贴图的 Agent。

但比起 Kimi,其游戏性功能的实现熟练就少了许多,没有实现背包,也没有宝可梦栏管理等,算是各有侧重。

3)Lovable:

Lovable 在初始界面上给到了最风格化的效果。

但整体实现的玩法实现的是三者最少:仅支持选择宝可梦进行战斗。

战斗系统,比起其他家,还少了道具使用、逃跑等基础功能。从这次测试来看,Agent 可能存在规划不足,执行轮次过少的问题。

另外,下图为移动端兼容效果对比:

BTW:关于各家选择的 UI 风格,我倒是觉得不算决定性差异,因为也没有规定 UI 风格要求 100% 复刻原版游戏,只要 UI 与玩法系统自洽,能稳定运行即可。

综合列出效果对比如下:

不难看出 OK Computer 继承了 K2 模型的优秀 Coding 能力,在另外两家使用 Claude 模型的情况下,仅凭自有国产模型,网页开发效果不弱下风。

另外,可能是得益于端到端强化学习路线,Kimi 也确实展现出 One prompt 下,极为优秀的 Agent 自主规划与多轮执行能力,以及熟练使用图片生成等工具能力。

2️⃣ 复杂数据可视化:洞察数千条 IMDB 剧集数据

在 OK Computer 的宣传视频中,着重宣传了支持海量数据上传,单次处理百万行数据的可视化分析能力。

为了能够测试 Agent 的复杂数据的关联洞察效果,我选择了让 AI 们,来尝试处理来自 IMDb 的数据集,每个数据表包含上千条电影和电视剧数据。

测试 Prompt 如下:

请基于我提供的5份IMDb数据(涵盖电影、电视剧与电子游戏),交付一份独立的HTML深度可视化分析报告。你的任务是超越数据本身,洞察其背后反映的文化趋势和社会现象,并形成一套完整、深刻的分析结论。请自主设计分析框架,运用具有顶级美感的多维信息图表,构建出逻辑清晰的报告结构和解读,最终呈现一份兼具专业深度与视觉冲击力的作品。

共找了 5 份数据集:

每一份数据表内容大概是这样的,以独立剧集的最小粒度数据组成:

在接到任务后,Kimi 首先规划了任务执行的环节:

随后,自行编写了 python 脚本,对数据进行清洗和处理(嗯,不是直接用 LLM 文本能力读取,有效避免幻觉问题,还是很聪明的)

在自主连续运行长达 31 步子任务后,OK Computer 输出了以下可视化数据分析页面:

能够看出分析维度非常多元。

特别棒的是, OK Computer 能够根据分析数据的类型,自主选择太阳图、雷达图、三维散点图、小提琴图等不同合适的图表,来展项数据趋势。

这一点倒是在用过的 Agent 里,会更具有主动性。

另外,这是同提示下 Manus 的效果:

必须声明,Manus 在同类产品中,产出的质量已经是大幅领先。

但仅论可视化的数据呈现,Kimi OK Computer 明显在该类任务中,能够提供更加复杂、多维的效果。

值得一提的是,在测试本轮任务中,我发现不同 Agent 产品对上传文件数量有着不同的控制。

实测中 Kimi、Manus、Skywork 没有限制文件上传数量,而 Minimax Agent、扣子空间 均限制上传数量为 10 个以内。

这项区别也会影响部分用户的选择。

💡 其他的一些 Case

另外也跑了一些零散、但效果都挺不错的 Case,与你分享 Kimi OK Computer 的各项表现:

1)PPT 设计,样式美观,自由编辑

基于上面的 IMDb 剧集数据,我又新开对话,让其生成主题数据洞察 PPT。

阅读附件中的5份IMDb数据(涵盖电影、电视剧与电子游戏),洞察这些数据背后反映的文化趋势与大众品味的变迁,设计一份 20 页的汇报 PPT。要求:1.只允许使用附件中的数据,不得胡编乱造。2.尽可能呈现 PPT 的全部要点、关键数据3.使用 chart 呈现图表,不要用 AI 图片生成来呈现图表4.PPT 美观有设计感

OK Computer 效果如下:

整体来说,OK Computer 所输出的 PPT 设计不错,图文并茂,设计符合主题风格。部分元素会超出页面,需要和 Agent 沟通修改要求后,进行一次修复。

同 Prompt 任务下,对比精通 PPT 的 Skywork 的效果:

结论是,从设计角度来看 Kimi 胜出,幻灯片高度更一致,适合演讲呈现;

而内容丰富度 Skywork 则更胜一筹,更适合内部汇报。

强调一个特别好用的点,对于用户真实使用时,OK Computer 还支持了高自由度的编辑,不仅是文本替换,还支持更改格式、添加图片、流程图、新幻灯片,基本与完整 Office 功能等同。这一点在其他友商 Agent 中格外少见。

导出到本地后,样式与网页 Html 版 PPT 基本一致,不会产生常见的排版变形问题。

2)个人博客开发,设计效果非常 ok

请为我的个人博客「一泽的沉思录」创建一个三栏式布局的网站原型。风格: 我想要一种极简、沉静的黑白风格,字体要优雅。内容:左栏是导航,包含 首页、文章、关于我;中栏是文章列表;右栏放一张能体现‘思考与科技’的黑白摄影风格的图片,请你帮我生成。请确保整个网站的视觉风格高度统一。

诚然在测试过程中,我还是能观察到 OK Computer 待改进的一些问题。

譬如:

暂时还不支持用户接管 Browser,所以无法让 Kimi 替自己调研一些需要登录的网站内容;

在给 PPT 配图时,有时也会过度依赖 AI 生图,而不是正确使用网页图表组件,创建数据图。

这些问题我也一一反馈给了在 Kimi 的朋友,期待他们的改进。

但我们回过头来不能忽略的一点是:

与全球化 Agent 产品不同,Kimi OK Computer 始终使用的都只是 Kimi K2 这款自研 LLM 模型。

不依靠 Claude 的 Coding 能力、不使用 Gemini 的分析规划能力,OK Computer 在众多友商 Agent 之中,依然能展示出其独到的优势。

不得不说,在测试过程中,还是令我感到诧异与惊喜,也值得国内用户试用。

🎐 写在最后:OK Computer 于 Kimi 的特殊意义

此前,Kimi 早就发布了 Researcher 产品。

当时我就评论,Kimi Researcher 达到了国内最佳的 Deep Research 效果(非常长且细致的研究过程,以及相对可控的幻觉水平,时常能关联分析出意外的好观点),

将其大量推荐给了我所认识的 AI 从业者、投资人、学生朋友:

“如果对国外资料检索没有诉求,Kimi Researcher 很可能就是国内研究质量最佳,分析结论常有意外惊喜的 Deep Research 产品”

⬆️ 余杭水质问题发生时,曾用 Researcher 进行事件分析,体感效果仅次于 Gemini DR,为国内最佳

月之暗面研究员 @冯一尘此前在知乎,公开分享了内部洞察:

Researcher 研发过程中,Kimi 团队内部对于 Agent 保持了两个关键信念,一是要做“能长思考”的Agent,二要用端到端强化学习。

他们认为,区别于传统 Agent 的 Workflow 拼装 或 SFT 训练方案, Kimi 通过端到端 RL 所训练的 Agent 模型,能够挣脱“固定提示”的束缚,更加灵活通用,具备更好的主动反思,多轮行动的积极效果。

(此文不论两种技术线路的终局优劣,但这条路线下的 Kimi Researcher,也确实在用户群体中备受好评)

时至今日,Kimi 推出的「OK Computer」新 Agent 模式,依然遵循着这些理念:

借助端到端强化学习技术,将 Kimi K2 模型训练为原生 Agent,让模型学会了 文件系统、浏览器、终端、代码/图片/音频生成 等 20 多种工具的使用方式,自然涌现出「完成一项复杂 Agent 任务」的内在知识。

实测下来,OK Computer 也确实兼具了 K2 模型与模型即 Agent 路线的优势,包括:

  1. 1. 继承 K2 的优秀 Coding 能力:生成具备强美观度的前端产物(网页、PPT 等)

  2. 2. One prompt 下更好的规划执行:发挥端到端强化学习的优势,在单一提示下,实现更多、更全面的推理,执行轮次更多、报错更少

  3. 3. 丰富的工具能力:图片、音频生成;浏览器使用;使用虚拟电脑作为响应环境等

但,如果仅仅将这三点看作孤立的优势,我们就错过了 OK Computer 真正想讲述的故事。

这个故事的核心,是 Kimi 对模型智能的又一次扩展:

从文本模型,扩展为能「拆解目标、规划长程任务、通过行动-反馈达成更优结果」的全能型 Agent。

又名——模型即 Agent。

对于我们用户,尤其是非技术的普通 AI 使用者而言,

则是国内多了一个在轻量网页开发、PPT 设计、数据分析等复杂任务中,表现都相当不错的,全新的全栈 AI 助理。

希望一泽的文章对你有所启发。

如果觉得这波内容不错,希望帮忙

特别声明:[面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

远在美国的儿子,花60万买AI『机器人』️陪我!7个月后『机器人』️突然说 “爸,想你了”,我当场愣住(远在美国的爷爷常常思念自己的家乡)

所以,“小远”才会出现超越程序的“情感”萌芽,所以它才会说出那句“爸,想你了”——那根本不是模仿李哲,那极有可能是……是临终的老伴,未能说出口的、对他的最后牵挂,通过这个『机器人』️,以一种匪夷所思的方式表达了出来…

远在美国的儿子,花60万买AI『机器人』️陪我!7个月后『机器人』️突然说 “爸,想你了”,我当场愣住(远在美国的爷爷常常思念自己的家乡)

通风柜EMC检测(通风柜操作规程)

通过EMC检测,可以验证通风柜是否符合相关标准,避免因电磁干扰导致实验误差或设备故障。(1)辐射☢️骚扰测试:检测通风柜在工作时向周围空间发射的电磁波强度,确保其不超过限值。 (1)前期准备:确认检测标准、设备…

通风柜EMC检测(通风柜操作规程)

54岁于和伟演毛主席,这一次,他让唐国强和整个『娱乐圈』️沉默了!(于和伟表演)

一、于和伟出演毛主席,引发热议于和伟作为一名实力派演员,曾经出演过不少经典影视作品,而且每一次的表演都给观众留下了深刻的印象,因此当得知他将出演毛主席这一重要角色时,很多观众都是非常期待的,他们相信于和伟一…

54岁于和伟演毛主席,这一次,他让唐国强和整个『娱乐圈』️沉默了!(于和伟表演)

风扇刷清洁刷:隐藏在家用电器背后的高效除尘能手(刷风扇怎么刷效果好)

你知道吗?看似简单的风扇清洁刷,实则承载着守护家庭健康的重要使命。这款创新设计的清洁工具,不仅能够轻松深入电风扇叶片缝隙清除积尘,更是现代家居清洁的得力助手。它究竟有何独特之处?又为何能在众多清洁产品中脱颖而出?本文将为你深度解析这一神奇小

风扇刷清洁刷:隐藏在家用电器背后的高效除尘能手(刷风扇怎么刷效果好)

DB9串口线:灵活连接的工业桥梁(串口dp9)

你知道为何在现代网络通信日益便捷的情况下,传统DB9串口线依然大有市场吗?其独特的90度180度270度设计如何让工业设备焕发新生?本文将为你揭示这个看似平凡却至关重要的连接利器背后的秘密,以及它如何成为数据传输的重要纽带。

DB9串口线:灵活连接的工业桥梁(串口dp9)