今天分享的是:OpenAI Agent测试报告
报告共计:49页
AI Agent产品实测:从订餐厅到做报告,智能助手们的真实能力如何?
当下,AI领域正掀起一股“Agent热潮”。从OpenAI推出的ChatGPT Agent,到Perplexity的Comet、Genspark等产品,一批能自主完成复杂任务的智能助手相继登场。它们号称能帮用户订餐厅、做旅行规划、写行业报告,甚至处理办公室开设等专业事务。这些AI助手的实际表现究竟如何?近期一份针对多款主流AI Agent产品的测试报告,为我们揭开了谜底。
从简单预订到专业分析:AI Agent能搞定哪些事?
测试团队选取了12项不同难度的任务,覆盖日常琐事到专业工作,从“ Whole Foods订购”“旧金山寿司餐厅预订”等简单任务(难度1-2级),到“新加坡办公室开设研究+PPT”“稳定币全面分析”等复杂任务(难度4-5级),全面考察AI Agent的能力边界。
简单任务中,餐厅预订、购物指南等场景最能体现AI的实用性。比如在“旧金山寿司餐厅预订”任务中,多数产品能快速筛选出高评分餐厅,但执行细节差异明显:Comet 34秒就给出推荐清单,却没完成实际预订;Fellou因陷入信息补全循环,最终失败;OpenAI Agent则列出了符合条件的餐厅,却需要用户手动确认时间。而在“Whole Foods订购”这类涉及支付的任务中,由于工具限制,所有产品都无法直接完成下单,只能提供详细的订购指南。
复杂任务更能拉开差距。“网球锦标赛旅行规划”要求结合用户偏好(徒步、素食、spa)、预算(3000美元)生成详细行程,OpenAI Agent和Genspark表现突出,不仅规划到小时级活动,还附上预订链接,预算控制精准;“智能眼镜行业分析”任务中,Manus产出了2.5万字报告,涵盖国内外市场数据、技术趋势,甚至引用500多条参考文献,展现了专业领域的深度处理能力。
值得关注的是,高难度的“Dify AI投资报告+PPT”任务(2万字报告+演示文稿)成了“分水岭”。Genspark和Fellou不仅完成了万字报告,还生成了带配图的PPT,其中Genspark的PPT支持在线编辑字体、颜色等细节;而OpenAI和Manus仅完成了报告部分,未能生成PPT。
谁是“全能选手”?主流AI Agent产品各有长短
测试覆盖的5款产品——OpenAI Agent、Comet、Manus、Genspark、Fellou,在速度、准确性、易用性等维度各有优劣,勾勒出当前AI Agent的“能力图谱”。
速度方面,Comet堪称“闪电侠”。在“旧金山财务报告查找”任务中,它仅用44秒就给出2020-2024年的报告链接,而OpenAI Agent花了5分钟,Manus则用了8分钟。这种效率优势在简单信息检索类任务中尤为明显,但在复杂任务中差距缩小,比如“新加坡办公室开设研究”,Comet和OpenAI Agent都用了约20-30分钟完成。
准确性与幻觉控制上,Fellou表现亮眼。测试者提到,Fellou在所有任务中几乎没有“幻觉输出”(即编造信息),尤其在涉及真实数据的“Twitter分析”任务中,其总结的发布时间、视频数量与实际完全一致。相比之下,Genspark和Comet偶尔会出现信息偏差,比如在“找YouTube宣传博主”时,误将普通用户标记为“大博主”。
性价比与易用性成了Genspark的加分项。其价格仅为Comet的1/10,却能在3分钟内生成带配图的报告初稿,支持在线编辑PPT、追加追问等功能。而OpenAI Agent的体验则略显“高冷”——仅网页版可用,开启功能需支付200美元且无明确指引,被测试者调侃为“像在玩找彩蛋”。
功能完整性方面,Manus和Fellou走向两个极端。Manus支持PDF、Markdown等多种格式下载,PPT可直接编辑文字;但Fellou因需要手动补全信息,在“餐厅预订”等任务中陷入循环,被评价为“单一任务执行成本过高”。
行业迎来“战国时代”:AI Agent正突破能力边界
从测试结果来看,AI Agent已告别“玩具级”应用,开始向实用工具迈进。测试团队负责人提到,2023年Agent概念刚兴起时,多数产品只能完成简单搜索,而现在已能处理“开设办公室”“撰写投资报告”等需要专业知识的多步骤任务。
这种进步背后,是技术的快速迭代。以Genspark为例,其4月至6月间每5-7天就更新一项功能,从“AI表格生成”到“云浏览器集成”,功能边界不断扩展;Manus则在3个月内新增了图像生成、团队协作等10余项功能,用户访问量随之增长3倍。
行业竞争也日趋激烈。数据显示,Manus单月流量达1500-2000万,Genspark约800万,Fellou虽起步较晚,单月流量也突破100万。从用户分布看,美国、印度、巴西是主要市场,反映出全球用户对AI助手的需求激增。
不过,AI Agent仍有明显短板。在涉及支付、账号密码的任务中,所有产品都需要用户手动介入;复杂任务的“上下文记忆”能力不足,比如在“稳定币分析”中,追加追问“政策影响”时,部分产品会重复已提及的内容。
正如测试者在报告中所说:“这些结果只是今天的快照。明天,创始人可能就会推送更新,能力边界又将被改写。” 可以预见,随着技术迭代和场景深挖,AI Agent将在办公、生活、专业领域扮演更重要的角色,而这场“智能助手之争”,才刚刚开始。
以下为报告节选内容
报告共计: 49页
中小未来圈,你需要的资料,我这里都有!