OpenAI Agent测试报告(open test) #科技 #Fellou #Agent #Manus #产品 #Comet

今天分享的是：OpenAI Agent测试报告

报告共计：49页

AI Agent产品实测：从订餐厅到做报告，智能助手们的真实能力如何？

当下，AI领域正掀起一股“Agent热潮”。从OpenAI推出的ChatGPT Agent，到Perplexity的Comet、Genspark等产品，一批能自主完成复杂任务的智能助手相继登场。它们号称能帮用户订餐厅、做旅行规划、写行业报告，甚至处理办公室开设等专业事务。这些AI助手的实际表现究竟如何？近期一份针对多款主流AI Agent产品的测试报告，为我们揭开了谜底。

从简单预订到专业分析：AI Agent能搞定哪些事？

测试团队选取了12项不同难度的任务，覆盖日常琐事到专业工作，从“ Whole Foods订购”“旧金山寿司餐厅预订”等简单任务（难度1-2级），到“新加坡办公室开设研究+PPT”“稳定币全面分析”等复杂任务（难度4-5级），全面考察AI Agent的能力边界。

简单任务中，餐厅预订、购物指南等场景最能体现AI的实用性。比如在“旧金山寿司餐厅预订”任务中，多数产品能快速筛选出高评分餐厅，但执行细节差异明显：Comet 34秒就给出推荐清单，却没完成实际预订；Fellou因陷入信息补全循环，最终失败；OpenAI Agent则列出了符合条件的餐厅，却需要用户手动确认时间。而在“Whole Foods订购”这类涉及支付的任务中，由于工具限制，所有产品都无法直接完成下单，只能提供详细的订购指南。

复杂任务更能拉开差距。“网球锦标赛旅行规划”要求结合用户偏好（徒步、素食、spa）、预算（3000美元💵）生成详细行程，OpenAI Agent和Genspark表现突出，不仅规划到小时级活动，还附上预订链接，预算控制精准；“智能眼镜👓行业分析”任务中，Manus产出了2.5万字报告，涵盖国内外市场数据、技术趋势，甚至引用500多条参考文献，展现了专业领域的深度处理能力。

值得关注的是，高难度的“Dify AI投资报告+PPT”任务（2万字报告+演示文稿）成了“分水岭”。Genspark和Fellou不仅完成了万字报告，还生成了带配图的PPT，其中Genspark的PPT支持在线编辑字体、颜色等细节；而OpenAI和Manus仅完成了报告部分，未能生成PPT。

谁是“全能选手”？主流AI Agent产品各有长短

测试覆盖的5款产品——OpenAI Agent、Comet、Manus、Genspark、Fellou，在速度、准确性、易用性等维度各有优劣，勾勒出当前AI Agent的“能力图谱”。

速度方面，Comet堪称“闪电侠”。在“旧金山财务报告查找”任务中，它仅用44秒就给出2020-2024年的报告链接，而OpenAI Agent花了5分钟，Manus则用了8分钟。这种效率优势在简单信息检索类任务中尤为明显，但在复杂任务中差距缩小，比如“新加坡办公室开设研究”，Comet和OpenAI Agent都用了约20-30分钟完成。

准确性与幻觉控制上，Fellou表现亮眼。测试者提到，Fellou在所有任务中几乎没有“幻觉输出”（即编造信息），尤其在涉及真实数据的“Twitter分析”任务中，其总结的发布时间、视频数量与实际完全一致。相比之下，Genspark和Comet偶尔会出现信息偏差，比如在“找YouTube宣传博主”时，误将普通用户标记为“大博主”。

性价比与易用性成了Genspark的加分项。其价格仅为Comet的1/10，却能在3分钟内生成带配图的报告初稿，支持在线编辑PPT、追加追问等功能。而OpenAI Agent的体验则略显“高冷”——仅网页版可用，开启功能需支付200美元💵且无明确指引，被测试者调侃为“像在玩找彩蛋”。

功能完整性方面，Manus和Fellou走向两个极端。Manus支持PDF、Markdown等多种格式下载，PPT可直接编辑文字；但Fellou因需要手动补全信息，在“餐厅预订”等任务中陷入循环，被评价为“单一任务执行成本过高”。

行业迎来“战国时代”：AI Agent正突破能力边界

从测试结果来看，AI Agent已告别“玩具级”应用，开始向实用工具迈进。测试团队负责人提到，2023年Agent概念刚兴起时，多数产品只能完成简单搜索，而现在已能处理“开设办公室”“撰写投资报告”等需要专业知识的多步骤任务。

这种进步背后，是技术的快速迭代。以Genspark为例，其4月至6月间每5-7天就更新一项功能，从“AI表格生成”到“云浏览器集成”，功能边界不断扩展；Manus则在3个月内新增了图像生成、团队协作等10余项功能，用户访问量随之增长3倍。

行业竞争也日趋激烈。数据显示，Manus单月流量达1500-2000万，Genspark约800万，Fellou虽起步较晚，单月流量也突破100万。从用户分布看，美国、印度、巴西是主要市场，反映出全球用户对AI助手的需求激增。

不过，AI Agent仍有明显短板。在涉及支付、账号密码的任务中，所有产品都需要用户手动介入；复杂任务的“上下文记忆”能力不足，比如在“稳定币分析”中，追加追问“政策影响”时，部分产品会重复已提及的内容。

正如测试者在报告中所说：“这些结果只是今天的快照。明天，创始人可能就会推送更新，能力边界又将被改写。” 可以预见，随着技术迭代和场景深挖，AI Agent将在办公、生活、专业领域扮演更重要的角色，而这场“智能助手之争”，才刚刚开始。

以下为报告节选内容