今天分享的是:OpenAI Agent测试报告
报告共计:49页
《OpenAI Agent测试报告》核心内容总结
该报告发布于2025年7月18日,由郎瀚威及团队完成,聚焦OpenAI Agent等多款AI工具的性能测试,涵盖任务执行、功能表现及行业趋势分析。
测试选取OpenAI官方及群友提供的12项任务,涵盖信息查找、预订规划、行业分析等,按难度分为1-5级(1级最简单,5级为专家级)。测试对象包括OpenAI、Comet、Manus、Genspark、Fellou等5款工具,从完成时间、结果及优缺点等维度评估。
任务执行方面,简单任务(如旧金山财务报告查找)中,多数工具能成功完成,Fellou因提供直接链接表现最优;中等任务(如旧金山寿司餐厅预订)存在实际预订操作短板,部分工具需用户补充信息;高难度任务(如新加坡办公室开设研究+PPT)中,Manus和Fellou因生成实际演示网站脱颖而出。
工具特性上,Comet处理速度快,7项任务平均耗时仅44秒;Genspark性价比高,功能丰富但下载体验欠佳;OpenAI虽能完成复杂任务,但等待时间长且功能开启无提示;Fellou无幻觉且执行订餐厅等任务可靠,但复杂任务易陷入死循环。
行业趋势方面,Agent工具自2023年概念兴起后,于2024年末至2025年迎来产品爆发,Perplexity、OpenAI等纷纷布局。从流量数据看,Manus和Genspark用户留存呈工作日活跃规律,功能更新频繁(约5-7天一次),反映市场竞争激烈。
报告指出,当前Agent工具已能完成多类任务,但交互体验、功能稳定性仍需优化,且行业格局尚未定型,未来发展潜力较大。
以下为报告节选内容