OpenAI Agent测试报告(openapi测试) #科技 #Fellou #Agent #Comet #功能 #测试

今天分享的是：OpenAI Agent测试报告

报告共计：49页

《OpenAI Agent测试报告》核心内容总结

该报告发布于2025年7月18日，由郎瀚威及团队完成，聚焦OpenAI Agent等多款AI工具的性能测试，涵盖任务执行、功能表现及行业趋势分析。

测试选取OpenAI官方及群友提供的12项任务，涵盖信息查找、预订规划、行业分析等，按难度分为1-5级（1级最简单，5级为专家级）。测试对象包括OpenAI、Comet、Manus、Genspark、Fellou等5款工具，从完成时间、结果及优缺点等维度评估。

任务执行方面，简单任务（如旧金山财务报告查找）中，多数工具能成功完成，Fellou因提供直接链接表现最优；中等任务（如旧金山寿司餐厅预订）存在实际预订操作短板，部分工具需用户补充信息；高难度任务（如新加坡办公室开设研究+PPT）中，Manus和Fellou因生成实际演示网站脱颖而出。

工具特性上，Comet处理速度快，7项任务平均耗时仅44秒；Genspark性价比高，功能丰富但下载体验欠佳；OpenAI虽能完成复杂任务，但等待时间长且功能开启无提示；Fellou无幻觉且执行订餐厅等任务可靠，但复杂任务易陷入死循环。

行业趋势方面，Agent工具自2023年概念兴起后，于2024年末至2025年迎来产品爆发，Perplexity、OpenAI等纷纷布局。从流量数据看，Manus和Genspark用户留存呈工作日活跃规律，功能更新频繁（约5-7天一次），反映市场竞争激烈。

报告指出，当前Agent工具已能完成多类任务，但交互体验、功能稳定性仍需优化，且行业格局尚未定型，未来发展潜力较大。

以下为报告节选内容

OpenAI Agent测试报告(openapi测试)