2025年Perplexity Comet电商购物能力测试报告

今天分享的是:2025年Perplexity Comet电商购物能力测试报告

报告共计:51页

AI购物助手大比拼:谁能真正帮你"买遍全网"?

随着人工智能技术的快速发展,AI购物助手正逐渐走进人们的日常生活。从挑选商品到加入购物车🛒,甚至完成支付,这些智能工具试图简化整个购物流程。近日,一份针对四款主流AI购物助手(OAI Agent、Perp Comet、Manus、Genspark)的实测报告引发关注,通过五大真实购物场景的考验,这些AI工具的实际能力高下立判。

一场跨越五大场景的实战考验

为了全面评估AI购物助手的真实水平,测试团队设计了五大贴近生活的购物任务:亚马逊商品复购、查找最快发货的自行车、采购聚会用造景杂物、按预算挑选『风衣』、选购符合特定条件的冰箱。这些任务不仅考验AI的搜索和筛选能力,更涉及到与电商平台的交互、购物车🛒操作甚至支付准备等实际操作。

从整体表现来看,Perp Comet和Genspark表现最为亮眼,在五项任务中均取得成功;OAI Agent和Manus则各有一项任务失败。在效率上,Perp Comet以平均318秒的完成时间遥遥领先,而OAI Agent平均耗时高达1193秒,差距明显。

值得注意的是,不同场景对AI的能力要求各有侧重。比如亚马逊复购任务需要AI访问历史订单并完成再次购买,考验的是跨平台数据调取和操作连贯性;而聚会杂物采购则需要AI主动推理模糊需求——"造景杂物"具体包含什么、适合多大规模的聚会,这背后是对用户潜在需求的理解能力。

从"看懂需求"到"完成支付":AI能力的十级阶梯

测试团队将电商购物能力划分为十级梯度,从最基础的"理解购物需求"到最高阶的"执行支付操作",全面勾勒出AI购物助手的能力边界。

在基础能力层面,四款AI工具表现旗鼓相当,都能准确解析用户需求、在目标平台执行搜索并返回结果。比如在挑选『风衣』的任务中,所有工具都能精准把握"米色、500美元💵以内、带腰带和双排扣"等核心条件,筛选出符合要求的商品。

但在高阶能力上,差距开始显现。第八级"购物车🛒操作"(添加、修改、删除商品)中,Manus未能达标,只能提供购物清单而无法实际操作;第九级"订单预处理"(填写地址、选择配送方式)中,四款工具里只有Manus掉队;到了最高级的"支付完成"环节,目前仅有Perp Comet展现出完成潜力——虽然测试中因需绑定支付信息未实际完成,但它能引导用户完成前期准备,提示绑定账户后即可执行支付,其他工具则均未达到这一水平。

这种能力差异在实际场景中体现得尤为明显。比如采购聚会杂物时,Perp Comet和Genspark不仅能列出清单,还能自动将商品加入购物车🛒,其中Genspark挑选的物品多达9种,远超OAI Agent的5种;而Manus则只能提供方案,需要用户手动购买。

各有千秋:四款AI工具的实战画像

Perp Comet无疑是本次测试中的"速度之王"。在查找最快发货自行车的任务中,它仅用20秒就完成了五款产品的发货时间对比,且信息全部来自品牌官网,准确性极高。其优势在于高效的平台交互能力,无论是亚马逊复购还是聚会杂物采购,都能快速完成从筛选到加购的全流程,甚至在支付环节展现出独特优势。

Genspark则以"细致全面"见长。在挑选『风衣』时,它不仅列出价格、评分等基础信息,还详细标注了材质、防水性能等用户关心的细节;采购聚会杂物时,它能根据追问自动打开亚马逊网站并添加商品,种类丰富且操作流畅。不过,它在工具调用上不够自动化,需要用户明确指令才能进行下一步操作。

OAI Agent的表现略显不稳定。虽然在聚会杂物采购中成功将商品加入购物车🛒,但在亚马逊复购任务中因跨域限制无法访问网站,且整体耗时较长。其优势在于对多平台的适配能力,能在Target等网站完成操作,但稳定性有待提升。

Manus则更像"方案提供者"而非"操作者"。在各项任务中,它能制定详细的购物清单和对比表格,甚至会询问用户聚会规模等细节以优化方案,但始终无法完成添加购物车🛒等实际操作,在高阶能力上存在明显短板。

购物场景:AI能力的"试金石"

为何选择电商购物作为AI能力的测试场景?测试团队认为,购物看似简单,实则是对AI综合能力的全面考验。它不仅需要理解用户的个性化需求(如预算、喜好),还要处理复杂的执行流程(如跨平台交互、信息验证),更需要建立用户信任——毕竟涉及支付等敏感操作。

从测试结果来看,AI购物助手已经在基础购物环节展现出实用价值。比如帮用户筛选符合条件的冰箱、对比不同自行车的发货时间,这些都能显著节省时间。但在高阶操作上,尤其是支付环节,技术之外的用户信任问题可能更为关键——即使AI具备支付能力,用户是否愿意让其处理支付信息,仍是需要突破的心智障碍。

随着技术的不断迭代,AI购物助手或许将成为未来生活的标配。无论是忙碌的上班族想快速采购生活用品,还是新手父母需要为孩子挑选合适的商品,这些智能工具都有望提供更高效、更贴心的服务。而这场测试也让我们看到,在"读懂需求"到"完成购买"的道路上,AI正在一步步靠近人类的期待。

以下为报告节选内容

报告共计: 51页

中小未来圈,你需要的资料,我这里都有!

特别声明:[2025年Perplexity Comet电商购物能力测试报告] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

曲靖春节红包🧧背后的文化与金额选择之道【2026春节红包🧧攻略】

2026年曲靖春节红包🧧怎么发才合适?从当地传统习俗、亲朋好友关系出发,解析春节红包🧧背后的金额选择之道。了解预算规划与红包🧧礼仪的关键要素,让新春红包🧧既显心意又不超支。

曲靖春节红包🧧背后的文化与金额选择之道【2026春节红包🧧攻略】

北京亦庄发出全国首个虚拟偶像身份认证 Yuri落户成为数字居民(亦庄昨天确诊一例)

北京经济技术开发区为AI虚拟偶像“Yuri”颁发了全国首个虚拟偶像身份认证,标志着“Yuri”正式成为该区的“数字居民”。未来,“Yuri”将参与区域公共安全宣传和环保倡导等工作。“Yuri”由汗青工作室通过生成式人工智能技术打造

北京亦庄发出全国首个虚拟偶像身份认证 Yuri落户成为数字居民(亦庄昨天确诊一例)

落地的凤凰不如鸡?离开央视为钱奔波的李思思,已然走上另一条路(凤凰落地什么意思,好不)

在央视,意味着没有休息的日子,意味着每个除夕夜都要在岗位上度过,意味着你在吃热乎饭的同时,还得顾忌镜头前的形象。李思思如今的收入,保守估计已经达到了七位数起步,相比她在央视时的固定薪资,简直是天壤之别。 …

落地的凤凰不如鸡?离开央视为钱奔波的李思思,已然走上另一条路(凤凰落地什么意思,好不)

安娜·卡列尼娜(全两册) 列夫·托尔斯泰 PDF电子版(安娜·卡列尼娜在线阅读)

安娜·卡列尼娜(全两册) PDF电子版 列夫·托尔斯泰链接:https:pan+.baidu+.coms1qXmH2ZNThaBcL9YDZxyqzA?pwd=gfq7 提取码:gfq7 请将上述…

安娜·卡列尼娜(全两册) 列夫·托尔斯泰 PDF电子版(安娜·卡列尼娜在线阅读)

李子柒转幕后?时隔多年,再看李子柒的院子,会发现依旧令人向往(李子柒实锤)

相信很多人已经看到了《人民日报》的推送,李子柒在其中提到,她已将工作重心逐渐转向幕后……这句话透露出她的心境变化,也很好地解释了她为何在停更三年后,于2024年11月上传了三篇短视频,随后又再次停更的原因。如…

李子柒转幕后?时隔多年,再看李子柒的院子,会发现依旧令人向往(李子柒实锤)