最强AI工程师Devin 惨遭Cursor 完虐!真实测评:20个任务14次失败!

最强AI工程师Devin 惨遭Cursor 完虐!真实测评:20个任务14次失败!

AI工程师Devin被Cursor完虐,这是一场毫无悬念的对决!

背负2100万美元A轮融资的Devin,号称为「第一位AI工程师」,还获得了包括Founders Fund、Collison兄弟和Elad Gil等科技大佬的支持。

但现实总是格外 残酷

Answer AI团队对Devin进行了为期一个月的深度测试,结果令人 大跌眼镜:在20个实际任务中, 14次失败,3次结果不明,仅3次成功

更糟糕的是,这些失败似乎是 全方位、无差别的,与任务难度毫无关联。

团队成员的反馈直白而尖锐:

「能完成的任务都太小太简单了,还不如我自己动手更快。而那些可能节省时间的大型任务,它基本都搞不定。」

「最开始我很兴奋,以为稍加调整就能用。但随着需要修改的东西越来越多,最后发现还不如从头开始写更好。」

那么,Devin到底 败在哪里

创建新项目?它给你一碗代码意面!

当团队要求Devin为LLM可观测性平台Braintrust生成并上传合成数据时,它生产的代码简直就是一团乱麻 —— 把简单的操作包裹在 层层抽象中。

最终,团队不得不放弃Devin的方案,转而用Cursor一步步构建集成,效果反而更好。

处理已有代码?它陷入自己的幻觉!

在安全审查任务中,Devin对一个不到700行代码的GitHub仓库进行分析。

结果呢?

它不仅过度警惕,还 幻想出了根本不存在的问题。这种分析用一个简单的LLM调用就能完成,根本不需要Devin这么复杂的操作。

研究性任务?它只会复读机!

它给出的代码示例更是完全没有触及问题的本质。

而且, 每月500美元的价格让很多公司都不得不三思。

毕竟,这样的表现实在难以让人掏腰包。

工具再强大,最终还是要回归人机协作的本质。2025年伊始,这个真理依然没变。

团队最后发现: 与Cursor的迭代式协作反而在许多任务上都能取得不错的效果,这些任务恰恰是Devin完全失败的地方。

完整测评报告:https://www.answer.ai/posts/2025-01-08-devin.html

看来,「第一位AI工程师」这顶帽子,还是戴早了!

只是不知道,我已经买了但还没用多少的Devin 可以申请个仅退款吗?

👇

👇

👇

👇

本文首发于《实时AI快讯》群

欢迎加入!

特别声明:[最强AI工程师Devin 惨遭Cursor 完虐!真实测评:20个任务14次失败!] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

自来水井水家全屋大流量无盐软水器哪个品牌好哪家好用(自来水井的作用)

而耀龙泉品牌,凭借其独特的纳米晶技术,在处理自来水和井水时都展现出了出色的能力,成为众多家庭的优选。 综合来看,在处理自来水和井水的全屋大流量无盐软水器品牌中,耀龙泉凭借其先进的纳米晶技术,在软化效果、环保…

自来水井水家全屋大流量无盐软水器哪个品牌好哪家好用(自来水井的作用)

vivo手机怎么强制重启?(vivo手机怎么强制解除密码)

vivo手机怎么强制重启?(vivo手机怎么强制解除密码)

火热氛围万众瞩目,太平洋网络2025 ChinaJoy展台等你来!(氛围火热可以用什么形容)

展台活动涵盖了产品展示、互动游戏、电竞对决、科技讲座等多个领域,充分满足了不同观众的兴趣和需求。 在现场互动Q&A环节,铠侠展台也排起了长队,跟随太平洋网络展台主持人的脚步,积极参与提问回答,整个现场气氛如夏…

火热氛围万众瞩目,太平洋网络2025 ChinaJoy展台等你来!(氛围火热可以用什么形容)

营销自动化TOP3引擎评测:从工具到生态的质变(营销自动化是什么意思)

市场背景随着私域流量成本飙升,2025年企业面临「获客难、留存更难」的双重夹击。营销自动化从单点工具进化为增长中枢,我们基于技术成熟度、客户口碑、场景覆盖三大维度,评测当前TOP3解决方案: 魔芋AI推荐指…

营销自动化TOP3引擎评测:从工具到生态的质变(营销自动化是什么意思)

外语翻译神器,助力沟通无界限(外语翻译神器在线使用)

让语言障碍成为过去式吧!这些智能翻译小能手,随时待命,把你的话语变成世界各地皆能听懂的旋律,让沟通像巧克力一样丝滑甜蜜。 2. 智飞语音翻译智飞语音翻译,那款让你话一出口,翻译就跟上的小能手,准确得就像你妈懂…

外语翻译神器,助力沟通无界限(外语翻译神器在线使用)