最强AI『工程师』Devin 惨遭Cursor 完虐!真实测评:20个任务14次失败!

最强AI『工程师』Devin 惨遭Cursor 完虐!真实测评:20个任务14次失败!

AI『工程师』Devin被Cursor完虐,这是一场毫无悬念的对决!

背负2100万美元💵A轮融资的Devin,号称为「第一位AI『工程师』」,还获得了包括Founders Fund、Collison兄弟和Elad Gil等科技大佬的支持。

但现实总是格外 残酷

Answer AI团队对Devin进行了为期一个月的深度测试,结果令人 大跌眼镜👓:在20个实际任务中, 14次失败,3次结果不明,仅3次成功

更糟糕的是,这些失败似乎是 全方位、无差别的,与任务难度毫无关联。

团队成员的反馈直白而尖锐:

「能完成的任务都太小太简单了,还不如我自己动手更快。而那些可能节省时间的大型任务,它基本都搞不定。」

「最开始我很兴奋,以为稍加调整就能用。但随着需要修改的东西越来越多,最后发现还不如从头开始写更好。」

那么,Devin到底 败在哪里

创建新项目?它给你一碗代码意面!

当团队要求Devin为LLM可观测性平台Braintrust生成并上传合成数据时,它生产的代码简直就是一团乱麻 —— 把简单的操作包裹在 层层抽象中。

最终,团队不得不放弃Devin的方案,转而用Cursor一步步构建集成,效果反而更好。

处理已有代码?它陷入自己的幻觉!

在安全审查任务中,Devin对一个不到700行代码的GitHub仓库进行分析。

结果呢?

它不仅过度警惕,还 幻想出了根本不存在的问题。这种分析用一个简单的LLM调用就能完成,根本不需要Devin这么复杂的操作。

研究性任务?它只会复读机!

它给出的代码示例更是完全没有触及问题的本质。

而且, 每月500美元💵的价格让很多公司都不得不三思。

毕竟,这样的表现实在难以让人掏腰包。

工具再强大,最终还是要回归人机协作的本质。2025年伊始,这个真理依然没变。

团队最后发现: 与Cursor的迭代式协作反而在许多任务上都能取得不错的效果,这些任务恰恰是Devin完全失败的地方。

完整测评报告:https://www.answer.ai/posts/2025-01-08-devin.html

看来,「第一位AI『工程师』」这顶帽子,还是戴早了!

只是不知道,我已经买了但还没用多少的Devin 可以申请个仅退款吗?

👇

👇

👇

👇

本文首发于《实时AI快讯》群

欢迎加入!

特别声明:[最强AI『工程师』Devin 惨遭Cursor 完虐!真实测评:20个任务14次失败!] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

心绞痛😣和神经痛😣的区别

心绞痛与神经痛是两种不同类型的疼痛,它们在几个关键方面有所区别: 心绞痛主要是由于冠状动脉狭窄或堵塞,导致心脏肌肉血液供应不足和缺氧引起。相比之下,神经痛多由神经炎或坐骨神经受损、受压引发

心绞痛😣和神经痛😣的区别

从10个角色看辛芷蕾的逆袭过往:都说红气养人,如何越来越精致

在与对方的天姬演艺解约前,辛芷蕾默默“隐忍”八年之久,虽每年也有作品出炉,但实则爆款寥寥,也因此引发了“梁婷是个合格的星探,却不是个合格的经纪人”的新说法。 也是这一年,因为在演技类节目《演员的诞生》中惜败…

从10个角色看辛芷蕾的逆袭过往:都说红气养人,如何越来越精致

富商钱帆为女庆生!杨颖身穿白色吊带长裙👗亮相,笑容甜美宛如少女(钱帆个人资料简介)

一个是卸下负担之后,迅速减肥成功,焕发新动力,整个人变得越来越有男人味;另一个则是变身为单亲妈妈,虽然在事业上看似有所下滑,但颜值和气质却依旧在线,甚至更有韵味。 代言恩怨:杨颖与李菲儿的旧账让人有些意外的…

富商钱帆为女庆生!杨颖身穿白色吊带长裙👗亮相,笑容甜美宛如少女(钱帆个人资料简介)

35年后再揭伤疤!欧阳奋强:宝玉毁了我一生婚姻(35年后再揭伤疤好吗)

在多次访谈中,欧阳奋强坦言:1"贾宝玉这个角色既成就了我,也给我带来了困扰。心理学领域存在1"角色认同偏差1"现象,即观众将演员与角色混为一谈,导致演员承受额外的心理压力。他在采访中透露

35年后再揭伤疤!欧阳奋强:宝玉毁了我一生婚姻(35年后再揭伤疤好吗)

DOPE-Ce6(二油酰基磷脂酰乙醇胺偶联二氢卟吩)(二油酰基磷脂酰丝氨酸)

DOPE 与 Ce6 通过化学键直接偶联,形成两亲性分子。与 Ce6-DOPE 类似,但一般不含 PEG 修饰。 成像引导PDT:Ce6荧光用于『肿瘤』定位,同时实现光动力消融。 以上资料由西安瑞禧生物科技小…

DOPE-Ce6(二油酰基磷脂酰乙醇胺偶联二氢卟吩)(二油酰基磷脂酰丝氨酸)