OpenAI 的 Codex 是新一代 agentic 编程工具的一部分

近期,OpenAI推出了一种名为 Codex的新型编程系统,旨在通过自然语言指令执行复杂的编程任务。Codex 将 OpenAI 带入了一类全新的 agentic 编程工具,目前这类工具正处于初步成型阶段。

从 GitHub早期的 Copilot到 Cursor 和 Windsurf 等当代工具,大多数 AI 编程助手都表现为一种异常智能的自动补全形式。这些工具通常嵌入在集成开发环境中,用户直接与 AI生成的代码交互。而仅仅分派一个任务,然后稍后回来取结果的设想仍然遥不可及。

但这些由 Devin、 SWE-Agent、 OpenHands 以及前述 OpenAI Codex 等产品引领的新型 agentic 编程工具,设计上不要求用户查看代码。目标是扮演工程团队经理的角色,通过 Asana 或 Slack等工作系统分派问题,并在解决方案达成后进行核查。

对于信奉高能力 AI 形态的人来说,这标志着自动化逐步接管越来越多软件工作量的下一个合理阶段。

普林斯顿大学研究员、 SWE-Agent 团队成员 Kilian Lieret 解释说:“起初,人们是通过每一个按键来编写代码的。GitHub Copilot 是第一个真正提供自动补全功能的产品,这是第二阶段。你仍然完全参与其中,但有时你可以走捷径。”

agentic 系统的目标则是完全跳出开发者环境,将问题直接交给编码代理,然后让它们自行解决。“我们把流程提升到管理层面,我只需要分派一个 bug 报告,而『机器人』️就会尝试完全自主地修复它,”Lieret 说道。

这是一个雄心勃勃的目标,到目前为止,其推进过程仍充满困难。

在 Devin 于 2024 年底普及后,它遭到了 YouTube 评论员的严厉批评,同时 Answer.AI 的一位早期客户也提出了较为冷静的批评。总体印象与许多熟悉 vibe-coding 的资深人士所经历的情形类似:错误频出,监督模型所花费的精力几乎与手动完成任务无异。(尽管 Devin 的推出来得有些波折,但这并未阻止投资者看好其潜力 —— 据报道,Devin 的母公司 Cognition AI 在 3 月份以 40 亿美元💵估值成功募集了数亿美元💵。)

即便是技术支持者也警告⚠️,不要对 vibe-coding 采取无监督的方式,将这些新型编码代理视为需要人类监督的开发过程中的强大组成部分。

All Hands AI(负责维护 OpenHands)的 CEO Robert Brennan 表示:“目前,且在可预见的未来,代码审查时总需要人类介入,亲自检查生成的代码。我见过好几个人因为自动批准代理写出的每一行代码而陷入混乱,事情一旦失控就很快变糟。”

幻觉问题仍然存在。Brennan 回忆起一次事件,当被询问一个在 OpenHands 代理训练数据截止之后发布的 API 时,代理竟编造出一些符合描述的 API 细节。All Hands AI 表示,他们正在开发系统以在这些幻觉造成损害之前捕捉到它们,但目前并没有简单的解决办法。

可以说,衡量 agentic 编程进展的最佳标尺是 SWE-Bench 排行榜,在这个排行榜上,开发者可以测试其模型对 GitHub 开源仓库中尚未解决问题的处理能力。目前,OpenHands 在经过验证的排行榜上名列榜首,解决了 65.8% 的问题集。OpenAI 宣称支撑 Codex 的某一模型 codex-1 表现更优,并在公告中列出了 72.1% 的得分 —— 尽管这一分数附带了一些限制,且尚未经过独立验证。

许多科技业内人士担忧,高基准得分不一定意味着真正实现了完全无干预的 agentic 编程。如果 agentic 编码器每解决四个问题中只有三个成功,那么在面对具有多阶段复杂系统时,就必然需要人类开发者大量监督。

与大多数 AI 工具类似,人们希望基础模型的不断改进能推动 agentic 编程系统逐渐演变成可靠的开发工具。但要达到这一目标,找到管理幻觉及其他可靠性问题的方法将至关重要。

Brennan 指出:“我认为目前存在一种类似音障的效应。关键问题是,你能将多少信任转移给这些代理,从而在最终减轻你的工作负担呢?”

特别声明:[OpenAI 的 Codex 是新一代 agentic 编程工具的一部分] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

网络畅通产业兴:黄石联通助力茶乡驶入数字快车道(保障网络畅通)

茶农们不仅难以通过网络及时获取市场信息,更无法借助电商平台拓展销售渠道,优质的茶叶常常因信息不畅而卖不上好价钱。 除了助力产业发展,联通工作人员还定期走访茶农,提供网络使用指导和技术支持,确保每位茶农都能享受…

网络畅通产业兴:黄石联通助力茶乡驶入数字快车道(保障网络畅通)

搭载AI雷视!南京公交化身“道路医生”护航“南马”

通过公交车普查的方式,以雷视融合公共道路病害识别与精准定位、公共道路病害去重编码、高精度地图建设为核心亮点,通过道路资产一张图、道路管养一张图、应急调度一张图、路网服务一张图,实现“一图云巡检”“一屏云监测…

搭载AI雷视!南京公交化身“道路医生”护航“南马”

华为尊享新机上架:11月27日,正式开售!(华为新机尊享权益礼包怎么领取)

华为又低调上架了一款“隐藏实力派”——畅享70X尊享版,价格不变,配置却悄悄升级了! 全新流沙金、星海蓝配色,一眼认出尊享版身份麒麟8000『芯片』加持,性能稳了机身轻至189克,手感更舒适6100mAh巨鲸电池…

华为尊享新机上架:11月27日,正式开售!(华为新机尊享权益礼包怎么领取)

Turnitin和iThenticate:不注册、不收录直接查重!(turnitin和ithenticate的库区别)

Turnitin和iThenticate两款查重工具是国际上使用最广泛、主流的学术不端查重系统,均属于Turnitin LLC公司旗下。 Turnitin服务于全球150多个国家,被超16000+的高等院…

Turnitin和iThenticate:不注册、不收录直接查重!(turnitin和ithenticate的库区别)

徐志胜家被李诞吐槽脏,他一句幽默回应,暴露真实人品(徐志胜外号)

就像这次李诞的吐槽,徐志胜并没有急于辩解,反而巧妙地用玩笑话化解了这一切,这种松弛、幽默的气质让他更加受人喜爱。 总的来说,大家喜爱徐志胜,是因为他代表了一种普通人理想中的生活状态:通过努力从平凡中走出来,…

徐志胜家被李诞吐槽脏,他一句幽默回应,暴露真实人品(徐志胜外号)