OpenAI 的 Codex 是新一代 agentic 编程工具的一部分

近期,OpenAI推出了一种名为 Codex的新型编程系统,旨在通过自然语言指令执行复杂的编程任务。Codex 将 OpenAI 带入了一类全新的 agentic 编程工具,目前这类工具正处于初步成型阶段。

从 GitHub早期的 Copilot到 Cursor 和 Windsurf 等当代工具,大多数 AI 编程助手都表现为一种异常智能的自动补全形式。这些工具通常嵌入在集成开发环境中,用户直接与 AI生成的代码交互。而仅仅分派一个任务,然后稍后回来取结果的设想仍然遥不可及。

但这些由 Devin、 SWE-Agent、 OpenHands 以及前述 OpenAI Codex 等产品引领的新型 agentic 编程工具,设计上不要求用户查看代码。目标是扮演工程团队经理的角色,通过 Asana 或 Slack等工作系统分派问题,并在解决方案达成后进行核查。

对于信奉高能力 AI 形态的人来说,这标志着自动化逐步接管越来越多软件工作量的下一个合理阶段。

普林斯顿大学研究员、 SWE-Agent 团队成员 Kilian Lieret 解释说:“起初,人们是通过每一个按键来编写代码的。GitHub Copilot 是第一个真正提供自动补全功能的产品,这是第二阶段。你仍然完全参与其中,但有时你可以走捷径。”

agentic 系统的目标则是完全跳出开发者环境,将问题直接交给编码代理,然后让它们自行解决。“我们把流程提升到管理层面,我只需要分派一个 bug 报告,而『机器人』️就会尝试完全自主地修复它,”Lieret 说道。

这是一个雄心勃勃的目标,到目前为止,其推进过程仍充满困难。

在 Devin 于 2024 年底普及后,它遭到了 YouTube 评论员的严厉批评,同时 Answer.AI 的一位早期客户也提出了较为冷静的批评。总体印象与许多熟悉 vibe-coding 的资深人士所经历的情形类似:错误频出,监督模型所花费的精力几乎与手动完成任务无异。(尽管 Devin 的推出来得有些波折,但这并未阻止投资者看好其潜力 —— 据报道,Devin 的母公司 Cognition AI 在 3 月份以 40 亿美元💵估值成功募集了数亿美元💵。)

即便是技术支持者也警告⚠️,不要对 vibe-coding 采取无监督的方式,将这些新型编码代理视为需要人类监督的开发过程中的强大组成部分。

All Hands AI(负责维护 OpenHands)的 CEO Robert Brennan 表示:“目前,且在可预见的未来,代码审查时总需要人类介入,亲自检查生成的代码。我见过好几个人因为自动批准代理写出的每一行代码而陷入混乱,事情一旦失控就很快变糟。”

幻觉问题仍然存在。Brennan 回忆起一次事件,当被询问一个在 OpenHands 代理训练数据截止之后发布的 API 时,代理竟编造出一些符合描述的 API 细节。All Hands AI 表示,他们正在开发系统以在这些幻觉造成损害之前捕捉到它们,但目前并没有简单的解决办法。

可以说,衡量 agentic 编程进展的最佳标尺是 SWE-Bench 排行榜,在这个排行榜上,开发者可以测试其模型对 GitHub 开源仓库中尚未解决问题的处理能力。目前,OpenHands 在经过验证的排行榜上名列榜首,解决了 65.8% 的问题集。OpenAI 宣称支撑 Codex 的某一模型 codex-1 表现更优,并在公告中列出了 72.1% 的得分 —— 尽管这一分数附带了一些限制,且尚未经过独立验证。

许多科技业内人士担忧,高基准得分不一定意味着真正实现了完全无干预的 agentic 编程。如果 agentic 编码器每解决四个问题中只有三个成功,那么在面对具有多阶段复杂系统时,就必然需要人类开发者大量监督。

与大多数 AI 工具类似,人们希望基础模型的不断改进能推动 agentic 编程系统逐渐演变成可靠的开发工具。但要达到这一目标,找到管理幻觉及其他可靠性问题的方法将至关重要。

Brennan 指出:“我认为目前存在一种类似音障的效应。关键问题是,你能将多少信任转移给这些代理,从而在最终减轻你的工作负担呢?”

特别声明:[OpenAI 的 Codex 是新一代 agentic 编程工具的一部分] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

2025年选语音报警器电动车防盗器,48V-72V电池适用范围如何挑选?

在消费升级和智能化浪潮下,48V-72V电压范围的电动车防盗需求如何满足?本文详解语音报警器的选购要点、配置权衡、安装注意事项和常见误区,助您选到高性价比且安全可靠的电动车防盗方案。从电压适配、报警方式、使用场景等角度深度解读,让您轻松掌握

2025年选语音报警器电动车防盗器,48V-72V电池适用范围如何挑选?

上海同事整夜插充手机,三年电池健康度比掐点拔电的高

从小到大接收到的信息都是:手机充满就拔,长时间过充会让电池鼓包、衰减! 手机用了一年多,电池健康度就掉到了 89%!而同事的手机用了三年,健康度还维持在 92%! 因为电池的循环寿命是有限的,频繁充电、放…

上海同事整夜插充手机,三年电池健康度比掐点拔电的高

今晚CCTV-8重磅开播!顶配阵容剧来袭,央视开年凭实力打头阵(今晚央视8台节目)

她这几年演什么像什么,飞天奖、金鹰奖都拿过了,观众缘和演技都在那儿摆着。还有『秦俊杰』也在,虽然戏份不多,但几个镜头看着还挺稳的。最难得的是,这剧没把人拍成英雄,干部也好,农民也罢,都是普通人,有犹豫有矛盾,但就…

今晚CCTV-8重磅开播!顶配阵容剧来袭,央视开年凭实力打头阵(今晚央视8台节目)

黄仁勋:中美“脱钩”不符合常识,呼吁放宽『芯片』限制

『英伟达』首席执行官黄仁勋在2025年的工作重点是游说美国政府放宽对华『芯片』销售的限制。展望2026年的中美关系,他认为中美“脱钩”不符合常识,并认为美国会远离中国是一种天真的想法

黄仁勋:中美“脱钩”不符合常识,呼吁放宽『芯片』限制

可折叠拆线器到底好在哪?聊聊它如何让生活更便捷高效?(智能化家居用品新趋势)(拆线机工作原理)

可折叠拆线器作为便捷家居小工具,在日常衣物缝补、十字绣创作、标签拆除等方面有着不可忽视的作用。本篇文章从多场景入手,为你详解这款智能工具的价值所在,帮助你轻松掌握选购技巧,提升居家效率。无论你是手工达人还是初学者,都值得一看。

可折叠拆线器到底好在哪?聊聊它如何让生活更便捷高效?(智能化家居用品新趋势)(拆线机工作原理)