OpenAI 的 Codex 是新一代 agentic 编程工具的一部分

OpenAI 的 Codex 是新一代 agentic 编程工具的一部分

近期,OpenAI推出了一种名为 Codex的新型编程系统,旨在通过自然语言指令执行复杂的编程任务。Codex 将 OpenAI 带入了一类全新的 agentic 编程工具,目前这类工具正处于初步成型阶段。

从 GitHub早期的 Copilot到 Cursor 和 Windsurf 等当代工具,大多数 AI 编程助手都表现为一种异常智能的自动补全形式。这些工具通常嵌入在集成开发环境中,用户直接与 AI生成的代码交互。而仅仅分派一个任务,然后稍后回来取结果的设想仍然遥不可及。

但这些由 Devin、 SWE-Agent、 OpenHands 以及前述 OpenAI Codex 等产品引领的新型 agentic 编程工具,设计上不要求用户查看代码。目标是扮演工程团队经理的角色,通过 Asana 或 Slack等工作系统分派问题,并在解决方案达成后进行核查。

对于信奉高能力 AI 形态的人来说,这标志着自动化逐步接管越来越多软件工作量的下一个合理阶段。

普林斯顿大学研究员、 SWE-Agent 团队成员 Kilian Lieret 解释说:“起初,人们是通过每一个按键来编写代码的。GitHub Copilot 是第一个真正提供自动补全功能的产品,这是第二阶段。你仍然完全参与其中,但有时你可以走捷径。”

agentic 系统的目标则是完全跳出开发者环境,将问题直接交给编码代理,然后让它们自行解决。“我们把流程提升到管理层面,我只需要分派一个 bug 报告,而『机器人』️就会尝试完全自主地修复它,”Lieret 说道。

这是一个雄心勃勃的目标,到目前为止,其推进过程仍充满困难。

在 Devin 于 2024 年底普及后,它遭到了 YouTube 评论员的严厉批评,同时 Answer.AI 的一位早期客户也提出了较为冷静的批评。总体印象与许多熟悉 vibe-coding 的资深人士所经历的情形类似:错误频出,监督模型所花费的精力几乎与手动完成任务无异。(尽管 Devin 的推出来得有些波折,但这并未阻止投资者看好其潜力 —— 据报道,Devin 的母公司 Cognition AI 在 3 月份以 40 亿美元💵估值成功募集了数亿美元💵。)

即便是技术支持者也警告⚠️,不要对 vibe-coding 采取无监督的方式,将这些新型编码代理视为需要人类监督的开发过程中的强大组成部分。

All Hands AI(负责维护 OpenHands)的 CEO Robert Brennan 表示:“目前,且在可预见的未来,代码审查时总需要人类介入,亲自检查生成的代码。我见过好几个人因为自动批准代理写出的每一行代码而陷入混乱,事情一旦失控就很快变糟。”

幻觉问题仍然存在。Brennan 回忆起一次事件,当被询问一个在 OpenHands 代理训练数据截止之后发布的 API 时,代理竟编造出一些符合描述的 API 细节。All Hands AI 表示,他们正在开发系统以在这些幻觉造成损害之前捕捉到它们,但目前并没有简单的解决办法。

可以说,衡量 agentic 编程进展的最佳标尺是 SWE-Bench 排行榜,在这个排行榜上,开发者可以测试其模型对 GitHub 开源仓库中尚未解决问题的处理能力。目前,OpenHands 在经过验证的排行榜上名列榜首,解决了 65.8% 的问题集。OpenAI 宣称支撑 Codex 的某一模型 codex-1 表现更优,并在公告中列出了 72.1% 的得分 —— 尽管这一分数附带了一些限制,且尚未经过独立验证。

许多科技业内人士担忧,高基准得分不一定意味着真正实现了完全无干预的 agentic 编程。如果 agentic 编码器每解决四个问题中只有三个成功,那么在面对具有多阶段复杂系统时,就必然需要人类开发者大量监督。

与大多数 AI 工具类似,人们希望基础模型的不断改进能推动 agentic 编程系统逐渐演变成可靠的开发工具。但要达到这一目标,找到管理幻觉及其他可靠性问题的方法将至关重要。

Brennan 指出:“我认为目前存在一种类似音障的效应。关键问题是,你能将多少信任转移给这些代理,从而在最终减轻你的工作负担呢?”

特别声明:[OpenAI 的 Codex 是新一代 agentic 编程工具的一部分] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

央妈亲选,48岁担任九三阅兵的李梓萌,把江湖地位展现得淋漓尽致(央妈出手)

作为央视精挑细选的主持人,48岁的她以无可挑剔的表现,再次证明了其在播音界的泰斗地位。细心的观众可能会发现,在《新闻联播》中亮相多年的李梓萌始终保持着同一发型。 直到某次综艺节目中,她以真发造型惊艳亮相,与…

央妈亲选,48岁担任九三阅兵的李梓萌,把江湖地位展现得淋漓尽致(央妈出手)

涉嫌性侵江祖平的男子被拘捕 警方正式逮捕并展开调查

台湾女星江祖平指控台湾三立电视台前资深副总之子龚益霆对她进行性侵和偷拍。台北市警察局妇幼警察队于9月15日上午持拘票和搜索票前往龚某住处,将其正式拘提,并以涉嫌“加重妨害性自主”、“妨害性隐私”等多项罪名当场逮捕

涉嫌性侵江祖平的男子被拘捕 警方正式逮捕并展开调查

又一爆款!订单涌来!千亿级新风口→(订单太火爆了)

广东深圳荔枝公园无人清洁船项目技术人员郑磊:船体搭载了毫米波雷达以及摄像头,通过算法技术,识别障碍物,及时避障,从而实现在无人操作的情况下完成既定路线的保洁工作,垃圾收集承载量最大在50公斤。 在广东佛山…

又一爆款!订单涌来!千亿级新风口→(订单太火爆了)

工控板贴装加工工厂怎么选择,江苏、安徽等地有实力的推荐(工控板是干嘛的)

其业务涵盖 2 - 100 层精密 PCB 的生产制造、全 BOM 元器件采购等 PCBA 打样和批量一站式服务,产品广泛应用于汽车电子、『新能源』、工业控制、医疗电子等领域,是一家实力强劲、值得选择的工控板贴装…

工控板贴装加工工厂怎么选择,江苏、安徽等地有实力的推荐(工控板是干嘛的)

全国网络安全标准化技术委员会:2025人工智能安全治理框架2.0版(全国网络安全标准化技术委员会)

框架首先明确了人工智能安全治理五大原则,包括包容审慎且严守安全底线,为新技术提供容错空间的同时及时应对危害风险;从技术自身、应用及衍生影响多维度识别风险,并探索按场景、智能化水平等分级应对;结合开源业态挑战…

全国网络安全标准化技术委员会:2025人工智能安全治理框架2.0版(全国网络安全标准化技术委员会)