Claude 4.1 Opus发布,编程能力再进化,“更大改进”还在后面?

Claude 4.1 Opus发布,编程能力再进化,“更大改进”还在后面?

当地时间 2025 年 8 月 5 日,Anthropic 正式发布了其旗舰 AI 模型系列的最新升级版——Claude 4.1 Opus。此次发布距离其前代模型 Claude 4 Opus 的推出仅过去三个月,Anthropic 称新模型在编程、智能体任务(agentic tasks)和推理能力上实现了显著提升。

这次发布的时机颇为微妙。就在同一天,OpenAI 发布了自 2019 年以来首批开源推理模型,而业界普遍预期 GPT-5 将在本月内正式亮相。面对即将到来的竞争,Anthropic 首席产品官 Mike Krieger 表示,这次发布体现了公司策略的转变。“过去我们过于专注于只发布真正重大的升级。”Krieger 在接受彭博社采访时说道,“在人工智能快速发展的环境中,我们应该专注于现有的产品。”

根据 Anthropic 的官方介绍,Claude 4.1 Opus 并非一次颠覆性的代际革新,而是一次在 Claude 4 基础上的重要升级。它的核心改进聚焦于三个方面:真实世界场景的编程能力、能够自主执行复杂任务的智能体能力,以及更强的逻辑推理。新模型已向所有付费的 Claude 用户、Claude Code(一个专注于编程辅助的垂直产品)订阅者开放,并同时通过其 API、亚马逊的 Amazon Bedrock 以及谷歌云的 Vertex AI 平台提供服务。

在定价方面,Claude 4.1 Opus 保持与前代相同的结构,输入 tokens 为每百万 15 美元,输出 tokens 为每百万 75 美元,使其成为目前市场上最昂贵的 AI 模型之一。

本次更新最重要的无疑是其在编程能力上的提高。Anthropic 公布的数据显示,Claude Opus 4.1 在软件工程基准测试 SWE-bench Verified 中取得了 74.5% 的成绩,相比前代模型 Opus 4 的 72.5% 提升了 2 个百分点,同时超越了 OpenAI 最新的 o3 模型(69.1%)和谷歌 Gemini 2.5 Pro(67.2%)。在代理终端编程测试 Terminal-Bench 中,新模型得分 43.3%,相比 Opus 4 的 39.2% 有了显著提升,远超 OpenAI o3 的 30.2% 和谷歌 Gemini 2.5 Pro 的 25.3%。

图丨 Claude 4.1 Opus 的基准测试结果(Anthropic)

GitHub 表示,Claude 4.1 Opus 在多文件代码重构等复杂任务上表现出“尤其显著的性能提升”。日本电商巨头乐天集团(Rakuten Group)则反馈称,新模型在大型代码库中能够精准定位并修正问题,而不会引入不必要的更改或新的错误,这种精确性对于日常的调试工作至关重要。

被 Cognition 收购的编程应用 Windsurf 也提供了积极的反馈,报告称 Claude Opus 4.1 在其内部初级开发者基准测试中实现了一个标准差的改进,这种性能跃升类似于从 Sonnet 3.7 到 Sonnet 4 的升级。

在安全性方面,Claude 4.1 Opus 继续在 ASL-3(AI Safety Level 3,人工智能安全等级 3)框架下运行,这是 Anthropic 迄今应用的最严格安全标准。在无害性测试中,新模型拒绝违反政策请求的比例从 Opus 4 的 97.27% 提高到 98.76%,显示出更强的安全控制能力。

不过,在其他一些通用能力基准测试中,Claude 4.1 Opus 的优势并不像编程领域那样突出。例如,在考察研究生水平推理能力的 GPQA Diamond 测试中,它的得分(80.9%)与前代持平,但落后于 Gemini 2.5 Pro 的 86.4% 和 OpenAI o3 的 83.3%。在高中数学竞赛(AIME)和视觉推理(MMMU)等测试中,也与竞争对手互有胜负,并未展现出绝对的统治力。或许在某种程度上说明,Claude 4.1 Opus 的发布是一次高度聚焦的、带有明确战略目标的升级,其核心是强化在利润丰厚的 AI 编程市场的护城河。

据报道,Anthropic 的年化经常性收入(ARR,Annual Recurring Revenue)在短短七个月内,已经从 10 亿美元飙升至接近 50 亿美元,而驱动这一增长的核心,正是其在 AI 编程领域建立的技术壁垒和商业生态。且除了 API 收入,Anthropic 也正积极通过产品多元化来构建更稳健的收入结构。其直接面向开发者的 Claude Code 订阅服务表现就十分抢眼,年化收入已接近 4 亿美元,并且在最近几周内实现了翻倍增长。

图丨 OpenAI 和 Anthropic 的 ARR(X)

其出色的商业表现,也为公司正在进行的巨额融资提供了坚实的背书。恰逢此次发布,Anthropic 正处于一轮大规模融资的收尾阶段。据 The Information 报道,公司计划在新一轮由 Iconiq Capital 领投的融资中筹集高达 50 亿美元的资金,其估值可能达到 1700 亿美元,相比今年 3 月 615 亿美元的估值增长近三倍。

这不仅将使 Anthropic 成为仅次于 OpenAI 和 SpaceX 的全球最有价值的独角兽之一,也为其在下一阶段的竞争中储备了充足的弹药。

Anthropic 在发布声明中表示,计划在未来几周内发布“更大幅度的模型改进”,暗示更重要的技术突破即将到来,这无疑是其对即将到来的 GPT-5 的直接战略回应。AI 领域的下一场巅峰对决,已然箭在弦上。

参考资料:

1.https://www.anthropic.com/news/claude-opus-4-1

2.https://www.theinformation.com/articles/anthropic-revenue-pace-nears-5-billion-run-mega-round?rc=5ypkcx

排版:刘雅坤

特别声明:[Claude 4.1 Opus发布,编程能力再进化,“更大改进”还在后面?] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

A7M5传言又起来看看这些传言那些真哪些假(a7m2 m50)

回顾A7M3和M4的表现,我们不难发现,A7M系列的画质虽然不差,但始终无法与A7R系列的高画质抗衡,视频性能也与A7S系列有差距。A7M5如果是在今年发布,那它不大可能会带来太大的惊喜,4400万像素的传言…

A7M5传言又起来看看这些传言那些真哪些假(a7m2 m50)

寒武纪2026届校园招聘正式启动(寒武纪培训)

公司当前员工近1200人,在技术研发、供应链、产品销售等方面均建立了成熟团队,其中近80%是研发人员,超80%的研发人员拥有硕士及以上学位,多毕业于著名高校或科研院所,研发队伍结构合理、技能全面有力支撑了公…

寒武纪2026届校园招聘正式启动(寒武纪培训)

17分进资格复审 事关教育不能没底线 招聘合规性引质疑(资格复审1:3是什么意思)

8月3日,云南省临沧市耿马自治县2025年特岗教师招聘笔试成绩公布,一名报考小学数学老师岗位的考生以17分的成绩进入资格复审,此事引发网民热议。许多人认为这个分数进入资格复审令人难以置信,甚至有人质疑该考生的能力

17分进资格复审 事关教育不能没底线 招聘合规性引质疑(资格复审1:3是什么意思)

这些咸猪手,真的是该管管了!假借拍戏之名,公然“揩油”,真让人气愤!(咸猪手知乎)

此外,张铁林在《还珠格格》中的表现也让人质疑,他原本和含香的互动只是轻描淡写,但拍摄时,他却表现出过度的肢体接触,这让观众对他的形象产生了负面印象。对于一些女演员来说,因在业界的地位较弱,她们选择了沉默,而张…

这些咸猪手,真的是该管管了!假借拍戏之名,公然“揩油”,真让人气愤!(咸猪手知乎)

低空赛事:新质生产力的竞技场与人才摇篮 | 圆象访谈(低空出击)

睿抗团队也开始与低空“同行”——以十年磨一剑打造的赛事体系为基石,将“无人机与大模型融合挑战赛”顺利植入到教育部学科竞赛白名单中。张汇文深知,作为低空经济的重要抓手之一,赛事已经成为串联技术、人才与场景的关键…

低空赛事:新质生产力的竞技场与人才摇篮 | 圆象访谈(低空出击)