探索AI写代码极致:Claude Opus 4.1模型登场,软件工程能力再攀新高峰(ai识别代码)

探索AI写代码极致:Claude Opus 4.1模型登场,软件工程能力再攀新高峰(ai识别代码)

8 月 6 日消息,Anthropic 公司今天(8 月 6 日)发布公告,宣布推出 Claude Opus 4.1 模型,相比较今年 5 月推出的 Claude 4 系列模型,主要改进了编码、推理和执行指令的能力。

Anthropic 表示,Claude Opus 4.1 在 SWE-bench Verified 上(用于评估软件工程准确性)提升到了 74.5%,作为对比,Claude Sonnet 3.7 的准确率为 62.3%,而 Claude Opus 4 的准确率为 72.5%。具体来说,更新后的模型在“深度研究和数据分析技能,尤其是在细节追踪和代理搜索方面”表现得更加出色。

与 Opus 4 相比,Opus 4.1 在大多数功能上都有所提升,特别是在多文件代码重构方面表现尤为突出。附上相关数据如下:

Rakuten Group 发现,Opus 4.1 不做不必要的调整或引入新的错误,能够精确地在大型代码库中定位并修正错误。

Windsurf 报告称,Opus 4.1 在其初级开发者基准测试中,比 Opus 4 表现提高了标准差的一个单位,这一性能飞跃与从 Sonnet 3.7 到 Sonnet 4 的跳跃相当。

最新的模型今日起面向 Claude 客户开放,可以通过 Claude Code、Anthropic 的 API、亚马逊 Bedrock 和谷歌云的 Vertex AI 使用。

同时,Anthropic 在社交媒体上表示,计划在未来几周内发布“对我们模型的重大改进”,因此可以期待 Claude 系列模型的更多升级。OpenAI 也预计将在本周发布新消息。(故渊)

特别声明:[探索AI写代码极致:Claude Opus 4.1模型登场,软件工程能力再攀新高峰(ai识别代码)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

夸克网盘拉新怎么做:学学知乎拉新玩法也能单日2000+(夸克网盘拉新怎么操作)

后来也是机缘巧合,在顺为网创这个平台上找到了方向,感觉靠谱多了,上面的教程很实在,只要肯动手,每个月多赚个五六千,心里就有底了。就是去抖音找那些已经火了的“知乎搜”相关视频,下载下来自己剪辑处理一下再发。另外…

夸克网盘拉新怎么做:学学知乎拉新玩法也能单日2000+(夸克网盘拉新怎么操作)

德国消息:iPhone 17 发布会日期为 9 月 9 日(德国消息为什么越来越少了)

Mark Gurman曾表示Apple将于9月8日那一周举行iPhone 17发布会,并指出9月9日或10日是最有可能的日期。依照苹果的传统模式,iPhone 17的预购预计将在发布会后的9月12日星期五…

德国消息:iPhone 17 发布会日期为 9 月 9 日(德国消息为什么越来越少了)

与 Chiikawa 同行,认识 iBaoBao 智能互动玩偶

iBaoBao 具备强大的 “音色模仿” 功能,不仅涵盖从艾莎到孙大圣等海量趣味声线供用户选择,还能记录专属声音。其 “对话翻译”功能实现中英互译流畅自然,沟通无阻碍;“多语陪练” 则涵盖英语、日语、西班…

与 Chiikawa 同行,认识 iBaoBao 智能互动玩偶

荷载总重240吨!南昌九州高架首次迎来全面“体检”(荷载49吨拉了51吨)

此次荷载试验由江西交投咨询集团天驰公司承担,该公司技术人员模拟实际通行场景,通过荷载试验精准测量桥梁结构在荷载作用下的应力应变、挠度变形等关键指标,所得数据将为桥梁结构安全性能提供权威评估依据,为后续科学养…

荷载总重240吨!南昌九州高架首次迎来全面“体检”(荷载49吨拉了51吨)

这是我家被夸爆的智能生活…(这是我家1986)

→ 老人跌倒报警秒发子女手机(我们在外安心多了! 屏幕使用时长智能管理,定时断网守护娃的视力, 👇你家最需要的智能设备是什么呢? #美好家AI家##智慧生活##电信千兆##电信全光WiFi##居家办公##…

这是我家被夸爆的智能生活…(这是我家1986)