Claude最新Sonnet:Opus级智能,性价比王炸,OpenClaw天选API(claude sfeir)

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

春节才是真正的大模型战场,全世界参与的那种。

大年初二,Anthropic史上最强Sonnet——Claude Sonnet 4.6发布。

话不多说,直接上视频。

不难看出,计算机操作是这次更新的主打卖点。

Anthropic表示,对填写复杂Excel、网页清单等任务,Sonnet 4.6已经接近人类水平

其他方面也是全方位升级:编码、长上下文推理、Agent规划、知识型工作、设计……Beta阶段还支持1M上下文

重点来了!定价依然跟Sonnet 4.5一样,免费用户也能用。

性价比简直高到离谱。

创业者Alex Finn体验后表示「难以置信」:

在大多数Agent任务上,Sonnet 4.6的表现跟Opus系列差不多好,速度还更快,价格只要1/5。

今日霍州(www.jrhz.info)©️

还不只一个人这么说。

Anthropic表示,内测用户对Sonnet 4.6的喜爱程度,已经超过了超大杯Opus 4.5

史上最强Sonnet

计算机操作能力,可以说是这次Sonnet 4.6最亮眼的部分了,Anthropic也在这部分花了不少笔墨。

虽然跟最熟练的人类工作者比还有差距,但进步速度真的恐怖。

看下面这张图——

四个月一次的高频率更新下,性能曲线依然保持着不错的上升势头。

今日霍州(www.jrhz.info)©️

当然,计算机操作能力提升,也意味着如果模型被prompt injection,风险会更大。

Anthropic也想到了这一点,专门给用户们塞了颗定心丸:

Sonnet 4.6的安全等级相比前代Sonnet 4.5有显著改进,表现跟Opus 4.6差不多。

今日霍州(www.jrhz.info)©️

事实上,计算机操作只是冰山一角,Claude Sonnet 4.6在各类Benchmark上都有提升。

具体细节都在下面这张表,一个大杯模型,智能却直逼超大杯Opus系列

从Benchmark上还可以看到Claude这边出现了「倒反天罡」的情况。

金融分析和办公室任务这两项测试中,Sonnet 4.6用一骑绝尘的数值,拿下了SOTA,力压历代Opus。

今日霍州(www.jrhz.info)©️

用户的反馈更能说明问题。

在Claude Code的早期内测中,Anthropic发现,在59%的场景下,用户更倾向于选择Sonnet 4.6(而不是Opus 4.5)。

大家评价说,Sonnet 4.6明显更少出现过度设计和「偷懒」,指令遵循方面表现更好。

同时,虚假成功声明更少,幻觉更少,多步骤任务的执行也更加稳定。

对了,这次Sonnet 4.6还提供100万token的上下文,能装下几十篇研究论文。最重要的是,在这么大规模的上下文中,Sonnet 4.6依然保持了相当领先的推理水平。

这一点在Vending-Bench Arena上特别明显。

这是个测试模型在长时间跨度内模拟运营一家企业能力的Benchmark,引入了竞争机制,不同模型需要相互对抗,争取更高利润。

在这个测试中,Sonnet 4.6采用了一种新策略:前10个模拟月份大幅投入产能建设,支出明显高于竞争对手,但在后期迅速开始想办法盈利。

这种转向时机的把握,帮助它在最终成绩上明显领先。

今日霍州(www.jrhz.info)©️

除此之外,用户还反馈称前端代码生成能力有提升。

Sonnet 4.6生成的视觉输出更加精致,布局、动画和设计感都比之前的模型好,达到可用于生产环境的质量所需的迭代轮次也减少了。

OpenClaw又发力了

实在是奇怪,一款大杯模型,内测中居然比超大杯旗舰款还招人喜欢。

但目前看来,也有许多网友并不买账,甚至说Anthropic是没活硬整。

今日霍州(www.jrhz.info)©️

主要是不太理解:

既然Opus仍然是最强,为啥要用Sonnet 4.6?

对此,有人出来解释称:这其实是定价策略和目标用户不一样

对于本就不差钱的用户来说,这事儿影响不大。毕竟Max订阅套餐里本来就有大量补贴后的Opus 4.6额度,随便用。

但这是C端的思考方式。

在B端,企业客户可没这么大方的token补贴,调用量却高出好几倍。

与此同时,很多场景根本用不着那么强的智能。如果只是让AI帮你居中一个div这种简单活儿,Opus未免有些太奢侈。

从这个角度看,Anthropic的战略路线其实已经很清晰:

  • Opus用来争夺王座,维持C端品牌认知;

  • Sonnet用来占领市场,用更低的成本将智能下放。

今日霍州(www.jrhz.info)©️

不过,这个「市场」其实也不光是企业客户。

计算机操作能力大幅提升,Opus级智能,Sonnet级定价……

这不就是为OpenClaw量身定做的API嘛!

果然,Anthropic这款高性价比模型的消息一出来,「龙虾大军」立马就涌进来了:

立即升级您的OpenClaw至Sonnet 4.6!

网友直接放话:这是有史以来最棒的OpenClaw模型,大家赶紧给自己的龙虾安排上。

今日霍州(www.jrhz.info)©️

实在是有些drama,Anthropic真得好好谢谢OpenClaw作者。

人家项目名字都被整没了,自己也加入了OpenAI,结果……OpenClaw至今还在帮Anthropic带货。

参考链接:

[1]https://www.anthropic.com/news/claude-sonnet-4-6

[2]https://x.com/AlexFinn/status/2023828886287708303

特别声明:[Claude最新Sonnet:Opus级智能,性价比王炸,OpenClaw天选API(claude sfeir)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

屋顶光伏新选择:屋顶式光伏支架,为清洁电力筑牢坚实基础(屋顶光伏怎么样)

其中,作为光伏系统"骨骼"的屋顶支架技术,正通过持续创新突破应用瓶颈。专业设计的屋顶支架需在确保建筑结构安全的前提下,实现光伏组件的最佳倾角布置。某知名厂商技术总监透露:"我们研发的第三

屋顶光伏新选择:屋顶式光伏支架,为清洁电力筑牢坚实基础(屋顶光伏怎么样)

不只是『朱一龙』的眼神,细节才是黄凯活过来的心脏(『朱一龙』不红)

都说『朱一龙』的眼睛能演戏,但在《惊蛰无声》中,他让黄凯的生命力不仅仅是通过眼神展现出来的。这种表演的精准度,源自于他对角色的深刻理解,他并不是在表演黄凯的动作,而是在真正地成为黄凯,让一切行为自然发生。在《惊蛰…

不只是『朱一龙』的眼神,细节才是黄凯活过来的心脏(『朱一龙』不红)

『芯片』霸权真相!美国靠EDA软件掐喉,中芯突围还剩几关?(『芯片』揭秘)

这场竞争已从“谁有更多专利”变成“谁能握住未来计算、安全、医疗的基础架构”,是规则制定权和生态主导权的长期博弈,而不是用单一技术指标就能判胜负的短跑。 看完这些,我感觉核心在于生态掌控,美国在规则、节点上优…

『芯片』霸权真相!美国靠EDA软件掐喉,中芯突围还剩几关?(『芯片』揭秘)

一群铁疙瘩的后空翻,一个跑调的『王菲』天后,一声职业转型的警报(铁疙瘩商标™️)

看着这副唧唧歪歪的嘴脸,历史露出了它幽默的牙齿——一百多年前,正是这些人的祖辈,用蒸汽机和铁甲舰轰开了我们的国门,那时他们可没问我们是否愿意。如今即将到来的时代,当『机器人』️军团守卫边疆,自动化工厂为我们提供衣食…

一群铁疙瘩的后空翻,一个跑调的『王菲』天后,一声职业转型的警报(铁疙瘩商标™️)

如何选择适合孩子成长阶段的爱贝迪拉儿童软毛牙刷?——0-12岁换牙期家长必知(如何选择适合孩子的幼儿园?)

0-12岁孩子处于换牙期,家长该如何挑选合适的儿童牙刷?本文详细分析牙刷材质、设计、含氟量对孩子口腔护理的重要性,助您科学选购爱贝迪拉牙刷。关注牙刷软硬度、刷头尺寸及含氟配方,了解孩子不同时期牙齿发育特点。让宝宝从小养成良好口腔护理习惯,守

如何选择适合孩子成长阶段的爱贝迪拉儿童软毛牙刷?——0-12岁换牙期家长必知(如何选择适合孩子的幼儿园?)