新版Gemini 2.5所有榜一,谷歌无敌了!一个月全面击败o3

新版Gemini 2.5所有榜一,谷歌无敌了!一个月全面击败o3

今日霍州(www.jrhz.info)©️

【导读】谷歌深夜携全新Gemini 2.5 Pro强势归来,仅用一个月碾压旧版Gemini 2.5。数学、编程、推理全面封神,稳坐所有榜单第一。

凌晨,谷歌带着全新的Gemini 2.5 Pro炸场了!

仅一个月的时间,Gemini 2.5 Pro(06-05)直接干趴了I/O大会放出的Gemini 2.5 Pro(05-06)。

果然,能打败谷歌的,只有谷歌自己。

今日霍州(www.jrhz.info)©️

这次,Gemini 2.5 Pro(06-05)依旧是所有榜一。

在数学、编程、推理基准测试中,新版模型全部刷新SOTA,完全碾压o3、Claude 4、『DeepSeek』-R1。

相较于上一代,Gemini 2.5 Pro整体Elo提升了24分,尤其是在Web Arena上Elo提升了足足35分。

今日霍州(www.jrhz.info)©️

值得一提的是,更新后版本token依旧维持原价,性价比极高,输出价格仅为o3的四分之一,Claude 4就更别提了。

而且,Gemini 2.5 Pro(06-05)还引入了「思考预算」,最高达32k,还改进了函数调用等功能。

今日霍州(www.jrhz.info)©️

Gemini 2.5数学编码 再进化,所有榜一

新版Gemini 2.5 Pro(06-05)和旧版Gemini 2.5 Pro(05-06),名字后面版本的时间,值得玩味。

很明显,谷歌这次特意选择在这个时间点放出新模型。

今日霍州(www.jrhz.info)©️

根据官博介绍,此次是Gemini 2.5 Pro的升级预览版,这是谷歌迄今最智能的模型。

升级基于5月I/O大会展示的基础上,这个模型将在几周后成为普遍可用的稳定版本,适合企业级应用。

今日霍州(www.jrhz.info)©️

最新的2.5 Pro在LMArena排行榜上Elo分数跃升24分,达到了1470,稳居榜首。

更夸张的是,它在所有领域里都排名第一。

今日霍州(www.jrhz.info)©️

在WebDevArena上实现了35分的Elo评分飞跃,达到1443 分。

今日霍州(www.jrhz.info)©️

它在编程方面表现卓越,在Aider Polyglot等高难度编程基准测试中名列前茅。

同时,它在GPQA和「人类最后考试」(HLE)等极具挑战性的基准测试中也展现了顶尖性能,这些测试评估模型的数学、科学、知识和推理能力。

谷歌还针对之前2.5 Pro版本的反馈进行了改进,提升了其风格和结构——现在它能提供更有创意、格式更优的回答。

开发者可以通过Google AI Studio和Vertex AI中的Gemini API开始使用更新的2.5 Pro进行开发,此次还新增了「思考预算」功能,能让开发者更好地控制成本和延迟。

它也在Gemini app中正式上线。

今日霍州(www.jrhz.info)©️

网友实测

Gemini 2.5 Pro(06-05)在真实任务中表现如何?

劈柴的一张图,早已暗示了,Gemini就是兽中之王。

今日霍州(www.jrhz.info)©️

网友们早已摩拳擦掌,开始了一波实测。

编码能力碾压o3、Claude 4并不只是说说而已,现在,Gemini 2.5 Pro直接通过了六边形物理模拟测试。

今日霍州(www.jrhz.info)©️

今日霍州(www.jrhz.info)©️

更惊艳的是,它还能通过Three.js创建出3D DNA🧬模型,效果非常逼真。

今日霍州(www.jrhz.info)©️

数据科学家Diego测试Gemini 2.5 Pro 06-05编写一段Python代码,可视化单行道中交通灯的工作原理,要求车辆以随机速率进入。

今日霍州(www.jrhz.info)©️

代码运行后的效果。

可以看出整体上动画还是比较精美的,没有什么太大的问题。

今日霍州(www.jrhz.info)©️

作为对比,下面是GPT 4.5生成代码的效果。

不仅画面粗糙,车子也不符合物理规律。

今日霍州(www.jrhz.info)©️

Diego之前还测试了Claude Sonnet 3.7和Grok 3,下面是这两个模型的表现。

大家可以评判一下,到底哪个模型更强。

今日霍州(www.jrhz.info)©️

Claude Sonnet 3.7

今日霍州(www.jrhz.info)©️

Grok 3

参考资料:

https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

作者:新智元

特别声明:[新版Gemini 2.5所有榜一,谷歌无敌了!一个月全面击败o3] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

徐克+『肖战』!电影频道10月3日首播《射雕英雄传》(徐克即将上映的电影)

张曼玉的金镶玉在龙门风沙中眼波流转,一句"人说乱世莫诉儿女情"把江湖女子的娇俏与沧桑都写进了骨子里。 10月3日19:25电影频道首播《射雕英雄传:侠之大者》,徐克的奇幻镜头与『肖战』的精准演绎即将碰撞出全新

徐克+『肖战』!电影频道10月3日首播《<strong>射雕英雄传</strong>》(徐克即将上映的电影)

笑死了,张智尧说『成毅』肾好!老师,这是可以说的吗?(张智尧吧)

真的要被笑死了,张智尧在『直播间』,当着全国观众说『成毅』肾好,直接把『成毅』整不会了! 昨天晚上『成毅』、张智尧、『李一桐』、宁静陪看《天地剑心》,在看到万剑穿心那里时,『李一桐』说『成毅』真的劲儿特别大,那场戏拍了很久,『成毅』需要一直…

笑死了,张智尧说『成毅』肾好!老师,这是可以说的吗?(张智尧吧)

中美达成基本共识:互利共赢是底色,经贸局势明显缓和(中美此次达成共识意味着什么)

10月26日,吉隆坡为期两天的经贸磋商结束,中美双方在关税、造船业、稀土等关键议题上达成基本共识。这场被外媒称为“硬碰硬”的谈判不仅让即将到期的关税暂停期有了延续希望,也标志着全球两大经济体之间的紧张局势明显缓和

中美达成基本共识:互利共赢是底色,经贸局势明显缓和(中美此次达成共识意味着什么)

仿古实木船:航海梦想在家绽放(仿船木是什么材质)

中式实木渔船模型不仅是精致的家居装饰品,更蕴含深远的文化意义和美学价值。这些工艺精湛的摆件如何将传统文化融入现代生活?为何它们成为备受青睐的生日礼物🎁?本文深入探讨这些木质船只背后的秘密。

仿古实木船:航海梦想在家绽放(仿船木是什么材质)

共享轮椅的益处:[法瑞纳]如何用科技解决出行难题(共享轮椅的好处)

以法瑞纳的共享轮椅为例,其采用4G全频网络切换技术,确保在医院、机场等信号复杂的环境下,也能快速响应,让用户轻松借还。共享轮椅采用租赁模式,机构无需购买设备,只需与法瑞纳等共享轮椅品牌合作,就能为用户提供服务…

共享轮椅的益处:[法瑞纳]如何用科技解决出行难题(共享轮椅的好处)