Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

没等来o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。

深夜,谷歌通过等多个账号同时官宣, Gemini 2.5 Pro再次推出新版本(0605)。

新版本在代码、推理等任务上的表现更上一层楼, 在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3。

今日霍州(www.jrhz.info)©️

在大模型竞技场上,新版Gemini也超越了自己, Elo评分比上个月的版本提升了24分。

今日霍州(www.jrhz.info)©️

谷歌CEO劈柴哥还发了一张AI合成的狮子照片,配文一个“Gemini”,暗示了新模型的实力。

今日霍州(www.jrhz.info)©️

jrhz.info

谷歌AI studio产品负责人Logan表示,这次的更新 预计会成为Gemini 2.5 Pro的长期稳定版本。

今日霍州(www.jrhz.info)©️

有意思的是,发布之大概10多个小时,Logan就进行了一波剧透,发了一条只有Gemini这一个词的推文。

今日霍州(www.jrhz.info)©️

谷歌表示,Gemini APP中的模型将在今日更新为该版本,开发者版本也已在谷歌AI Studio和Vertex AI当中上新。

Gemini超越Gemini,登顶大模型竞技场

谷歌介绍,这次的0605版本 基于I/O大会上展示的0506版本构建,预计将成为Gemini 2.5 Pro的正式稳定版。

Gemini 2.5 Pro最早是在3月25日发布了实验版本,4月4日更新了公开预览版,代号仍然是0325,再然后就是上个月的0506。

在“人类最后的考试”当中,0605的成绩达到了21.6%,领先了o3 1.3个百分点,超过了Claude 4 Opus的两倍。

另外在GPQA上,0605的成绩也同样超过了几家主要竞争对手,并且单次尝试的准确率比Claude和Grok多次尝试还要高。

数学竞赛和LiveCodeBench编程上,0605表现稍逊于OpenAI家的模型,但0605在 代码编辑能力(Aider Polyglot)上领先。

今日霍州(www.jrhz.info)©️

长文本方面,0605在128k长度上的表现同样是几家中第一,并且还独一家支持1M长度。

0605拉开差距最明显的则是 事实性,在FACTS Grounding测试中领先第二名超过10个百分点。

至于价格,Gemini 比OpenAI o3、Claude 4 Opus和Grok 3都要来得便宜——

输入Token价格是o3的1/8,Claude 4 Opus的不到1/10、Grok 3的不到一半,输出Token则是o3的1/4、Claude的13%、Grok的2/3。

今日霍州(www.jrhz.info)©️

在大模型竞技场上,0605则位列 总分和所有子榜单的第一名。

除了各种基于文本的能力,0605的 视觉能力也拿下第一名,上个月的0506和OpenAI的o3与之并列。

今日霍州(www.jrhz.info)©️

最后在WebDev上,0605也让Gemini重新回到了榜一的位置。

今日霍州(www.jrhz.info)©️

此外,谷歌表示0605还基于用户对之前版本的反馈,对输出风格和结构进行了改进。

有DeepMind员工称,照这样下去,最多两年就能在所有Benchmark都取得满分。

今日霍州(www.jrhz.info)©️

另外在新版发布之前,Gemini就已经受到了越来越多的青睐——

据Similarweb统计,从4月末到5月开始,Gemini APP在『安卓』应用市场的下载量超过了ChatGPT。

今日霍州(www.jrhz.info)©️

发布两小时即被成功越狱

新模型上线以后,网友们也纷纷开始了体验,有人表示测试了21份pdf文档,Gemini总结得又快又好。

在DeepMind内部,也有人用0605尝试了图标转绘,并对其表现印象深刻。

今日霍州(www.jrhz.info)©️

当然也有人认为,0605的表现确实很好,但是不如Claude 4 Opus。

但还有持续关注模型表现的网友发现,0605的 一些指标相比早期的0325,反而出现了退步。

其中包括编程的LiveCodeBench和Swe-Bench,但退步最明显的要属长文本(MRCR)。

这位网友表示,实在是不明白为什么分数似乎下降得如此厉害。

今日霍州(www.jrhz.info)©️

最抓马的是,0605的安全性也出现了问题,官宣之后仅两个小时,就被宣布越狱攻击成功。

具体过程就不展示了,但结果是经过提示词攻击,Gemini 2.5 Pro 0605一边“拒绝”一边将炸药和毒品的制作方式脱口而出……

今日霍州(www.jrhz.info)©️

不知道谷歌『工程师』或作何感想。

那么,你认为谷歌这次发布的模型表现怎么样呢?

参考链接:

[1]https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

???? 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应用,或与我们分享你在寻找的AI产品,或发现的AI新动向

???? 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

特别声明:[Gemini新版蝉联竞技场榜一,但刚发布就被越狱了] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

2026马年新春手写对联怎么选:从春节到结婚都适用的个性化定制方案?(2026马年新春手机壁纸)

2026年的马年,定制手写春联不仅是春节的传统习俗,更成为婚礼的独特装饰。本文教你如何根据场合挑选适合的手写对联,详解预算规划、样式设计与配送流程,帮助你在春节期间、婚礼上都能找到心仪作品。选择定制手写春联,既展现文化底蕴,又能增添喜庆氛围

2026马年新春手写对联怎么选:从春节到结婚都适用的个性化定制方案?(2026马年新春手机壁纸)

小苹果也没想到,表面爱他的爸爸汪峰,还是没抗住森林北的诱惑([综]小苹果也想成为英雄全文阅读)

她有自己的家庭和孩子,但这并不意味着汪峰又多了几个孩子。这也解释了为什么在之后的一次次家庭变动中,她总能较为从容地适应,因为她已经习惯了将情感的依赖寄托在某个固定的照顾者身上。在那几年里,小苹果的家庭终…

小苹果也没想到,表面爱他的爸爸汪峰,还是没抗住森林北的诱惑([综]小苹果也想成为英雄全文阅读)

当幸福来敲门》:在绝境奔跑中,读懂幸福的终极答案(《当幸福来敲门》免费观看完整版)

在这里,你能找到针对细节的逐帧拆解,读懂骨密度扫描仪、魔方等道具的象征意义,理解色彩与构图背后的情绪表达;能看到对人物心理的深度剖析,体会克里斯在绝境中的挣扎与坚守,读懂父爱与梦想的相互救赎;还能获取影片与…

《<strong>当幸福来敲门</strong>》:在绝境奔跑中,读懂幸福的终极答案(《<strong>当幸福来敲门</strong>》免费观看完整版)

女老板一口气买238件金饰送员工 八年默契信任(女老板一口气买两套房子)

近期,黄金、白银等贵金属价格波动显著。2月4日,国际金价回升至5000点以上,黄金消费市场持续火爆。武汉某商场一金饰品牌店迎来了一位大客户,一次性购买了238件黄金首饰,总价值超过31万元

女老板一口气买238件金饰送员工 八年默契信任(女老板一口气买两套房子)

中央一号文件持续关注“大龄农民工” 加强关爱帮扶(中央一号文件持续巩固拓展脱贫攻坚成果,坚决守住)

今年的中央一号文件在促进农民稳定增收方面提出,统筹做好外出务工服务保障和返乡就业创业扶持,加强大龄农民工关爱帮扶,字里行间流露出浓浓的暖意。近几年,中央一号文件持续关注“大龄农民工”

中央一号文件持续关注“大龄农民工” 加强关爱帮扶(中央一号文件持续巩固拓展脱贫攻坚成果,坚决守住)