Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

没等来o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。

深夜,谷歌通过等多个账号同时官宣, Gemini 2.5 Pro再次推出新版本(0605)。

新版本在代码、推理等任务上的表现更上一层楼, 在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3。

在大模型竞技场上,新版Gemini也超越了自己, Elo评分比上个月的版本提升了24分。

谷歌CEO劈柴哥还发了一张AI合成的狮子照片,配文一个“Gemini”,暗示了新模型的实力。

jrhz.info

谷歌AI studio产品负责人Logan表示,这次的更新 预计会成为Gemini 2.5 Pro的长期稳定版本。

有意思的是,发布之大概10多个小时,Logan就进行了一波剧透,发了一条只有Gemini这一个词的推文。

谷歌表示,Gemini APP中的模型将在今日更新为该版本,开发者版本也已在谷歌AI Studio和Vertex AI当中上新。

Gemini超越Gemini,登顶大模型竞技场

谷歌介绍,这次的0605版本 基于I/O大会上展示的0506版本构建,预计将成为Gemini 2.5 Pro的正式稳定版。

Gemini 2.5 Pro最早是在3月25日发布了实验版本,4月4日更新了公开预览版,代号仍然是0325,再然后就是上个月的0506。

在“人类最后的考试”当中,0605的成绩达到了21.6%,领先了o3 1.3个百分点,超过了Claude 4 Opus的两倍。

另外在GPQA上,0605的成绩也同样超过了几家主要竞争对手,并且单次尝试的准确率比Claude和Grok多次尝试还要高。

数学竞赛和LiveCodeBench编程上,0605表现稍逊于OpenAI家的模型,但0605在 代码编辑能力(Aider Polyglot)上领先。

长文本方面,0605在128k长度上的表现同样是几家中第一,并且还独一家支持1M长度。

0605拉开差距最明显的则是 事实性,在FACTS Grounding测试中领先第二名超过10个百分点。

至于价格,Gemini 比OpenAI o3、Claude 4 Opus和Grok 3都要来得便宜——

输入Token价格是o3的1/8,Claude 4 Opus的不到1/10、Grok 3的不到一半,输出Token则是o3的1/4、Claude的13%、Grok的2/3。

在大模型竞技场上,0605则位列 总分和所有子榜单的第一名。

除了各种基于文本的能力,0605的 视觉能力也拿下第一名,上个月的0506和OpenAI的o3与之并列。

最后在WebDev上,0605也让Gemini重新回到了榜一的位置。

此外,谷歌表示0605还基于用户对之前版本的反馈,对输出风格和结构进行了改进。

有DeepMind员工称,照这样下去,最多两年就能在所有Benchmark都取得满分。

另外在新版发布之前,Gemini就已经受到了越来越多的青睐——

据Similarweb统计,从4月末到5月开始,Gemini APP在安卓应用市场的下载量超过了ChatGPT。

发布两小时即被成功越狱

新模型上线以后,网友们也纷纷开始了体验,有人表示测试了21份pdf文档,Gemini总结得又快又好。

在DeepMind内部,也有人用0605尝试了图标转绘,并对其表现印象深刻。

当然也有人认为,0605的表现确实很好,但是不如Claude 4 Opus。

但还有持续关注模型表现的网友发现,0605的 一些指标相比早期的0325,反而出现了退步。

其中包括编程的LiveCodeBench和Swe-Bench,但退步最明显的要属长文本(MRCR)。

这位网友表示,实在是不明白为什么分数似乎下降得如此厉害。

最抓马的是,0605的安全性也出现了问题,官宣之后仅两个小时,就被宣布越狱攻击成功。

具体过程就不展示了,但结果是经过提示词攻击,Gemini 2.5 Pro 0605一边“拒绝”一边将炸药和毒品的制作方式脱口而出……

不知道谷歌工程师或作何感想。

那么,你认为谷歌这次发布的模型表现怎么样呢?

参考链接:

[1]https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

???? 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应用,或与我们分享你在寻找的AI产品,或发现的AI新动向

???? 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

特别声明:[Gemini新版蝉联竞技场榜一,但刚发布就被越狱了] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

华为太强,美国巨头合并获批,背后内幕牵出高官落马(华为强不强)

华为在全球市场大步迈进,竟逼得美国情报部门亲自下场,推动一场高达140亿美元的科技巨头合并,还震出美国司法高官应声辞职。 就在不久前,华为的一部新手机突然亮相市面,技术圈一片哗然——这款手机采用了“中国智造”…

华为太强,美国巨头合并获批,背后内幕牵出高官落马(华为强不强)

2025年5款会议纪要录音转文字工具详细对比评测哪款最值得推荐(会议纪要最新)

要聊2025年的会议纪要录音转文字工具,我测了五款——飞书妙记、钉钉闪记、讯飞听见、听脑AI、通义听悟。 云端存储方面,听脑AI的存储是加密的,不会因为账号问题访问不了;飞书钉钉的存储跟生态绑定,比如飞书…

2025年5款会议纪要录音转文字工具详细对比评测哪款最值得推荐(会议纪要最新)

金星在法国的丑照曝光,被人描述为“终于向现实低头了”(金星在法国的钱)

看到有网友的评论还挺中肯,他说金星如果不变性,应该会成为一位艺术家,因为她的口才和演技都很不错,不过总觉得她带着一点傲娇的范儿,就像个大牌一样。 不过,拿金星的外貌说事现在也显得没必要,毕竟大家都在变老,任何…

金星在法国的丑照曝光,被人描述为“终于向现实低头了”(金星在法国的钱)

《爹,您这杀人手法是跟裁缝培训班学的吗?》(你爹还是我爹小说)

看《拿着手术刀的猎人》时,我一直在思考一个问题:尹朝均(朴勇宇 饰)这位连环杀手爹,是不是报过“高级裁缝速成班”?更离谱的是,他女儿徐世贤(朴柱炫 饰)居然能通过针脚认出亲爹的手艺! 如果你最近想找点“既惊…

《爹,您这杀人手法是跟裁缝培训班学的吗?》(你爹还是我爹小说)

浙江29年前的无名女尸案案情披露 悬案终告破(三十年前的浙江)

今年4月的一个上午,在浙江某地一家企业,年近50岁的女工孙某红被喊到传达室门口。来找她的,是两名身穿便服的浙江上虞公安民警。孙某红一脸狐疑,直到对方喊出了她的乳名

浙江29年前的无名女尸案案情披露 悬案终告破(三十年前的浙江)