Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

没等来o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。

深夜,谷歌通过等多个账号同时官宣, Gemini 2.5 Pro再次推出新版本(0605)。

新版本在代码、推理等任务上的表现更上一层楼, 在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3。

在大模型竞技场上,新版Gemini也超越了自己, Elo评分比上个月的版本提升了24分。

谷歌CEO劈柴哥还发了一张AI合成的狮子照片,配文一个“Gemini”,暗示了新模型的实力。

jrhz.info

谷歌AI studio产品负责人Logan表示,这次的更新 预计会成为Gemini 2.5 Pro的长期稳定版本。

有意思的是,发布之大概10多个小时,Logan就进行了一波剧透,发了一条只有Gemini这一个词的推文。

谷歌表示,Gemini APP中的模型将在今日更新为该版本,开发者版本也已在谷歌AI Studio和Vertex AI当中上新。

Gemini超越Gemini,登顶大模型竞技场

谷歌介绍,这次的0605版本 基于I/O大会上展示的0506版本构建,预计将成为Gemini 2.5 Pro的正式稳定版。

Gemini 2.5 Pro最早是在3月25日发布了实验版本,4月4日更新了公开预览版,代号仍然是0325,再然后就是上个月的0506。

在“人类最后的考试”当中,0605的成绩达到了21.6%,领先了o3 1.3个百分点,超过了Claude 4 Opus的两倍。

另外在GPQA上,0605的成绩也同样超过了几家主要竞争对手,并且单次尝试的准确率比Claude和Grok多次尝试还要高。

数学竞赛和LiveCodeBench编程上,0605表现稍逊于OpenAI家的模型,但0605在 代码编辑能力(Aider Polyglot)上领先。

长文本方面,0605在128k长度上的表现同样是几家中第一,并且还独一家支持1M长度。

0605拉开差距最明显的则是 事实性,在FACTS Grounding测试中领先第二名超过10个百分点。

至于价格,Gemini 比OpenAI o3、Claude 4 Opus和Grok 3都要来得便宜——

输入Token价格是o3的1/8,Claude 4 Opus的不到1/10、Grok 3的不到一半,输出Token则是o3的1/4、Claude的13%、Grok的2/3。

在大模型竞技场上,0605则位列 总分和所有子榜单的第一名。

除了各种基于文本的能力,0605的 视觉能力也拿下第一名,上个月的0506和OpenAI的o3与之并列。

最后在WebDev上,0605也让Gemini重新回到了榜一的位置。

此外,谷歌表示0605还基于用户对之前版本的反馈,对输出风格和结构进行了改进。

有DeepMind员工称,照这样下去,最多两年就能在所有Benchmark都取得满分。

另外在新版发布之前,Gemini就已经受到了越来越多的青睐——

据Similarweb统计,从4月末到5月开始,Gemini APP在『安卓』应用市场的下载量超过了ChatGPT。

发布两小时即被成功越狱

新模型上线以后,网友们也纷纷开始了体验,有人表示测试了21份pdf文档,Gemini总结得又快又好。

在DeepMind内部,也有人用0605尝试了图标转绘,并对其表现印象深刻。

当然也有人认为,0605的表现确实很好,但是不如Claude 4 Opus。

但还有持续关注模型表现的网友发现,0605的 一些指标相比早期的0325,反而出现了退步。

其中包括编程的LiveCodeBench和Swe-Bench,但退步最明显的要属长文本(MRCR)。

这位网友表示,实在是不明白为什么分数似乎下降得如此厉害。

最抓马的是,0605的安全性也出现了问题,官宣之后仅两个小时,就被宣布越狱攻击成功。

具体过程就不展示了,但结果是经过提示词攻击,Gemini 2.5 Pro 0605一边“拒绝”一边将炸药和毒品的制作方式脱口而出……

不知道谷歌『工程师』或作何感想。

那么,你认为谷歌这次发布的模型表现怎么样呢?

参考链接:

[1]https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

???? 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应用,或与我们分享你在寻找的AI产品,或发现的AI新动向

???? 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

特别声明:[Gemini新版蝉联竞技场榜一,但刚发布就被越狱了] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

【技术为先】闪电鲨AI lightning shark的高频优势(以技术为先导)

Lightning Shark(闪电鲨AI)正是凭借全球领先的毫秒级低延迟执行引擎,在行业中树立了新的技术标杆。不同于传统依赖单一因子的系统,闪电鲨AI采用 多模态AI决策引擎,综合价格数据、链上交易、深度…

【技术为先】闪电鲨AI lightning shark的高频优势(以技术为先导)

上海红毯:『孙俪』嫩了,被『杨紫』琼的脸吓到,『刘昊然』好帅,马龙赢麻了(上海 『孙红雷』)

这个来自伦敦的百年珠宝世家这次可是下足了功夫,不仅请来了影视圈的重量级嘉宾,连体育界的"六边形战士"马龙都惊喜现身。 这场星光熠熠的时尚盛宴,不仅让我们看到了『明星』️们的时尚表现力,更令人感叹:真正的魅力从来

上海红毯:『孙俪』嫩了,被『杨紫』琼的脸吓到,『刘昊然』好帅,马龙赢麻了(上海 『孙红雷』)

金喜善近照太美了!48岁像30岁一样,整形传闻终于不攻自破(金喜善近照太丑了)

转眼间,连她与『成龙』合作的经典电影神话都已过去二十个春秋,但这位被誉为"韩国第一美女"的传奇女星,似乎被岁月格外眷顾。就连『成龙』在筹备电视剧版时,也坚持要找"像金喜善"的女

金喜善近照太美了!48岁像30岁一样,整形传闻终于不攻自破(金喜善近照太丑了)

苹果 iOS 26 内置选项可削弱液态玻璃效果,界面更像 iOS 18(苹果手机内置)

9 月 17 日消息,科技媒体 Appleinsider 昨日(9 月 16 日)发布博文,介绍了相关步骤,削弱 iOS 26系统的液态玻璃效果,让界面更接近 iOS 18 体验,提高对比度与可…

苹果 iOS 26 内置选项可削弱液态玻璃效果,界面更像 iOS 18(苹果手机内置)

有些水果是天然情绪剂 低成本抗焦虑指南(有些水果是天然的吗)

心情不好建议闻闻苹果,闻到熟悉的味道能改善情绪。苹果中含有“芳樟醇”的成分,有助大脑镇静神经、缓解心理压力。除了苹果,一些柑橘类水果,比如橘子、柠檬等,也有相似的效果。美国匹兹堡大学的精神病学家发现,闻自己熟悉的气味,如苹果、橙子、香草等,

有些水果是天然情绪剂 低成本抗焦虑指南(有些水果是天然的吗)