速递｜《<strong>指环王</strong>》级文本吞吐，谷歌发布Gemini2.5 Pro的能效比突破密码 #科技 #指环王 #速递 #『DeepSeek』 #模型 #吞吐

图片来源：1X

谷歌于3 月 25 日发布下一代人工智能推理模型，Gemini 2.5，这是一个新的 AI 推理模型家族，它在回答问题之前会“思考”一下。

为了启动这一新模型家族，谷歌推出了Gemini 2.5 Pro Experimental，这是一个多模态推理 AI 模型，谷歌称其为迄今为止最智能的模型。

谷歌表示，未来其所有新的AI 模型都将内置推理能力。

自OpenAI 于 2024 年 9 月推出首个 AI 推理模型 o1 以来，科技行业竞相开发自己的模型以匹配或超越其能力。如今，Anthropic、『DeepSeek』、谷歌和 xAI 都拥有 AI 推理模型，这些模型利用额外的计算能力和时间进行事实核查和问题推理，然后再给出答案。

推理技术帮助AI 模型在数学和编程任务中达到了新的高度。科技界的许多人认为，推理模型将成为 AI 代理的关键组成部分，这些自主系统可以在很大程度上无需人类干预地执行任务。然而，这些模型也更为昂贵。

谷歌之前已经尝试过AI 推理模型，去年 12 月发布了“思考”版本的 Gemini。但 Gemini 2.5 代表了该公司迄今为止在超越 OpenAI 的“o”系列模型方面最认真的尝试。

谷歌声称，Gemini 2.5 Pro 在多个基准测试中优于其之前的尖端 AI 模型，以及一些领先的竞争 AI 模型。具体来说，谷歌表示他们设计 Gemini 2.5 是为了在创建视觉上引人入胜的网页应用和代理编码应用方面表现出色。

在一项名为Aider Polyglot 的代码编辑评估中，谷歌表示 Gemini 2.5 Pro 得分为 68.6%，优于 OpenAI、Anthropic 和中国 AI 实验室『DeepSeek』的顶级 AI 模型。

然而，在另一项衡量软件开发能力的测试中，SWE-bench Verified，Gemini 2.5 Pro 得分为 63.8%，超过了 OpenAI 的 o3-mini 和『DeepSeek』的 R1，但表现不如 Anthropic 的 Claude 3.7 Sonnet，后者得分为 70.3%。

在Humanity’s Last Exam（人类最后的考试）中，这是一项由数千个众包问题组成的多模态测试，涉及数学、人文和自然科学，谷歌表示 Gemini 2.5 Pro 得分为 18.8%，表现优于大多数竞争对手的旗舰模型。

首先，谷歌表示Gemini 2.5 Pro 将配备 100 万个 token 的上下文窗口，这意味着该 AI 模型可以一次性处理大约 75 万个单词。这比整个《指环王》系列书籍还要长。很快，Gemini 2.5 Pro 将支持双倍输入长度（200 万个 token）。

速递｜《指环王》级文本吞吐，谷歌发布Gemini2.5 Pro的能效比突破密码