当地时间8月5日,谷歌、Anthropic和OpenAI相继推出“王炸”新模型,上演了一场“三国杀”。
在这次激烈的交锋中,三巨头展示了截然不同的战略布局:
谷歌押注未来,发布了第三代通用型世界模型Genie 3,为通用人工智能(AGI)的实现铺设关键基石;
Anthropic继续深耕编程这一高价值赛道,发布编程能力更强的Claude Opus 4.1模型;
OpenAI则以开源作为“生态诱饵”,发布了免费、可商用的gpt-oss系列模型,意在构建庞大的开发者生态。
这场密集“出招”揭开了差异化竞争的底牌。而8月的AI战场或将持续 “高能”。Anthropic 5日预告称,将在未来几周内发布“重大改进”。OpenAI此前也宣布,“重要的一周即将到来”,外界猜测GPT-5或将登场。
谷歌DeepMind:押注世界模型,瞄准AGI终极战场
8月5日晚,谷歌以第三代通用型世界模型Genie 3的发布拉开了这场“暗战”的序幕。
Genie 3是一款颠覆性的通用型世界模型,能够生成前所未有的多样化交互式环境。
用户只需输入文本、图片甚至草图,Genie 3就能创造出一个风格一致、符合物理逻辑的3D环境,并允许用户实时在其中行动和互动。比如,Genie 3能理解“向左走”或“跳起来”等自然语言指令,并即时渲染出对应的第一人称视角画面。
与此前的视频生成模型(如谷歌自家的Veo)和前代模型相比,Genie 3主要进行了以下升级:
一是实现高清实时生成。它能以720p分辨率、24帧/秒的速度在消费级显卡上流畅运行,画面流畅度媲美传统游戏引擎。
二是具备视觉记忆与一致性。Genie 3为场景要素建立了持久的隐变量,解决了早期版本“转身即刷新”的沉浸感断裂问题。模型可以在生成每一帧的同时,回溯并利用最长可达1分钟的历史信息,确保环境的连贯性。
三是加入可提示的世界事件(Promptable World Events)。除了导航指令外,Genie 3还支持用户追加提示来实时改变场景,例如“下雨”“加入两只狗”,模型会即时重算物理与光照,让世界状态随剧情动态演进。
需要强调的是,Genie 3的核心优势是通用性,游戏应用只是其中一个场景。Genie 3通过生成可交互的虚拟世界,为游戏开发、模拟器、机器人训练乃至元宇宙的实现路径提供了极具震撼力的雏形。
英伟达的研究科学家Jim Fan直接将其称为“一次量子跃迁”。这表明谷歌正扮演着“下一个Transformer时刻”的缔造者角色,为走向AGI提供关键拼图。
Anthropic:锚定编程场景,深挖商业护城河
在谷歌“出招”大约2个半小时后,Anthropic宣布推出新模型Claude Opus 4.1,直接瞄准编程这一“变现高地”。据称,该模型的编程、研究和数据分析能力有显著提升。
据Anthropic介绍,在SWE-bench Verified基准测试中,Opus 4.1的编码性能达到74.5%,相比前一版本Opus 4提升了2个百分点,而相较于Sonnet 3.7的提升更为明显,后者得分仅为62.3%。
在另一项衡量代码生成、调试和逻辑推理能力的HumanEval+基准测试中,Claude 4.1 Opus的得分达到85.2%,首次超越了此前由GPT-4o创下的84.9%的纪录。
Anthropic援引开源软件社区GitHub的数据强调,Opus 4.1此次升级的重点在于多文件代码重构的性能提升。
此外,根据AI编程公司Windsurf的报告,Opus 4.1在其初级开发人员基准测试中比Opus 4提高了一个标准差,性能提升幅度与从Sonnet 3.7到Sonnet 4的提升大致相当。
在定价方面,Opus 4.1与Opus 4保持一致,输入和输出价格分别为15美元/百万Token和75美元/百万Token,基本实现了“加量不加价”。这有望进一步巩固Anthropic在编程这一高付费意愿场景的竞争力。
OpenAI:六年后重返开源,抢占开发者生态
当天压轴登场的OpenAI则选择以“开源”破局。该公司推出了两款开放权重模型:gpt-oss-120b和gpt-oss-20b,标志着其时隔六年重返开源赛道。
这一步棋,OpenAI可谓精明。在闭源模型引领消费者市场后,OpenAI选择用开源来构建更庞大的生态系统,通过降低门槛,它希望让gpt-oss成为未来无数AI应用的基础设施,从而在下一阶段的竞争中掌握主动权。
最新发布的两款开源大模型定位清晰:
gpt-oss-120b拥有1170亿参数,每token激活51亿参数,是一款为高推理能力、生产级通用场景打造的模型,可以在单张英伟达H100 GPU上高效运行;
gpt-oss-20b更具“普惠性”,总参数为210亿,每token激活36亿参数,专为低延迟、本地化或专业场景设计,仅需16GB内存即可在消费级笔记本电脑或手机等边缘设备上部署。
根据OpenAI发布的技术报告,这两款大模型均为纯文本语言模型,在文本处理、代码生成、数学问题求解等领域表现出色。尤为值得关注的是,gpt-oss-120b在多项基准测试中的表现,媲美甚至超越了专有模型o4-mini。较小的gpt-oss-20b则与o3-mini性能相当,在AIME和HealthBench等测试中表现更佳。
在技术架构上,gpt-oss模型采用了混合专家(MoE)架构,通过交替使用密集注意力和局部带状稀疏注意力机制,实现了高效的推理和内存利用。模型还支持高达128000个token的上下文长度,相当于约300~400页的小说文本。
同时,模型采用了原生MXFP4量化技术,极大地降低了硬件门槛,使得开发者可以在更低的配置下运行模型。
在许可方面,gpt-oss系列模型采用了对企业友好的Apache 2.0许可协议。这意味着任何消费者、开发者或企业都可以免费下载、进行参数级微调,并将其用于商业服务或创收,而无需向OpenAI支付任何费用。
此外,模型支持本地运行,无需联网,可以有效满足金融、医疗、法律等对数据隐私有严格要求的行业需求。
还需要指出的是,OpenAI的开源并不彻底。
gpt-oss使用的是OpenAI自定义的“OpenAI Model License 1.0”,其中包含了“毒丸条款”,禁止年度收入超过1亿美元或日活跃用户超过100万的商业实体,使用gpt-oss来开发与OpenAI核心产品竞争的服务。这一条款精准地将所有潜在的大公司竞争对手排除在外,同时又能让广大的中小开发者和研究者进入其生态,是一次重大的战略转向。
8月AI圈持续“高能”:Anthropic未来几周将发“重大改进”
三家AI巨头在同一天集体发布新模型,这绝非偶然,意味着AI产业的竞争已进入一个全新的、更复杂的阶段。
从战略上看,谷歌着眼长远,以Genie 3推进世界模型研发,押注AGI未来;Anthropic深耕垂直变现,锚定编程这一高频、高付费场景,深挖商业护城河;OpenAI则以开源为饵,通过降低门槛吸引开发者,构建底层生态。
而AI巨头之间的“混战”还远未落幕。
Anthropic在8月5日新闻稿中预告,未来几周内将发布“重大改进”。前一日,OpenAI高管也喊话:“重要的一周即将到来”,外界普遍猜测,GPT-5或将登场。
种种迹象显示,8月的AI圈,注定“好戏连台”。