GPT-5,放了个哑炮

GPT-5,放了个哑炮

自2022年11月ChatGPT隆重登场后,OpenAI的新品发布会就成了科技春晚,每场都格外引人关注,科技巨头们也是严阵以待。但OpenAI刚刚发布的GPT-5恐怕让用户失望了,这款大模型确实更强,但远没有科技圈预期的那么惊艳。

距离GPT-4发布两年半,GPT-5姗姗来迟。

从去年底开始,GPT-5的发布时间便备受瞩目,在业内被视为最被期待的大模型。『社交媒体』上,OpenAI的CEO山姆·奥特曼更将其称为“世界最强模型”,科技粉们被吊足了胃口。

但发布当日,GPT-5的表现似乎并不如奥特曼预言的那般神奇,也没有在业内激起如前作GPT-4那样凶猛的水花。

北京时间8月8日凌晨,GPT-5家族正式亮相。OpenAI共为其推出了4个版本,分别是主流模型GPT-5、面向开发者和企业的轻量版GPT‑5 Mini、超轻量版GPT‑5 Nano,以及只对企业版和每月需付费200美元💵的高级版开放的GPT-5 Pro模式。可以说,对企业、开发者、普通用户的需求进行了全套覆盖。

发布会上,山姆·奥特曼高调形容GPT-4到GPT-5的跨越,可以比作iPhone从像素屏进化到视网膜屏的跨越。他还类比以往模型举例:不管什么问题,GPT-5都能给你博士级别的解答。

事实是否果真如此?从性能上看,GPT-5是否仍具备此前OpenAI发布的多款模型产品的技术底气和行业领导力?

01、马斯克不服OpenAI

从产品端看,GPT-5最显而易见的改变,是在使用上更加简洁统一。过去,OpenAI的模型名称让用户眼花缭乱,如GPT-4o、o4、GPT-4.1等。这一次, GPT-5整合了所有模型,直接终结了用户的选择困难症。

价格方面,OpenAI也亮出了“杀手锏”。针对普通用户,GPT-5推出了限量免费策略,每5小时可免费发送10条信息,人人都可试用。在API价格方面,GPT-5每百万Token输入仅为1.25美元💵,输出为10美元💵。

曾经“高冷”的OpenAI这次算是拿出了诚意。和两个主要竞争对手相比,GPT-5的价格已降至Claude Opus 4.1的1/15,也比Gemini 2.5 Pro使用价格更低。

但不少熬夜看完整场发布会的应用者仍难掩对GPT-5的失望。

大模型从业者『秦岚』对《财经天下》说道,“整体看下来,没有感觉出GPT-5除了‘刷榜’之外的模型架构优势。虽然数据集提升了,(功能)没有给人眼前一亮的感觉”。

另一位大模型从业者观点更为理性:“毕竟以前GPT-4太轰动了,大家对GPT-5仍有碾压式的效果期待,但技术的发展从来都不是线性的。”

实事求是地说,GPT-5各项基准测试的表现,相较于上一代模型GPT-4o和o3都有所提升。特别是在编程表现上,GPT-5刷新了OpenAI历代模型纪录。

在1小时20分钟的发布会上,OpenAI高层率先介绍了GPT-5的编码性能,并自信地表示,“GPT-5是当今市场上最好的编码模型”。

如今AI编程能力,已成为科技巨头们的必争之地。在国内企业中,7月21日到7月23日的3天内,字节、腾讯、阿里三大巨头已相继推出了AI编程领域的新一代产品。

其中,字节推出了AI编程助手TRAE 2.0版本,腾讯云宣布CodeBuddy IDE开启内测,阿里云则发布『通义千问』AI编程大模型Qwen3-Coder。此外,Kimi、智谱AI等也于近日相继推出包含编程能力的K2模型和GLM-4.5模型。

国外企业中,谷歌旗下的Gemini 2.5 Pro被称为最强AI编程模型,主打长文本、多模态和多语言理解。同时,人工智能新“顶流”Anthropic也在今年4月推出了Claude 4系列大模型。

巨头火热入局,或是看中AI编程正在成为Agent(智能体)商业化的突破口。西部证券指出,企业开发效率的刚需创造了明确付费意愿,AI编程领域已逐步形成“技术验证-产品迭代-商业变现”的完整闭环。

相比之下,GPT-5虽然暂时坐上了“榜一大哥”的位置,却还没有与其他对手明显拉开差距。

OpenAI数据显示,在SWE-bench编程测试中,GPT-5的成绩为74.9%。几天前Anthropic公司发布的Claude Opus 4.1成绩则为74.5%,GPT-5只高出了0.4%。

由于GPT-5效果“不够惊艳”,马斯克甚至在『社交媒体』公开表示“不服”:GPT-5在ARC-AGI-2(一项专门评测AI流体智能的基准测试)上没有打败xAI公司开发的Grok 4。

02、基模训练摸到天花板

实际上,在对GPT-5褒贬不一的背后,还隐藏着大模型训练已逐渐摸到天花板的困局。

科技媒体“The Information”曾报道,GPT-5的研发遇到了比较大的困难。“一方面,高质量训练数据供应不足。另一方面,大规模预训练收益下降,使得GPT-5的提升难以像GPT-3到GPT-4那样实现明显飞跃。”

作为权宜之计,在GPT-5发布之前,曾坚持走闭源模型路线的OpenAI,也加入了大模型“开源生态”的竞技场。

8月6日,OpenAI发布了自2019年以来的首批开源『大语言模型』:GPT-oss-120b和GPT-oss-20b,二者分别有1168亿个参数和209亿个参数,并一举跻身全球人工智能领域权威的HuggingFace模型榜单前两名。

所谓“oss”,即“Open Source Series”的缩写,意为开源系列。OpenAI公布开源模型后,奥特曼骄傲地表示,“GPT-oss是OpenAI花费数十亿美元💵研究成果的结晶”。

不过对比之下,据报道,国内科技公司如『DeepSeek』、MiniMax等仅花了几百万美元💵,便训练出了同样开源的『DeepSeek』-R1和MiniMax M1模型。

那么,OpenAI数十亿美元💵的巨资花得值吗?从性能方面看,据OpenAI披露,GPT-oss-120b在核心推理基准测试中接近OpenAI o4-mini的表现,较小的GPT-oss-20b模型在相同评估中,达到或超过了OpenAI o3-mini的性能。

特别之处在于,两款GPT-oss模型采用了最先进的预训练和后训练技术,尤其注重推理、效率和跨部署环境的实用性。此外, 它们都使用了混合专家(MoE)架构设计的Transformer,以减少处理输入所需的活跃参数数量。

尽管OpenAI诚意满满地入局开源,但一个显而易见的问题也被人诟病——模型“幻觉”比例太高了。OpenAI表示,在公司内部用于评估人物知识准确性的PersonQA测试中,GPT-oss-20b有53%的回答存在事实错误。

要知道,如今『DeepSeek』-R1模型的幻觉率已经控制到了10.5%,若对比OpenAI自家最新的GPT-5闭源模型,其幻觉率已经降到了1%以下,这样的差距更是断崖式的。

“其实,各大开源模型厂商都在通过算法迭代的方式,持续攻克幻觉率高的难题,也已经有了显著提升。而GPT-oss-20b的53%幻觉率,不仅明显落后于『DeepSeek』-R1,也显著低于它自身闭源大模型的能力。”大模型算法『工程师』陈伟对《财经天下》表示。

不过,OpenAI对开源态度的扭转,仍有重大的意义。在OpenAI成立之初,其2018年发布的GPT-1模型,以及2019年发布的GPT-2模型,在一定程度上都体现了开源的理念。

2025年后,OpenAI拿出石破天惊的GPT-3模型,才全面踏入了闭源路线。这一次,OpenAI再次扭转态度,核心原因在于开源生态实在太繁荣了。

2025年1月,我国的『DeepSeek』掀起开源热潮后,奥特曼首次承认,OpenAI在开源技术上“站在了历史的错误一边”。

在『DeepSeek』的强势带动下,一众国产大模型开源大军齐头并进。到7月30日,全球知名AI开源社区Hugging Face趋势热门榜单更新中,前10名席位里,中国大模型已占据9席。

要想持续保持技术领导地位,OpenAI已难再躺赢。“开源模型厂商需要依靠开发者贡献的微调数据、评测集和RLHF等改进方案,来持续优化模型性能。如果只凭单一款模型实力,缺少持续的生态产出,就不能获得足够的市场声量。”陈伟对《财经天下》说。

而在开源生态伙伴建设方面,OpenAI已经有所行动。两款开源模型发布不久,OpenAI便与其大股东微软的『Windows』设备“建联”,同时获得全球最大云厂商亚马逊AWS的“带货认证”。

不过,OpenAI的开源也不忘给自己留“后手”:禁止年收入超过1亿美元💵,或日活跃用户超过100万的商业实体使用GPT-oss开发与OpenAI核心产品竞争的服务——这也几乎包含了OpenAI所有的竞争对手。

03、周活跃用户7亿,OpenAI仍不轻松

等待OpenAI亮出GPT-5的同时,众多科技巨头也不甘示弱,纷纷展开AI技术正面对垒。

8月6日,谷歌推出了一款通用型世界模型Genie 3,号称能以每秒24帧的速度实时生成可供自由探索的动态世界,并在720P分辨率下保持数分钟的画面一致性。不过,由于目前还在样本阶段,真实效果有待检验。

赶在GPT-5发布前夜,Anthropic也抢先出牌,发布了新模型Claude 4.1,在编程能力上抢了个风头。在定价上,Claude 4.1维持了前版的原价,“加量不加价”,继续捍卫其在编程领域的护城河。

国内市场中,大模型产品的竞争更加焦灼。7月以来,阿里曾在一周四次连发模型产品,Kimi、阶跃星辰、商汤科技也都你追我赶,亮出技术底牌。

反观OpenAI,最新数据显示,今年8月ChatGPT周活跃用户已达7亿,同比增长4倍。其付费用户数从2024年的300万增至500万,Pro会员和企业版用户贡献了超60%的收入。

庞大的用户规模,帮助ChatGPT的商业收入再创新高。曾有媒体报道,截至今年7月末,OpenAI预计将实现120亿美元💵的年度经常性收入,成为全球最大的AI创业公司。它的最大竞争对手Anthropic同期收入预计仅为50亿美元💵。

不过,OpenAI的挑战也显而易见。尤其是在企业级市场,OpenAI的市场份额正在迅速被竞争对手蚕食。

近期,海外投资机构Menlo Ventures发布的一份报告显示,Anthropic在企业『大语言模型』市场占有率已达32%。相比之下,OpenAI的市场份额仅为25%。

海内外开源大模型玩家也在悄然蚕食OpenAI的竞争优势。数据显示,截至今年7月,阿里Qwen系列已开源300余个模型,全球下载量超4亿次,衍生模型数超14万个,稳坐全球开源模型榜首。

最近两个月,meta挖走十多位OpenAI研究员的消息,更让OpenAI的发展蒙上阴影。meta不惜开出数亿美元💵天价年薪,这样的疯狂挖角终于让奥特曼坐不住了。据市场消息,OpenAI在内部已开启新一期比照5000亿美元💵估值的员工期权兑现计划。

这场人工智能的竞赛还远未到终点,未来的淘汰赛只会更加残酷。低垂的果实已被采摘殆尽,OpenAI想要继续横扫市场,已经越来越吃力。

(文中『秦岚』、陈伟为化名)

(作者 | 豆蔻,编辑 | 李不清,图片来源 | 视觉中国,本内容来自财经天下WEEKLY)

特别声明:[GPT-5,放了个哑炮] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

甘肃陇西发生5.6级地震 震感强烈房屋倒塌(甘肃陇西14号发生的死亡事件)

9月27日05时49分,甘肃定西市陇西县发生5.6级地震,震中位于北纬34.91度,东经104.58度,震源深度10公里。此次地震影响了周边多个村庄和乡镇,包括文峰镇荣丰村龙回山、汪家坡村、桦林村等,以及宝凤乡、木林乡、文峰镇等地

甘肃陇西发生5.6级地震 震感强烈房屋倒塌(甘肃陇西14号发生的死亡事件)

成都年消纳40万方生活垃圾无害化处理农村生活垃圾处理设备(成都一般年收入多少)

棒条弛张筛则通过筛板的交替弛张运动,解决了湿黏垃圾堵塞筛网的难题,像农村常见的厨余垃圾混合着泥土时,它能通过高频振动让物料不断松散,确保筛分顺畅,这种特性让它在多雨、垃圾湿度大的地区格外适用。弛张筛则通过两组…

成都年消纳40万方生活垃圾无害化处理农村生活垃圾处理设备(成都一般年收入多少)

2岁娃误食“水宝宝”小肠被完全堵塞!

2岁娃误食“水宝宝”小肠被完全堵塞。说起“水宝宝”,这种玩具色彩丰富、形态各异,不少人都买过、玩过,但“水宝宝”潜在的风险不容忽视。近日,江苏省人民医院(南京医科大学第一附属医院、江苏省妇幼保健院)接诊了一名误食“水宝宝”玩具的两岁患儿。原

2岁娃误食“水宝宝”小肠被完全堵塞!

研究成果登上《自然》杂志,中国无人机研究团队接受《环球时报》专访:学“蜂鸟采蜜”,无人机实现空中“递工具”(最新研究成果表明)

【环球时报报道 记者 陈子帅】两架无人机在空中能够像外科医生和护士一样默契配合,“主刀”的操作无人机悬停在空中进行作业,而另一架“护士”无人机将工具箱🧰的剪刀、镊子等工具递给“医生”,双方高度协同,在6级大风的…

研究成果登上《<strong>自然</strong>》杂志,中国无人机研究团队接受《<strong>环球时报</strong>》专访:学“蜂鸟采蜜”,无人机实现空中“递工具”(最新研究成果表明)

她是国家一级演员,戏里儿孙满堂,戏外无儿无女,因事业终身未育(国家一级吃国家二级)

当志愿军经过她家乡时,张兰主动为他们提供帮助和支援。1990年,曹翠芬在电视剧上海一家人中出演了一个智慧而温暖的老奶奶形象,获得了&amp;34飞天奖&amp;34最佳女演员奖。 接下来的几十年里,曹翠芬凭借出色的演技和对…

她是国家一级演员,戏里儿孙满堂,戏外无儿无女,因事业终身未育(国家一级吃国家二级)