GPT5史诗级大更新？无聊 #科技 #用户 #得分 #医疗 #模型 #测试

摘要：

对商业乃至更大用户群体的图谋，让OpenAI的考量变得复杂。

昨夜有多少人熬夜了？

等了一年多，北京时间8月8日凌晨1点多，在全球瞩目中，OpenAI终于正式发布新一代『大语言模型』 GPT-5，并破天荒地向所有用户免费开放基础版。

OpenAI CEO 山姆·奥特曼在发布会上表示：“如果说 GPT-4 还只是大学生，GPT-5 就是一位真正的专家。” 他将这次升级比作“让我再也回不去”的技术飞跃，就像第一款配备视网膜屏的 iPhone 带来的体验一样。

与以往不同，GPT-5是一个统一系统，不再分为常规模型和单独的推理模型，而是由三个核心部分构成：一个智能高效的基础模型，能够回答大多数问题；一个用于解决更复杂问题的深度推理模型（GPT‑5 Thinking）；以及一个实时路由器（智能分流系统），可根据对话类型、复杂度、工具需求以及用户的明确指示（例如提示中写道“请深入思考这个问题”)快速判断应使用哪个模型。

OpenAI称，这是迄今为止最强大的 AI 系统，在编程、数学、写作、医疗、视觉感知等多个领域都实现了重大飞跃。

只是发布会刚刚结束，全网似乎骂声不少，众望所归的“GPT5时代”，就这？

硅谷又有人要失业了？

依旧是熟悉的“屠榜”。

在最新的数学推理测试 AIME 2025 中，GPT-5 无工具模式得分高达 94.6%，接近人类顶尖水平；在 SWE-Bench 编程验证测试中得分74.9%，大幅超越上一代模型；在多模态理解的 MMMU 基准中更是达到 84.2%，证明它不仅能读懂文字，还能深入理解图片、图表、视频等多模态内容。

图｜GPT-5编程得分

新版本引入“实时路由器”技术，能根据任务复杂度自动选择推理模式，既保证深度，又减少算力浪费。简单说，GPT-5学会了“先想清楚，再动手干”，效率与精度双赢。

奥特曼在发布会上也表示：“GPT-5真的让我第一次觉得，我们的主力模型已经达到了可以让你向一位真正的专家、一位博士级专家提出任何问题。”并且他还称“它最酷的能力之一，就是能即时为你写出高质量软件。按需软件这个概念，将会成为GPT-5时代的标志性特征之一。”

它的编程能力官方堪称史上最强。奥特曼表示，GPT-5是“全球最强的编程与写作模型”。

在OpenAI的测试中，该模型在基准测试SWE-Bench、SWE-Lancer和 Aider Polyglot中的编程表现优于所有其他模型。在真实世界编程测试中，GPT-5在SWE-bench Verified中的得分为74.9%，在Aider Polyglot中的得分为88%。

在发布会上，OpenAI负责后训练工作的负责人扬·杜布瓦（Yann Dubois）现场演示了如何用GPT-5生成一个带有互动游戏的法语学习网站。

短短几秒内，GPT-5就写出了数百行代码，并生成了该网站的前端界面。杜布瓦简单点击浏览了网站的各个功能，发现一切似乎都按预期正常运行。

在朝着“微信”进化了

OpenAI此次为GPT-5加入了4种交互人格——愤世嫉俗者、『机器人』️、倾听者、书呆子。这意味着，用户不仅能得到精准答案，还能体验不同的沟通风格。据测试，这一改进让“谄媚式回答”减少了 60% 以上，让对话更真实、更有棱角。

这次GPT或许要朝着“微信”的方向进化了。

它现在支持用户自主定制聊天窗口的色彩风格，还具备了长期对话记忆的集成能力。更厉害的是，新功能还能直接与谷歌邮箱、日历无缝对接。

如此一来，ChatGPT就能全方位融入生活与工作，为用户精准规划日程，贴心提醒重要纪念日。

在医疗健康领域，GPT-5也有显著进步。

HealthBench 测试得分 46.2%，可解析复杂医疗报告并提供实用建议，为远程医疗、健康咨询带来新可能。

微软、Cursor等平台已在第一时间接入GPT-5，编程辅助工具市场或将迎来新一轮洗牌。网友预测，GPT-5的普及会让更多人轻松写出高质量代码，甚至可能让部分初级程序员失业。与此同时，教育、科研、设计等行业的AI渗透速度也会加快。

急着赚钱的OpenAI，走向平庸

OpenAI的此次更新之所以招致如此大的吐槽，本质上还在于一个以“颠覆式创新”引领市场的佼佼者，直接走上“平庸”之路。

此次模型更新不置可否的是提升巨大，值得褒奖，无论是幻觉率的大幅下降，还是人人都免费的态度，都可以看出OpenAI此举意在让更多人用上好用的大模型。

背后也是OpenAI的野心，根据其8月5日的最新官方公告，ChatGPT的周活跃用户将达到7亿，每天处理的用户消息量已突破30亿条。从活跃用户数来看，仅过去两个月，就增长了2亿。作为对比，谷歌AI搜索摘要（AI Overviews）月活约20亿，Gemini聊天『机器人』️月活超4.5亿。截至Q1，微信合并WeChat全球月活则是14.02亿。

OpenAI的商业化也在提速，其付费用户数从2025年6月的300万增至目前的500万，年化收入（ARR）从6月的100亿美元💵增至 130亿美元💵，预计年底突破200亿美元💵。

对商业乃至更大用户群体的图谋，让OpenAI的考量变得复杂。

今年5月，山姆·奥特曼还任命了一位新CEO——菲吉·西莫（Fidji Simo），作为“应用CEO”（CEO of Applications），她负责领导OpenAI的产品、业务和其他职能，向奥特曼汇报。这位女将曾在Facebook任职十余年，来OpenAI显然是为下一阶段ChatGPT的增长和商业化负责。虽然彼时奥特曼曾称，他将更专注于研究、计算和安全系统。但从GPT5交出的作业来说，奥特曼的表现很难打出高分。

颇为有意思的是，曾几何时，赚钱和商业化，从1到100的大规模落地应用曾是中国公司的主战场，中国有全球发达的『互联网』，有繁荣的用户生态。

但今天，越来越多中国公司在AI上，暂时放弃了商业化。转而去追求模型能力的提升，当然，当前仍未有太多业绩成果交付。

今年7月时，360公司董事长周鸿祎在2025中国『互联网』大会上曾表示，『DeepSeek』创始人梁文锋一门心思做AGI，根本没有想做一个App。

周鸿祎还称，梁文锋是一个有梦想的人，不屑于做App，不在乎日活、融资和收费的问题。一个最了不起的地方是：『DeepSeek』是世界第一个把大模型免费、开源的，这对中国大模型产业的发展做出了很大的贡献。