刚刚，GPT-5内测抢先泄露！推理强到离谱，智商被曝140超越人类天才(gpt-3 知乎)#科技#智商#推理#全网#文件#超越

新智元报道

编辑：Aeneas KingHZ

【新智元导读】GPT-5终于要来了，就在刚刚，已经有人通过Copilot放出了GPT-5的惊人实测，推理能力强到离谱。明天凌晨，GPT-5、GPT-5 Mini和GPT-5 Nano全家桶将悉数登场，全网已经high起来了。

就在明天，GPT-5总算要靴子落地了。

周五凌晨，GPT-5、GPT-5 Mini和GPT-5 Nano将同时推出。全网用户都可以立即通过API和ChatGPT访问这三个模型。

经过十来天的营销和造势，众位看官们的热情也是被激到了最高点，明天OpenAI要是拿不出什么硬货来，恐怕是要被嘲了。

就在今天，还有关于GPT-5的消息放出。

比如这种GPT-5基准测试的结果，已经开始全网疯传。

数据显示，它在SimpleBench上的得分已经达到了90%，高于之前的62%。而人类高中生在此基准上的得分为85.7%。

另外还有两张泄露的GPT-5基准测试如下。

比如，GPT-5的智商或逼近140。

在ARC-AGI 2的Benchmark上，GPT-5也是一骑绝尘。

与此同时，一些GPT-5的惊人实测，也已经提前放出了！

GPT-5的惊人示例

注意，无论是上图中的基准测试，还是下面的demo，都是通过Copilot得到的。

很多网友发现，在某些情况下，微软Copilot已经开始调用GPT-5。

在Copilot产品中出现的「智能模式」字样，都暗示着由GPT-5驱动的专门推理或自适应行为。

SVG机器人检查（通过Copilot上的GPT-5）

TestingCatalog通过某些使用场景（例如Robot SVG 测试）确认，Copilot在某些情况下已在GPT-5上悄悄运行。

Copilot的智能模式自称是GPT-5

而通过Copilot，已经有手快的网友给GPT-5测试来不同示例。

他的评价是：我怀疑这只是GPT-5的一个小版本，但仍然具有推理能力。这头猛兽的威力，会让你大吃一惊！

1. 「旋转六边形中的弹跳球」测试。

2. 制作一个GTA克隆版。

可以看出GPT-5表现很不错，它做出了地图和几辆NPC汽车，碰撞机制也做得很好。

3. 制作一个未来感十足的AI按钮。

4. 制作一个可运行的单文件俄罗斯方块游戏。

5. 用HTML/JS编写一个像素画编辑器。

用户可以设置网格大小、选择颜色，并可以将图片导出为PNG格式。

6. 在一个 HTML文件中制作一个可拖拽的看板（待办事项/进行中/已完成），所有代码均使用HTML/JS/CSS。

7. 制作一个神经网络可视化工具，结果令人惊呆。

8. 在一个HTML文件中制作一个康威生命游戏模拟器。

用户可以绘制单元格、播放/暂停、调整速度以及保存/加载模式。

9. 使用Three.js制作一个3D飞行模拟器。

10. 用纯HTML/JS创建一个横向卷轴平台游戏。

键盘控制、收集金币、胜负条件——一个文件，像素画风。

11. 在一个HTML/JS文件中编写一个交互式化学分子构建器——拖动原子、捕捉键、实时查看分子式更新。

12. 用一个HTML文件制作一个3D太阳系模拟器——包含行星轨道、点击查看详情、太阳动画以及时间加速/减速控制。

网友称，这是实测的所有示例中自己最喜欢的一个。

GPT-oss

基准测试+实测来了

而GPT-5还没发布，OpenAI就已经凭GPT-oss给全网整了个大的。

就在昨天，时隔数年后OpenAI终于对得起自己的名字了──

经过数月预告之后，他们发布了自2019年以来的首批开放权重的大语言模型:

➤ gpt-oss-120b：共1168亿个参数，其中活跃参数为51亿个。

➤ gpt-oss-20b：共209亿个参数，其中活跃参数为36亿个。

直接跻身HuggingFace模型榜单第一和第二。

就在刚刚，多项基准测试结果出炉，GPT-oss直接一举登顶开源王座。

智能体基准测试平台hud发推：

gpt-oss 120B（高配版）在GPQA Diamond、AIME 2024、AIME 2025和Codeforces等评测中，领先于主流开源模型（Deepseek R1、Qwen3、Llama 4、Kimi K2），斩获最高分。

有人发现，在Intelligence基准测试中，GPT-oss-120b在高推理设置下的得分为8.6%，仅略低于o3。

可以说，它是名副其实的SOTA开源模型。

「ArtificialAnalysis」也对OpenAI gpt-oss模型进行了独立的基准测试。

OpenAI的gpt-oss模型的独立基准测试显示：gpt-oss-120b超越了Meta的Llama模型，跻身全美开源权重模型No.1，其智能指数得分达到58。

在日新月异的AI领域，这已恍如隔世。要知道，ChatGPT本身发布至今还不到三年。

在智能上，这两种模型在大小和稀疏性方面都得分极高。可以看到，120B击败了o3-mini，但落后于o4-mini和o3。

注意，120B是可以在单个H100上运行的最智能的模型，而20B是可以在消费级GPU上运行的最智能的模型。在ArtificialAnalysis的大多数评估中，这两种模型的排名似乎相似，表明它们没有突出的弱点。

如果和其他开放权重模型pk的话，虽然GPT-oss-120b的得分没有超过DeepSeek R1 0528的59分或Qwen3 235B 2507的64分，但值得注意的是，它的总参数和活动参数都比这两个模型小得多。

DeepSeek R1的总参数为671B，活动参数为37B，并且以FP8精度原生发布，这使其总文件大小（和内存需求）比GPT-oss-120b大了10倍以上。

Epoch AI在测试后得出结论：尽管使用了相似的计算量，GPT-oss-20b在基准测试中的表现比GPT-3好得多。

GPT-oss-20b在MMLU上的得分比GPT -3高41.4pp，在GPQA diamond上的得分可能高出41.5pp以上。

在HealthBench上，GPT-oss-120b几乎与o3持平，超过了GPT-4o和o4-mini，使其成为OpenAI目前为止效率最高的模型。

实际测试：本地可跑

GPT-oss-120b轻松通过「旋转六边形中的弹跳球」测试：

而且还有人发现，AlphaXiv基于GPT OSS可以快速获取下上文、标准参考文献等，帮我们更快理解研究论文。

一个非常好用的功能是，我们可以针对论文的任何部分进行手动选择、进行针对性提问，还能艾特其他论文，快速进行比较。

关键是，这次在笔记本电脑上的确可以跑:

在MacBook M4 Max 上，gpt-oss 120b：

48 token/s 高性能模式

35 token/s 正常模式

23 token/s 低功耗模式

在NVIDIA RTX 5090上，gpt-oss-20b运行速度非常快，每秒能处理大约160到180个令牌。

但OpenAI为何重金豪赌开源模型？

卷死对手，豪赌未来

就在今天，外媒The Information发表了一篇深度分析：OpenAI为何愿意花巨大代价，重金豪赌开源模型？

微妙的是，这其中少不了中国开源大军的影响。

在智能方面，OpenAI的gpt-oss尚不及DeepSeek R1的59和Qwen3 235B的64──开源最强还是中国制造。

去年年底，DeepSeek凭借开放权重模型R 1异军突起，一鸣惊人。

而OpenAI再次拥抱开源AI，是一步妙棋。

首先，通过为开发者和美国政府提供能开放权重模型新选项，OpenAI可以赢得他们的好感，树立正面可靠的公共形象。

这更是一场高风险但明智的豪赌，赌的是这些模型能击垮竞争对手。

具体而言，奥特曼正是向其对手扎克伯格学了一招，后者的Meta公司将Llama模型作为开放权重发布，目的就是让开发者不再愿意为Meta对手的模型付费。

颇具讽刺意味的是，现在Meta成了被OpenAI此番开放权重发布冲击最大的公司。Meta最新的Llama 4表现平平，令人失望。

Meta开启了一轮AI研究员的招聘，已经疯狂到如此地步：人工智能工程师Yangshun Tay透露，他在领英上晒出OpenAI的offer后，Meta在几小时内就主动联系了他。

然而，面临威胁的不仅是 Meta。由于新的开放权重模型性能极为出色，开发者很可能会因此放弃Anthropic、谷歌甚至OpenAI自家的商业模型。既然能用上免费的开放权重模型，谁还会为GPT-4o或o1买单呢？

不过，正如之前所指出的，尽管旧模型的成本在快速下降，但开发者似乎仍愿意为最顶尖的模型支付费用。因此，OpenAI可能在赌：

旧模型的收入占比已经足够小，就算为了在此过程中击败对手而牺牲掉这部分收入，也毫不足惜。

OpenAI敢于这么做，可能预示着其即将推出的GPT-5模型将非常强大。换言之，OpenAI必然相信，GPT-5的卓越性能足以让开发者心甘情愿地为其支付高昂的费用。

另外一些开发者告诉媒体记者，对于需要将AI模型运行在自己「本地部署」服务器上的大型企业而言，OpenAI的新模型不啻为一大福音。

一位创始人谈到，迄今为止，他们在本地部署性能稍逊的Llama和Mistral模型，然后再偶尔调用OpenAI、Anthropic 或谷歌提供的云端AI服务。而现在，他们将能够完全在本地环境使用OpenAI品牌的模型了。

参考资料：

https://x.com/theinformation/status/1953097373011329456

https://x.com/hunoematic/status/1953210897171874195

https://x.com/ArtificialAnlys/status/1952887733803991070

https://x.com/minchoi/status/1953100882028937266

刚刚，GPT-5内测抢先泄露！推理强到离谱，智商被曝140超越人类天才(gpt-3 知乎)

猜你喜欢

骑上心爱的小电驴，还怎么去表现经济上行期的美呢(骑上心爱的小电驴)

2025重庆国际工业机器人及核心部件展会|人工智能AI机器人展览会(重庆国际公司)

郑州贾鲁河水位暴涨强降雨致水位迅速上升(郑州贾鲁河水系路全图)

苗苗陪郑恺打双人网球，全身发力超带感，腿肌竟比老公还发达！(苗苗陪郑恺打球)

脱毛衣的静电，竟和太阳风有关？(脱毛衣的静电怎么消除)