无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%

(来源:机器之心Pro)

编辑 | 杜伟、陈陈

什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。

在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI 的智力表现原地暴涨一截。

在看了「AI 推理和自我改进系统」初创公司 Poetiq 的最新评测之后,有人得出了这样的结论。

部分截图

近日,Poetiq 表示其使用 ARC-AGI-2 测试集,在他们的系统上(称为 meta-system)运行了 GPT-5.2 X-High。该测试集通常被用来衡量当前 SOTA 模型在复杂抽象推理任务上的表现。

结果显示,在相同的 Poetiq 测试平台上,GPT‑5.2 X‑High 在完整的 PUBLIC-EVAL 数据集上的成绩高达 75%,这比之前的 SOTA 高出了约 15%,同时每个问题的成本低于 8 美元💵。

这里的 PUBLIC-EVAL 是 ARC 测试的一部分,前者一般包含基础推理任务和标准的 NLP、数学推理测试,适合广泛的模型评测,数据集更为公开、标准;后者包含更多复杂且富有挑战性的推理问题,考察模型的抽象推理、常识推理、创新能力等,是针对高水平模型的推理极限测试。

下图展示了各个 SOTA 模型在 PUBLIC-EVAL 数据集上的成绩分布:

Poetiq 还特别强调了,其没有对 GPT-5.2 进行任何再训练或模型特定的优化。

在如此短的时间内,相较于 Poetiq 之前在 PUBLIC-EVAL 数据集上测试的其他模型,GPT-5.2 在准确率和价格方面实现了显著改进。

Poetiq 进一步做出设想:如果在 PUBLIC-EVAL 测试中表现好的规律能够延续到 ARC Prize 官方的 SEMI-PRIVATE 测试中,那么「GPT-5.2 X-High + Poetiq」会比以往任何系统配置都更强、更好。

ARC Prize 总裁 Greg Kamradt 表示,「很高兴看到 Poetiq 发布 GPT-5.2 X-High 的结果。如果这个成绩能保持下去,他们的系统看起来能很好地处理模型交换。不过,在 OpenAI API 的基础设施问题解决之前,结果还没有得到完全验证。」

这里的模型交换指的是:系统通过切换不同的模型来应对不同的任务需求,而无需对系统或模型进行大规模的调整或重新训练。

OpenAI 总裁 Greg Brockman 也转推表示:GPT-5.2 在 ARC-AGI-2 上超越人类基准成绩。

对于全新的测试结果,评论区提出了更多问题,比如「每个任务平均需要多长时间」。

Poetiq 回复称,「我们现在没有专门收集这些统计数据,最简单的问题大概在 8 到 10 分钟后就能完成,而最难的问题必须在 12 小时之前终止,以保持在时间限制内。所以,未来肯定还有改进的空间。」

还有人指出「大部分改进似乎来自于测试框架和协调机制,而不是任何模型特定的调优。没有训练变更的情况下,ARC-AGI-2 上提高了大约 15%,这表明仅在搜索、路由和终止逻辑方面就还有很大的提升空间」。

可问题是:为什么在这个设置中,X-High 每个任务的成本比 High 还要低?是因为它通过更早找到正确的解决方案而更快收敛,还是因为测试框架更积极地修剪了无效的推理过程?

对于这个问题,Poetiq 肯定了「X-High 只是比 High 更快地收敛到正确的答案」这一观点。

6 人团队打造 Meta-system 系统

Poetiq 是一支由 6 位研究员和『工程师』组成的团队,有多位核心成员来自 Google DeepMind 。

Poetiq 能够取得上述成绩,关键在于其构建的meta-system(元系统)。

Meta-system 不依赖特定的大模型,可以与任何前沿模型配合使用(如 Gemini 3、GPT-5.1、Grok 等),而不是训练或微调模型本身,这意味着它能随着新模型发布快速适配并提升性能。

Poetiq meta-system 构建了一种迭代式推理过程,其与传统一次性生成答案的方法不同,有两个主要机制:

Poetiq 还特别强调,他们所有 meta-system 的适配工作是在新模型发布前完成的,而且系统从未直接接触过 ARC-AGI 任务集,但依然在多个不同模型上取得跨版本、跨模型族的性能提升,说明 meta-system 对 reasoning 策略具有良好的泛化能力。

正是这种灵活、强大且具备递归能力的架构,使得 Poetiq 这样一支小规模团队,能够在极短时间内取得一系列最先进(SOTA)的成果。

对于这个 meta-system,有人认为「太棒了。在模型之上构建智能,而不是在模型内部构建,意味着可以在几个小时内适配新模型,非常高明。适配开源模型,并且成功迁移到新的封闭模型,这表明捕捉到的东西是推理过程本身的基本规律,而不是模型特定的怪癖。」

参考链接:

https://poetiq.ai/posts/arcagi_verified/

特别声明:[无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

“品特产 寻年味”!电商平台助农“羊毛”等你来薅!

京东将举办以元旦节、年货节为主题的大型促销活动,年货节期间,京东超市将覆盖大量商品和商家,其中农特产品包括粮油、生鲜、饮食、茶叶等数百万商品将会参与到年货节,为消费者提供“又好又便宜”的农特产。同时京东数字…

“品特产 寻年味”!电商平台助农“羊毛”等你来薅!

失去滤镜后,『舒淇』满脸皱纹,贾静雯突然衰老,李小冉女神变大婶(失去滤镜的『明星』️)

但镜头一拉近,去掉了修图,皮肤出现了松弛,皱纹一圈圈地显现,眼神也没有以前那种灵动。大家并非不能接受她变老,只是『社交平台』上那些精修的图片让人眼花缭乱,突然看到她的真实模样,大家多少有点愣住了。那些曾经被捧上天…

失去滤镜后,『舒淇』满脸皱纹,贾静雯突然衰老,李小冉女神变大婶(失去滤镜的『明星』️)

全面升维!iQOO Z11 Turbo首度曝光,性能与影像双重突破(iqoo?)

更值得一提的是,iQOO Z11Turbo将成为iQOO首次搭载2亿超清主摄的手机,为用户提供更出色的拍照体验,尤其适合年轻群体喜爱的聚会、出行等场景。在当前『智能手机』市场中,iQOOZ11 Turbo以其…

全面升维!iQOO Z11 Turbo首度曝光,性能与影像双重突破(iqoo?)

UHK-30-200BI浮球液位控制器上海天敏自动化仪表在智能化应用中的选择指南?(uqk-32浮球液位控制器)

随着2025年新国标政策落地,越来越多企业重视自动化仪表设备的选择。本文从使用场景出发,全面解析UHK-30-200BI浮球液位控制器的技术特点与应用优势,帮助企业更好地进行预算评估与设备选型。如果您想了解其适用范围、配置方案和维护要点,这

UHK-30-200BI浮球液位控制器上海天敏自动化仪表在智能化应用中的选择指南?(uqk-32浮球液位控制器)

2025年轻时尚妈咪必备:Collistar蔻意诗胸部紧致提升贴4包装真有效吗?(年轻时尚女装👚)

对于追求胸部紧致提升效果的现代女性♀️来说,Collistar蔻意诗胸部紧致提升贴是值得尝试的好物。本文深入解读其效果原理、使用场景及购买建议,助您挑选最适合自己的产品,同时提醒选购时的关键注意事项。

2025年轻时尚妈咪必备:Collistar蔻意诗胸部紧致提升贴4包装真有效吗?(年轻时尚女装👚)