【青鸟飞扬教育】OIBench 篇(青鸟飞娱)

【青鸟飞扬教育】OIBench 篇(青鸟飞娱)

背景:评测集局限性的深层分析

尽管 GPT-4o 模型被冠以 "竞赛级" 头衔,甚至有声音称其算法水平接近 ACM 区域赛金牌选手,但实际在面对未经大量公开数据训练的、更高难度的信息学奥赛级别问题时,其通过率却往往低至个位数,与 985 级别高校 ACM 校队成员的平均通过率存在显著差距。

当部分评测宣称 Claude 3.5 Sonnet 可替代中级开发人员时,它在动态规划等高难度题型中错误率却高达 80% 以上,且无法独立完成需数学建模的复杂竞赛题。

诸如文心一言、通义千问等模型在 MBPP 基础题库中通过率可达 90% 以上,但移植至 Codeforces Div.2 C 级题目时,通过率却不足 15%,远低于人类选手平均 70% 的水平。

这些鲜明的对比,共同指向一个核心问题:当前对 LLM 编程能力的评估,存在明显的 "宣传与现实的认知鸿沟"。这种差异不仅源于模型能力边界的复杂性,也暴露出现有评估体系的诸多局限性。具体表现为:

评测集 “饱和” 与区分度不足:传统评测集(如 HumanEval、MBPP)由于模型能力的快速提升,通过率普遍超过 90%,已无法有效区分最先进模型的细微优劣。

数据 “泄漏” 风险: 尽管一些新评测集(如 Codeforces、USACO、LeetCode)引入了高难度题目,但由于大模型预训练数据包含大量互联网公开内容,这些题目可能已被模型 “见过”,导致评测结果虚高,无法真实反映其推理能力。

人机对比的局限性:现有基于 Elo 评分体系的模型与真人选手对比方法,存在周期长、选手水平波动大、复现性差等问题,难以提供精确且可靠的评估。

效率指标的粗略性: 部分评测虽引入运行时间、内存等效率指标,但通常仅为粗略的平均分,无法细致反映模型在不同类型题目上的性能差异。

为了解决上述这些评估困境、评测出全球顶尖模型真实的编程能力, Meituan-M17 团队推出了更真实、更具区分度的评估基准 OIBench 数据集,并托管于 AGI-Eval 评测社区,并在 Huggingface 和 GitHub 上开源。基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 也仅仅只有 36.35 分,距离人类竞赛选手的水平还相差甚远,甚至很多模型只有个位数的得分。

猜你喜欢

ULN2003ADR如何驱动继电器,3步搞定电路设计避坑指南

独立供电:ULN2003ADR的COM引脚(引脚9)必须接12V-24V驱动电源,与MCU的5V系统隔离,避免反串高压续流二极管:每个继电器线圈并联1N4148二极管(阴极接Vcc),吸收关断时100V+反…

ULN2003ADR如何驱动继电器,3步搞定电路设计避坑指南

宋佳晒与群星合影,一身穿搭美飒出圈,女王范简直溢出屏幕!(宋佳mv)

宋佳这组合照杀疯了! 想起上个月白玉兰颁奖礼,她拿最佳女主角时说"演员要靠作品说话,不是靠热搜续命",当时台下多少明星脸色变了。网友说这是"甜妹与拽姐的完美融合"。宋佳

宋佳晒与群星合影,一身穿搭美飒出圈,女王范简直溢出屏幕!(宋佳mv)

Virgil 限时展览来了!还有 OW x Nike 新鞋登场!

Virgil Abloh的展览要来了! 消息称将于 9 月 20 日至 10 月 10 日在巴黎大皇宫举行。 据报道该展览由 Nike联合主办,也是规模是最大的一场,将近 1000 件不同的作品与大家见…

Virgil 限时展览来了!还有 OW x Nike 新鞋登场!

真诚坦率朱丹表现,局限自省内心显露,独特魅力引人深思(真诚坦白是什么意思解释)

她逐渐形成了一种通过讨好他人来换取爱与关注的模式,这也导致了她后来对婚姻和两性关系的认知偏差。过去,她因符合传统审美和女性角色期望而受到欢迎,但如今,观众更多关注的是内容是否有实质性的价值与内涵,而不仅仅是表…

真诚坦率朱丹表现,局限自省内心显露,独特魅力引人深思(真诚坦白是什么意思解释)

曹骏蓝盈莹分手6年后曝新恋情?女方穿平底鞋很乖巧,疑似圈外人(曹骏蓝盈莹什么时候在一起的)

曾在综艺节目中,他毫不掩饰地表达过对“善良与可爱”女生的向往,如今这位新欢似乎正好是他理想中的存在。这种双面人生的精彩,正是对我们每个人的鼓励。 愿每一个在追求理想与爱情的旅途中打拼的人,都能从曹骏的故事中汲…

曹骏蓝盈莹分手6年后曝新恋情?女方穿平底鞋很乖巧,疑似圈外人(曹骏蓝盈莹什么时候在一起的)