【青鸟飞扬教育】OIBench 篇(青鸟飞娱)

【青鸟飞扬教育】OIBench 篇(青鸟飞娱)

背景:评测集局限性的深层分析

尽管 GPT-4o 模型被冠以 "竞赛级" 头衔,甚至有声音称其算法水平接近 ACM 区域赛金牌🥇选手,但实际在面对未经大量公开数据训练的、更高难度的信息学奥赛级别问题时,其通过率却往往低至个位数,与 985 级别高校 ACM 校队成员的平均通过率存在显著差距。

当部分评测宣称 Claude 3.5 Sonnet 可替代中级开发人员时,它在动态规划等高难度题型中错误率却高达 80% 以上,且无法独立完成需数学建模的复杂竞赛题。

诸如文心一言、『通义千问』等模型在 MBPP 基础题库中通过率可达 90% 以上,但移植至 Codeforces Div.2 C 级题目时,通过率却不足 15%,远低于人类选手平均 70% 的水平。

这些鲜明的对比,共同指向一个核心问题:当前对 LLM 编程能力的评估,存在明显的 "宣传与现实的认知鸿沟"。这种差异不仅源于模型能力边界的复杂性,也暴露出现有评估体系的诸多局限性。具体表现为:

评测集 “饱和” 与区分度不足:传统评测集(如 HumanEval、MBPP)由于模型能力的快速提升,通过率普遍超过 90%,已无法有效区分最先进模型的细微优劣。

数据 “泄漏” 风险: 尽管一些新评测集(如 Codeforces、USACO、LeetCode)引入了高难度题目,但由于大模型预训练数据包含大量『互联网』公开内容,这些题目可能已被模型 “见过”,导致评测结果虚高,无法真实反映其推理能力。

人机对比的局限性:现有基于 Elo 评分体系的模型与真人选手对比方法,存在周期长、选手水平波动大、复现性差等问题,难以提供精确且可靠的评估。

效率指标的粗略性: 部分评测虽引入运行时间、内存等效率指标,但通常仅为粗略的平均分,无法细致反映模型在不同类型题目上的性能差异。

为了解决上述这些评估困境、评测出全球顶尖模型真实的编程能力, Meituan-M17 团队推出了更真实、更具区分度的评估基准 OIBench 数据集,并托管于 AGI-Eval 评测社区,并在 Huggingface 和 GitHub 上开源。基于此数据集,我们对全球 18 个主流大模型的算法编程能力进行了系统评测并量化得分,详细评分榜单如下所示,可以看到全球顶尖大模型距离以往所宣称的编程能力还存在很大差距,哪怕是最高分的 o4-mini-high 也仅仅只有 36.35 分,距离人类竞赛选手的水平还相差甚远,甚至很多模型只有个位数的得分。

特别声明:[【青鸟飞扬教育】OIBench 篇(青鸟飞娱)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

卡扎菲倒台,五子保姆控诉:他们把我带到浴室,用胶带封住我的嘴(卡扎菲专访)

卡扎菲这个姓氏曾代表着利比亚的金钱与权力,但随着他42年统治的结束,整个家族的辉煌也随之崩塌。 在一次检查中,反叛者发现了一名被遗弃的保姆,她正独自坐在空荡荡的房间里,向记者讲述自己在卡扎菲家族中所遭受的可怕…

卡扎菲倒台,五子保姆控诉:他们把我带到浴室,用胶带封住我的嘴(卡扎菲专访)

王楚钦称和孙颖莎沟通非常高效 混双配合渐入佳境(王楚钦评价孙颖莎还是王曼昱)

10月2日晚,WTT中国大满贯混双半决赛结束。王楚钦孙颖莎直落三局击败7号种子巴西选手雨果·卡尔德拉诺高桥布鲁娜。赛后两人表示,经过几场比赛的较量,逐渐找到了更好的混双节奏和沟通方式

王楚钦称和孙颖莎沟通非常高效 混双配合渐入佳境(王楚钦评价孙颖莎还是王曼昱)

如果南北极大融化,海平面上升66米,我国哪座城市会消失?(如果南北极融化了我们会怎么样了)

上海作为国际金融中心,海拔平均只有4米到9米,一旦水位抬升,哪怕只是初期阶段,也会让这座城市的大部分区域泡在海里。 再往北看,北京的海拔大约在30米到40米之间,虽然不是沿海,但如果水位达到66米,从渤海湾倒…

如果南北极大融化,海平面上升66米,我国哪座城市会消失?(如果南北极融化了我们会怎么样了)

这两种标志性的中华元素,一起做摆件简直绝配!(标志也称为)

长城的绵延是祖国疆域的辽阔,神龙的腾飞是时代蓬勃发展的昂扬,这正是“国泰民安”的生动写照。在这件作品中,龙与长城相得益彰——长城如龙,盘踞山巅,守护着神州大地;龙如长城,腾跃九天,展现着中华气派。 这件玉雕…

这两种标志性的中华元素,一起做摆件简直绝配!(标志也称为)

OPPOFindX8:跌至3099元,入手那是物超所值的!(oppo findx 8)

OPPOFindX8采用6.59英寸1.45mm极窄四等边直屏,分辨率为2760×1256,支持120Hz刷新率支持100%DCI-P3广色域和10.7亿色显示和,全局峰值亮度1600nit,局部峰值亮度可…

OPPOFindX8:跌至3099元,入手那是物超所值的!(oppo findx 8)