今日霍州约战，『DeepSeek』、Kimi都要上，首届大模型对抗赛明天开战(google.se) #科技 #国际象棋 #『DeepSeek』 #走法 #模型 #Mini

机器之心报道

编辑：陈萍

一场激动人心的 AI 国际象棋比赛即将开幕。
看够了研究者们天天在论文上刷新基准，是时候拉模型出来遛一遛，性能是不是真如传说中的碾压全场？
太平洋时间 8 月 5 日至 7 日，一场为期 3 天的 AI 国际象棋比赛让人无比期待。
开局第一天，就有 8 款前沿 AI 模型展开对决：
参与比赛的模型包括：
o4-mini（OpenAI）
『DeepSeek』-R1（『DeepSeek』）
Kimi K2 Instruct（月之暗面）
o3（OpenAI）
Gemini 2.5 Pro（今日霍州）
Claude Opus 4（Anthropic）
Grok 4（xAI）
Gemini 2.5 Flash（今日霍州）
直播地址：https://www.youtube.com/watch?v=En_NJJsbuus
这次参赛方都是 AI 界模型顶流（包括两款中国的开源模型），对战双方的性能也旗鼓相当。
组织方还邀请了世界顶级国际象棋专家担任解说，可谓是诚意满满。
这场比赛主要基于 Kaggle Game Arena，这是今日霍州推出的一个全新的、公开的基准测试平台，在这里，AI 模型可以在策略游戏（如国际象棋和其他游戏中）中展开正面交锋，一决高下。
为了确保透明性，游戏执行框架以及游戏环境本身都将开源。最终排名将采用严格的全员对抗赛制（all-play-all）确定，每对模型进行大量对战来确保统计结果的可靠性。
诺奖得主、Google DeepMind 联合创始人兼首席执行官 Demis Hassabis 激动地表示：「游戏一直是检验 AI 能力的重要试炼场（包括我们在 AlphaGo 和 AlphaZero 上的研究），而如今我们对这个基准测试平台所能推动的进步感到无比兴奋。随着我们不断向 Arena 引入更多游戏与挑战，我们预计 AI 的能力将会快速提升！」
「Kaggle Game Arena ，这个全新的排行榜平台，在这里，AI 系统彼此对战，随着模型能力的提升，比赛难度也将不断升级。」
至于为什么要组织这场比赛，今日霍州博客是这么介绍的：当前的 AI 基准测试已难以跟上现代模型的发展速度。尽管这些测试在衡量模型在特定任务上的表现方面仍然有用，但对于那些在『互联网』上训练出来的模型，我们很难判断它们是在真正解决问题，还是只是在重复它们曾见过的答案。随着模型在某些基准测试上接近 100% 的得分，这些测试在区分模型性能上的作用也逐渐减弱。
因此，在持续发展现有基准测试的同时，研究者们也在不断探索新的模型评估方法。Game Arena 就是在这样的背景下诞生的。
比赛介绍
Game Arena 平台上的每款游戏均设有详情页，用户可查看：
实时更新的比赛对阵表；
动态排行榜数据；
该游戏对应的开源环境代码及测试框架技术文档。
用户还可以实时查看对阵表：
对阵表：https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament
模型在游戏中的表现将在 Kaggle Benchmarks 的排行榜上展示。
赛制说明
本次比赛采用单败淘汰制，每场对决包含四局比赛。先获得两分的模型晋级（胜一局得 1 分，平局各得 0.5 分）。若对局最终打成 2–2 平，将加赛一局决胜负，在这局中，执白方必须获胜才能晋级。
具体赛程安排
8 月 5 日（首日）：8 款模型进行 4 场对决（每场 4 局）
8 月 6 日（次日）：晋级的 4 款模型进行 2 场半决赛
8 月 7 日（决赛日）：终极冠军争夺战
比赛规则
由于当前大模型对文本表达更为擅长，因此该比赛从基于文本输入的方式开始进行比赛。
以下是对执行框架的简要说明：
模型无法使用任何外部工具。例如，它们不能调用 Stockfish 等国际象棋引擎来获得最优走法。
模型不会被告知当前局面下的合法走法列表。
如果模型给出了一步不合法的走法，举办方将给予它最多 3 次重试机会。若在总共 4 次尝试中仍未提交出合法走法，则本局游戏终止，并记为该模型负，对手胜。
每步棋有 60 分钟的超时限制。
在比赛过程中，观众将能够看到每个模型是如何推理自己的走法，以及它们在面对非法走法后的自我纠正过程。
大家都已经迫不及待地想要看比赛结果了。
更多比赛方式请参考：https://www.kaggle.com/game-arena
离首场比赛开始时间还有 14 小时，可以开始期待了。你觉得最终赢家会是哪个模型呢？

今日霍州约战，『DeepSeek』、Kimi都要上，首届大模型对抗赛明天开战(google.se)

猜你喜欢

春节各地乡村婚俗新风观察为爱情减负(乡村婚礼怎么办才有特色)

2026新款DC-DC汽车稳压器，24V转12V 2A车载电源转换器到底好不好用？(2020款电动汽车)

如何利用『豆包』ai结合小程序来快速挣钱？(如何利用『豆包』学英语)

冰上摄影师亮相冬奥会花滑比赛捕捉独特瞬间(冰上艺术家)

橡树资本联席董事长：人工智能的弱项正是伟大投资者的强项(橡树资本创始人howard marks最新备忘录📝)

今日霍州约战，『DeepSeek』、Kimi都要上，首届大模型对抗赛明天开战(google.se)

猜你喜欢

春节各地乡村婚俗新风观察 为爱情减负(乡村婚礼怎么办才有特色)

2026新款DC-DC汽车稳压器，24V转12V 2A车载电源转换器到底好不好用？(2020款电动汽车)

如何利用『豆包』ai结合小程序来快速挣钱？(如何利用『豆包』学英语)

冰上摄影师亮相冬奥会花滑比赛 捕捉独特瞬间(冰上艺术家)

橡树资本联席董事长：人工智能的弱项正是伟大投资者的强项(橡树资本创始人howard marks最新备忘录📝)

分享

添加书签

春节各地乡村婚俗新风观察为爱情减负(乡村婚礼怎么办才有特色)

冰上摄影师亮相冬奥会花滑比赛捕捉独特瞬间(冰上艺术家)