OpenAI o3豪夺大模型棋王，40轮激战胜人类大师

发布时间：2025年8月24日来源：szf

快速阅读: Kaggle举办国际象棋积分赛，OpenAI o3以1685分领先，Grok 4和Gemini 2.5 Pro紧随其后。比赛通过40轮对决，采用Elo排名系统，测试模型的战略推理和规划能力。

Kaggle Game Arena举办了一场国际象棋积分赛，OpenAI o3以人类等效Elo 1685分的成绩领先，Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。

本次比赛采用积分制，通过40轮对决，构建了类似围棋等运动项目的Elo排名。每组配对进行超过40场比赛，各大AI模型仅使用文本输入进行对决，没有工具和验证器辅助。

OpenAI o3以1685分的估计人类Elo评分独占鳌头，Grok 4以1395分位居第二，Gemini 2.5 Pro以1343分位列第三。DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。

Kaggle首次举办的AI国际象棋比赛，OpenAI o3最终夺冠，证明了其强大的实力。此前，Kaggle举办的淘汰赛展示了多个通用模型在国际象棋方面的表现，但四局三胜的赛制存在较大的偶然性，无法准确衡量模型的真实水平。

此次发布的国际象棋文本排行榜是一个严格的AI基准测试平台，全面考验模型的战略推理、规划、适应和协作能力。排行榜基于所有参赛模型之间的循环赛结果，每对模型进行20场白棋和20场黑棋的对决，总计40场比赛。排行榜采用标准的Bradley-Terry算法计算Elo分数，并通过与不同等级的Stockfish引擎对弈，估算模型的人类等效Elo评分。

排行榜还增加了“平均每回合Token数”和“平均每回合成本”等指标，以反映模型在性能和效率之间的权衡。然而，排行榜也存在一些限制，包括仅限于国际象棋、严格的每步棋时间限制以及抽样随机性等问题。

Kaggle还发布了一个包含可移植棋谱(PGN)和模型公开推理过程的数据集，旨在评估和比较通用语言模型的战略推理能力。Kaggle认为，国际象棋文本输入测试能够超越数据污染问题，考验模型在高压环境下的表现，并为通用人工智能的发展提供有价值的参考。

Kaggle计划定期将新模型加入国际象棋文本排行榜及其他Game Arena排行榜，以跟踪AI模型在战略规划、推理和其他认知能力方面的进步。未来，Game Arena将推出更多游戏的排行榜，为AI模型的能力评估提供更全面的基准。

(以上内容均由Ai生成)