OpenAI o3豪夺大模型棋王，40轮激战人类大师地位受威胁

发布时间：2025年8月23日来源：szf

快速阅读: Kaggle Game Arena举办国际象棋积分赛，OpenAI o3以1685分领先，Grok 4和Gemini 2.5 Pro紧随其后。比赛通过40轮对决评估AI模型的战略推理、规划、适应和协作能力，提供动态且可复现的标准。

Kaggle Game Arena举办的国际象棋积分赛结果公布，OpenAI o3以1685分的Elo评分领先，Grok 4和Gemini 2.5 Pro紧随其后，DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。此次比赛采用40轮对决，仅凭文本输入，不借助工具或验证器，各大AI模型展开激烈较量，最终形成了类似围棋等运动项目的Elo排名。

OpenAI o3以1685分的成绩拔得头筹，Grok 4和Gemini 2.5 Pro分别以1395分和1343分位居第二和第三。DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。本次比赛是Kaggle Game Arena首次举办的AI国际象棋积分赛，旨在全面评估AI模型的战略推理、规划、适应和协作能力。

比赛通过透明的测试设计、丰富的游戏数据和不断更新的多游戏排行榜，为评估AI的真实认知能力提供了动态且可复现的标准。排行榜基于所有参赛模型之间的循环赛结果，每对模型进行20场白棋和20场黑棋的对决，共计40场比赛。Elo分数采用标准的Bradley-Terry算法计算，模型与不同等级的国际象棋Stockfish引擎对弈，通过线性插值法估算出人类等效Elo评分。

尽管这些模型表现出色，但与顶级人类棋手仍有一定差距。人类大师级别的Elo评分通常在2200分以上，特级大师则达到2500分以上，而最强版本的Stockfish引擎估计的Elo评分高达3644分。排行榜还增加了“平均每回合Token数”和“平均每回合成本”等指标，以反映模型在性能和效率之间的平衡。

排行榜存在一些限制和缺陷，如仅限于国际象棋、严格的每步棋时间限制以及抽样随机性。不过，Kaggle计划定期更新排行榜，纳入更多模型，以跟踪AI模型在战略规划、推理和其他认知能力方面的进步。未来，Game Arena还将推出更多游戏的排行榜，为AI模型的能力评估提供更全面的基准。

此外，Kaggle还发布了包含可移植棋谱（PGN）和模型公开推理过程的数据集，旨在评估和比较当前通用语言模型的战略推理能力。该数据集代表了这些特定模型版本在收集时点的性能，Kaggle计划定期更新数据集，以反映最新进展。

Kaggle指出，国际象棋文本输入基准测试的重要性在于：超越数据污染问题，确保每一步决策都源自模型的内部逻辑；在高压环境下考验模型的应变能力；为通用人工智能的发展提供有价值的参考。

(以上内容均由Ai生成)