OpenAI o3战胜人类大师，40轮激战夺魁

发布时间：2025年8月24日来源：szf

快速阅读: Kaggle举办国际象棋AI积分赛，OpenAI o3以1685分夺冠，Grok 4和Gemini 2.5 Pro分列二三，比赛通过文本输入完成，提供模型战略推理能力评估。

Kaggle Game Arena举办的国际象棋积分赛结果揭晓，OpenAI o3以人类等效Elo 1685分的成绩位居榜首，Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1、GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

经过40轮激烈对决，国际象棋AI仅通过文本输入方式完成了比赛。每组配对进行超过40场比赛，构建了类似于围棋等项目的Elo排名系统。OpenAI o3表现出色，Grok 4和Gemini 2.5 Pro紧随其后。

排行榜显示，OpenAI o3以人类等效Elo 1685分的成绩领先，Grok 4和Gemini 2.5 Pro分别获得1395分和1343分。DeepSeek R1、GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

Kaggle首次举办的AI国际象棋积分赛中，OpenAI o3最终夺冠，证明了其实力。此次比赛不仅展示了模型在国际象棋方面的进步，还提供了更全面、更可靠的评估结果。

排行榜基于所有参赛模型之间的循环赛结果，每对模型进行20场白棋和20场黑棋的对决，共计40场比赛。Elo分数采用标准的Bradley-Terry算法计算，通过与不同等级的国际象棋Stockfish引擎对弈，估算模型的人类等效Elo评分。

尽管这些模型取得了显著成绩，但与顶级人类棋手相比仍有较大差距。人类“大师”级棋手的评分为2200或更高，“特级大师”为2500或更高，最强版本的Stockfish引擎估计的人类Elo评分高达3644。

除了Elo分数，排行榜还增加了“平均每回合Token数”和“平均每回合成本”等指标，以反映模型在性能和效率之间的权衡。排行榜存在一些限制，如仅限于国际象棋、严格的超时限制和抽样随机性。

Kaggle还发布了一个包含可移植棋谱（PGN）和模型公开推理过程的数据集，旨在评估和比较通用语言模型的战略推理能力。Kaggle计划定期将新模型加入国际象棋文本排行榜及其他Game Arena排行榜，以跟踪AI模型在战略规划、推理和其他认知能力方面的进步。

(以上内容均由Ai生成)

你可能还想读