OpenAI o3战胜人类大师,40轮激战夺魁
快速阅读: Kaggle举办国际象棋AI积分赛,OpenAI o3以1685分夺冠,Grok 4和Gemini 2.5 Pro分列二三,比赛通过文本输入完成,提供模型战略推理能力评估。
Kaggle Game Arena举办的国际象棋积分赛结果揭晓,OpenAI o3以人类等效Elo 1685分的成绩位居榜首,Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1、GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。
经过40轮激烈对决,国际象棋AI仅通过文本输入方式完成了比赛。每组配对进行超过40场比赛,构建了类似于围棋等项目的Elo排名系统。OpenAI o3表现出色,Grok 4和Gemini 2.5 Pro紧随其后。
排行榜显示,OpenAI o3以人类等效Elo 1685分的成绩领先,Grok 4和Gemini 2.5 Pro分别获得1395分和1343分。DeepSeek R1、GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。
Kaggle首次举办的AI国际象棋积分赛中,OpenAI o3最终夺冠,证明了其实力。此次比赛不仅展示了模型在国际象棋方面的进步,还提供了更全面、更可靠的评估结果。
排行榜基于所有参赛模型之间的循环赛结果,每对模型进行20场白棋和20场黑棋的对决,共计40场比赛。Elo分数采用标准的Bradley-Terry算法计算,通过与不同等级的国际象棋Stockfish引擎对弈,估算模型的人类等效Elo评分。
尽管这些模型取得了显著成绩,但与顶级人类棋手相比仍有较大差距。人类“大师”级棋手的评分为2200或更高,“特级大师”为2500或更高,最强版本的Stockfish引擎估计的人类Elo评分高达3644。
除了Elo分数,排行榜还增加了“平均每回合Token数”和“平均每回合成本”等指标,以反映模型在性能和效率之间的权衡。排行榜存在一些限制,如仅限于国际象棋、严格的超时限制和抽样随机性。
Kaggle还发布了一个包含可移植棋谱(PGN)和模型公开推理过程的数据集,旨在评估和比较通用语言模型的战略推理能力。Kaggle计划定期将新模型加入国际象棋文本排行榜及其他Game Arena排行榜,以跟踪AI模型在战略规划、推理和其他认知能力方面的进步。
(以上内容均由Ai生成)