OpenAI o3豪夺大模型棋王,40轮激战胜人类大师
快速阅读: Kaggle举办国际象棋积分赛,OpenAI o3以1685分领先,Grok 4和Gemini 2.5 Pro紧随其后。比赛通过40轮对决,采用Elo排名系统,测试模型的战略推理和规划能力。
Kaggle Game Arena举办了一场国际象棋积分赛,OpenAI o3以人类等效Elo 1685分的成绩领先,Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。
本次比赛采用积分制,通过40轮对决,构建了类似围棋等运动项目的Elo排名。每组配对进行超过40场比赛,各大AI模型仅使用文本输入进行对决,没有工具和验证器辅助。
OpenAI o3以1685分的估计人类Elo评分独占鳌头,Grok 4以1395分位居第二,Gemini 2.5 Pro以1343分位列第三。DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。
Kaggle首次举办的AI国际象棋比赛,OpenAI o3最终夺冠,证明了其强大的实力。此前,Kaggle举办的淘汰赛展示了多个通用模型在国际象棋方面的表现,但四局三胜的赛制存在较大的偶然性,无法准确衡量模型的真实水平。
此次发布的国际象棋文本排行榜是一个严格的AI基准测试平台,全面考验模型的战略推理、规划、适应和协作能力。排行榜基于所有参赛模型之间的循环赛结果,每对模型进行20场白棋和20场黑棋的对决,总计40场比赛。排行榜采用标准的Bradley-Terry算法计算Elo分数,并通过与不同等级的Stockfish引擎对弈,估算模型的人类等效Elo评分。
排行榜还增加了“平均每回合Token数”和“平均每回合成本”等指标,以反映模型在性能和效率之间的权衡。然而,排行榜也存在一些限制,包括仅限于国际象棋、严格的每步棋时间限制以及抽样随机性等问题。
Kaggle还发布了一个包含可移植棋谱(PGN)和模型公开推理过程的数据集,旨在评估和比较通用语言模型的战略推理能力。Kaggle认为,国际象棋文本输入测试能够超越数据污染问题,考验模型在高压环境下的表现,并为通用人工智能的发展提供有价值的参考。
Kaggle计划定期将新模型加入国际象棋文本排行榜及其他Game Arena排行榜,以跟踪AI模型在战略规划、推理和其他认知能力方面的进步。未来,Game Arena将推出更多游戏的排行榜,为AI模型的能力评估提供更全面的基准。
(以上内容均由Ai生成)