OpenAI o3豪夺大模型棋王,40轮激战人类大师地位受威胁
快速阅读: Kaggle Game Arena举办国际象棋积分赛,OpenAI o3以1685分领先,Grok 4和Gemini 2.5 Pro紧随其后。比赛通过40轮对决评估AI模型的战略推理、规划、适应和协作能力,提供动态且可复现的标准。
Kaggle Game Arena举办的国际象棋积分赛结果公布,OpenAI o3以1685分的Elo评分领先,Grok 4和Gemini 2.5 Pro紧随其后,DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。此次比赛采用40轮对决,仅凭文本输入,不借助工具或验证器,各大AI模型展开激烈较量,最终形成了类似围棋等运动项目的Elo排名。
OpenAI o3以1685分的成绩拔得头筹,Grok 4和Gemini 2.5 Pro分别以1395分和1343分位居第二和第三。DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。本次比赛是Kaggle Game Arena首次举办的AI国际象棋积分赛,旨在全面评估AI模型的战略推理、规划、适应和协作能力。
比赛通过透明的测试设计、丰富的游戏数据和不断更新的多游戏排行榜,为评估AI的真实认知能力提供了动态且可复现的标准。排行榜基于所有参赛模型之间的循环赛结果,每对模型进行20场白棋和20场黑棋的对决,共计40场比赛。Elo分数采用标准的Bradley-Terry算法计算,模型与不同等级的国际象棋Stockfish引擎对弈,通过线性插值法估算出人类等效Elo评分。
尽管这些模型表现出色,但与顶级人类棋手仍有一定差距。人类大师级别的Elo评分通常在2200分以上,特级大师则达到2500分以上,而最强版本的Stockfish引擎估计的Elo评分高达3644分。排行榜还增加了“平均每回合Token数”和“平均每回合成本”等指标,以反映模型在性能和效率之间的平衡。
排行榜存在一些限制和缺陷,如仅限于国际象棋、严格的每步棋时间限制以及抽样随机性。不过,Kaggle计划定期更新排行榜,纳入更多模型,以跟踪AI模型在战略规划、推理和其他认知能力方面的进步。未来,Game Arena还将推出更多游戏的排行榜,为AI模型的能力评估提供更全面的基准。
此外,Kaggle还发布了包含可移植棋谱(PGN)和模型公开推理过程的数据集,旨在评估和比较当前通用语言模型的战略推理能力。该数据集代表了这些特定模型版本在收集时点的性能,Kaggle计划定期更新数据集,以反映最新进展。
Kaggle指出,国际象棋文本输入基准测试的重要性在于:超越数据污染问题,确保每一步决策都源自模型的内部逻辑;在高压环境下考验模型的应变能力;为通用人工智能的发展提供有价值的参考。
(以上内容均由Ai生成)