Grok 4大模型争霸赛中下出“神之一手”，DeepSeek、Kimi出局

发布时间：2025年8月7日来源：szf

快速阅读: 7月12日，谷歌Kaggle启动首届全球AI国际象棋争霸赛，八款顶级语言模型参赛，四强分别为Gemini 2.5 Pro、o4-mini、Grok 4和o3。比赛不仅是棋艺较量，更是对AI整体理解能力的考验。

7月12日，谷歌旗下的Kaggle平台宣布启动首届全球AI国际象棋争霸赛，八款顶级语言模型展开激烈对决，胜负仅在一招之间。参赛的闭源模型包括Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash；开源模型则有DeepSeek R1和Kimi K2 Instruct。

7月13日凌晨1点，8进4淘汰赛正式打响。Gemini 2.5 Pro、o4-mini、Grok 4和o3以4-0的战绩横扫对手，顺利晋级半决赛。Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2未能坚持到最后，纷纷在中盘败北。

半决赛将于7月14日太平洋时间上午10:30举行。OpenAI的o3-mini和o3将展开内战，而Gemini 2.5 Pro和Grok 4则狭路相逢。谷歌表示，游戏是评估模型智能的理想平台，具有无限扩展性和思维可视化的特点，能够全面展示模型的决策过程。

首场比赛中，DeepSeek R1对阵o4-mini，Kimi-K2对阵o3。Kimi K2因多次非法走子被判负，最短对局甚至不到8个回合。面对如此对手，o3轻松晋级。DeepSeek R1则在中盘掉线，o4-mini趁机将死对手，顺利晋级。

Claude 4 Opus与Gemini 2.5 Pro的对局堪称激烈。Claude 4 Opus在第10步棋时出现失误，敞开防线，给对手留下突破口。尽管如此，Claude 4 Opus仍顽强抵抗，但最终不敌Gemini 2.5 Pro。Grok 4的表现尤为出色，面对Gemini 2.5 Flash的频繁失误，Grok 4精准识破对手弱点，以4-0的战绩完胜。

马斯克在X平台上转发了Grok 4的战绩，仅简单回应：“这只是副作用。xAI几乎没有在国际象棋上花费精力。”尽管如此，Grok 4的表现仍被业内评为开赛以来的最佳表现。

此次比赛不仅是一场棋艺较量，更是对AI整体理解能力的考验。游戏为评估强大人工智能提供了理想的基础，帮助研究人员了解哪些方法在复杂推理任务中真正有效。Kaggle官方透露，真正的评分标准隐藏在数百场未公开对局的排行榜中，当前比赛只是通用智能测试的一部分。

参考链接：

– https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

– https://x.com/dotey/status/1952883220149657849

– https://blog.google/technology/ai/kaggle-game-arena/

– https://www.kaggle.com/blog/introducing-game-arena

(以上内容均由Ai生成)