Grok 4大模型争霸赛中下出“神之一手”,DeepSeek、Kimi出局
快速阅读: 7月12日,谷歌Kaggle启动首届全球AI国际象棋争霸赛,八款顶级语言模型参赛,四强分别为Gemini 2.5 Pro、o4-mini、Grok 4和o3。比赛不仅是棋艺较量,更是对AI整体理解能力的考验。
7月12日,谷歌旗下的Kaggle平台宣布启动首届全球AI国际象棋争霸赛,八款顶级语言模型展开激烈对决,胜负仅在一招之间。参赛的闭源模型包括Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash;开源模型则有DeepSeek R1和Kimi K2 Instruct。
7月13日凌晨1点,8进4淘汰赛正式打响。Gemini 2.5 Pro、o4-mini、Grok 4和o3以4-0的战绩横扫对手,顺利晋级半决赛。Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2未能坚持到最后,纷纷在中盘败北。
半决赛将于7月14日太平洋时间上午10:30举行。OpenAI的o3-mini和o3将展开内战,而Gemini 2.5 Pro和Grok 4则狭路相逢。谷歌表示,游戏是评估模型智能的理想平台,具有无限扩展性和思维可视化的特点,能够全面展示模型的决策过程。
首场比赛中,DeepSeek R1对阵o4-mini,Kimi-K2对阵o3。Kimi K2因多次非法走子被判负,最短对局甚至不到8个回合。面对如此对手,o3轻松晋级。DeepSeek R1则在中盘掉线,o4-mini趁机将死对手,顺利晋级。
Claude 4 Opus与Gemini 2.5 Pro的对局堪称激烈。Claude 4 Opus在第10步棋时出现失误,敞开防线,给对手留下突破口。尽管如此,Claude 4 Opus仍顽强抵抗,但最终不敌Gemini 2.5 Pro。Grok 4的表现尤为出色,面对Gemini 2.5 Flash的频繁失误,Grok 4精准识破对手弱点,以4-0的战绩完胜。
马斯克在X平台上转发了Grok 4的战绩,仅简单回应:“这只是副作用。xAI几乎没有在国际象棋上花费精力。”尽管如此,Grok 4的表现仍被业内评为开赛以来的最佳表现。
此次比赛不仅是一场棋艺较量,更是对AI整体理解能力的考验。游戏为评估强大人工智能提供了理想的基础,帮助研究人员了解哪些方法在复杂推理任务中真正有效。Kaggle官方透露,真正的评分标准隐藏在数百场未公开对局的排行榜中,当前比赛只是通用智能测试的一部分。
参考链接:
– https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1
– https://x.com/dotey/status/1952883220149657849
– https://blog.google/technology/ai/kaggle-game-arena/
– https://www.kaggle.com/blog/introducing-game-arena
(以上内容均由Ai生成)