AI

Grok 4大模型争霸赛中下出“神之一手”,DeepSeek、Kimi出局

发布时间:2025年8月7日    来源:szf
Grok 4大模型争霸赛中下出“神之一手”,DeepSeek、Kimi出局

快速阅读: 7月12日,谷歌Kaggle启动首届全球AI国际象棋争霸赛,八款顶级语言模型参赛,四强分别为Gemini 2.5 Pro、o4-mini、Grok 4和o3。比赛不仅是棋艺较量,更是对AI整体理解能力的考验。

7月12日,谷歌旗下的Kaggle平台宣布启动首届全球AI国际象棋争霸赛,八款顶级语言模型展开激烈对决,胜负仅在一招之间。参赛的闭源模型包括Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash;开源模型则有DeepSeek R1和Kimi K2 Instruct。

7月13日凌晨1点,8进4淘汰赛正式打响。Gemini 2.5 Pro、o4-mini、Grok 4和o3以4-0的战绩横扫对手,顺利晋级半决赛。Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2未能坚持到最后,纷纷在中盘败北。

半决赛将于7月14日太平洋时间上午10:30举行。OpenAI的o3-mini和o3将展开内战,而Gemini 2.5 Pro和Grok 4则狭路相逢。谷歌表示,游戏是评估模型智能的理想平台,具有无限扩展性和思维可视化的特点,能够全面展示模型的决策过程。

首场比赛中,DeepSeek R1对阵o4-mini,Kimi-K2对阵o3。Kimi K2因多次非法走子被判负,最短对局甚至不到8个回合。面对如此对手,o3轻松晋级。DeepSeek R1则在中盘掉线,o4-mini趁机将死对手,顺利晋级。

Claude 4 Opus与Gemini 2.5 Pro的对局堪称激烈。Claude 4 Opus在第10步棋时出现失误,敞开防线,给对手留下突破口。尽管如此,Claude 4 Opus仍顽强抵抗,但最终不敌Gemini 2.5 Pro。Grok 4的表现尤为出色,面对Gemini 2.5 Flash的频繁失误,Grok 4精准识破对手弱点,以4-0的战绩完胜。

马斯克在X平台上转发了Grok 4的战绩,仅简单回应:“这只是副作用。xAI几乎没有在国际象棋上花费精力。”尽管如此,Grok 4的表现仍被业内评为开赛以来的最佳表现。

此次比赛不仅是一场棋艺较量,更是对AI整体理解能力的考验。游戏为评估强大人工智能提供了理想的基础,帮助研究人员了解哪些方法在复杂推理任务中真正有效。Kaggle官方透露,真正的评分标准隐藏在数百场未公开对局的排行榜中,当前比赛只是通用智能测试的一部分。

参考链接:

– https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

– https://x.com/dotey/status/1952883220149657849

– https://blog.google/technology/ai/kaggle-game-arena/

– https://www.kaggle.com/blog/introducing-game-arena

(以上内容均由Ai生成)

你可能还想读

亚马逊推Alexa+迈入全代理AI时代

亚马逊推Alexa+迈入全代理AI时代

快速阅读: 据外媒报道,亚马逊推出新一代智能体AI系统Alexa+,中兴与字节跳动联合研发全球首款全智能体AI手机,该技术正加速渗透医疗健康领域,可自主执行复杂任务并提升服务效率。 近日,全球人工智能领域加速向“智能体”(agentic A […]

发布时间:2025年12月8日
网传普京持《薄伽梵歌》照片系AI生成

网传普京持《薄伽梵歌》照片系AI生成

快速阅读: 据媒体报道,近日网传普京在专机手持《薄伽梵歌》的照片系AI合成,经事实核查机构BOOM验证含谷歌SynthID水印,该虚假图像由屡传不实信息的账号首发,旨在制造地缘政治误导。 近日,一张据称显示俄罗斯总统普京在专机上手持《薄伽梵 […]

发布时间:2025年12月8日
AMD锐龙7 9850X3D泄露:单核加速达5.6GHz

AMD锐龙7 9850X3D泄露:单核加速达5.6GHz

快速阅读: 据最新消息,AMD Ryzen 7 9850X3D工程样品在多款主板上运行稳定,单核频率近5.6GHz,Zen 5架构优化显著,平台兼容性良好,有望近期发布。 近日,有关AMD即将推出的Ryzen 7 9850X3D处理器的最新 […]

发布时间:2025年12月8日
英特尔BMG-G31显卡即将发布

英特尔BMG-G31显卡即将发布

快速阅读: 据最新消息,英特尔将BMG-G31显卡纳入软件支持体系,该芯片配备32个Xe2核心与16GB显存,预计2026年初以Arc B770命名亮相,旨在强化中高端GPU市场竞争力。 英特尔公司近日正式将代号为“Big Battlema […]

发布时间:2025年12月8日
戴尔Pro笔记本:AI时代企业首选

戴尔Pro笔记本:AI时代企业首选

快速阅读: 据国际数据公司(IDC)报道,戴尔推出Dell Pro系列AI商用笔记本,搭载NPU与Windows 11 Copilot+,支持长效续航、军工级耐用性及本地AI安全防护,助力企业提升效率并降低长期更新成本。 随着2025年接近 […]

发布时间:2025年12月8日
英伟达4B小模型登顶ARC评测,成本仅GPT-5 Pro的136

英伟达4B小模型登顶ARC评测,成本仅GPT-5 Pro的136

快速阅读: 12月8日消息,英伟达推出4B参数小模型NVARC,在ARC-AGI2评测中以27.64%准确率超越GPT-5Pro,单任务推理成本仅0.2美元,凭借零预训练策略和合成数据实现高效低成本部署。 近日,英伟达研发的4B参数小模型N […]

发布时间:2025年12月8日
Meta收购Limitless加码AI可穿戴设备

Meta收购Limitless加码AI可穿戴设备

快速阅读: 据最新消息,Meta收购AI可穿戴设备公司Limitless,后者以无屏幕智能吊坠著称,具备语音交互与实时转录功能;收购后团队并入Meta,专注AI硬件研发,现有产品将停售但提供一年技术支持。 日前,美国科技企业Meta宣布收购 […]

发布时间:2025年12月8日
沐曦股份科创板申购中签率公布

沐曦股份科创板申购中签率公布

快速阅读: 12月8日消息,沐曦集成电路科创板IPO网上申购户数达517.52万户,启动回拨后最终中签率升至0.03348913%,拟募资39.04亿元用于高性能GPU研发及产业化。 12月8日,国产GPU企业沐曦集成电路(上海)股份有限公 […]

发布时间:2025年12月8日