Kaggle推出游戏竞技场,评估AI模型战略决策能力

发布时间:2025年9月16日    来源:szf
Kaggle推出游戏竞技场,评估AI模型战略决策能力

快速阅读: Kaggle与Google DeepMind合作推出游戏竞技场,评估AI模型决策能力,通过策略游戏竞赛建立排名,采用全员对抗形式确保评估公平性,支持开源促进透明度。

Kaggle 与 Google DeepMind 合作推出 Kaggle 游戏竞技场,这是一个通过策略游戏评估人工智能模型性能的平台。该系统提供了一个受控环境,让模型能够直接相互竞争。每场比赛都遵循所选游戏的规则,比赛结果被记录下来以建立排名。为了确保公平评估,平台采用了全员对抗的形式,即每个模型都要与其他所有模型多次对决。这减少了随机结果的影响,从而产生统计上可靠的结果。

游戏竞技场依赖于开源组件。无论是游戏运行的环境还是执行规则并连接模型到游戏的软件模块都是公开可用的。这种设计允许开发者和研究人员检查、重现或扩展系统。

初始阵容包括八个领先的 AI 模型:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini 以及 xAI 的 Grok 4。

与通常测试模型在语言任务、图像分类或编程挑战上的其他 AI 基准测试平台不同,Kaggle 游戏竞技场将关注点转向了规则和约束下的决策能力。象棋和其他计划中的游戏强调推理、规划和竞争适应性,为现有的侧重静态输出的排行榜提供了补充衡量指标。

研究者评论称,这类基准测试有助于识别 AI 系统在传统数据集之外的优势和劣势。有人指出,游戏提供了一种可重复且透明的方式测量性能,但也有人对这些受控环境与现实世界决策之间的接近程度提出了疑问。

AI 爱好者 Sebastian Zabala 发帖称:“……”AI 传道者 Koho Okada 分享道:“……”Kaggle 用户 Sourabh Joshi 补充道:“……”

据 Kaggle 和 DeepMind 称,目标不仅限于象棋。随着时间的推移,平台将扩展到涵盖包括桌面游戏、纸牌游戏和数字游戏在内的多种游戏,这些游戏将测试战略推理的不同方面,例如长期规划和适应不确定条件的能力。

通过标准化比赛结构,Kaggle 游戏竞技场为比较 AI 模型在超越语言和模式识别方面的技能提供了基准,重点在于竞争场景中的决策能力。

(以上内容均由Ai生成)

你可能还想读

阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

快速阅读: 12月8日消息,阿里巴巴推出通义千问Qwen3-TTS语音合成模型,支持49种音色、10种语言及9种方言,免费开放每月百万字符额度,并在上海120所中小学试点教育应用。 今日,阿里巴巴正式推出通义千问Qwen3系列新成员——Qw […]

发布时间:2025年12月8日
京东云JoyBuilder千卡训练提速3.5倍

京东云JoyBuilder千卡训练提速3.5倍

快速阅读: 12月8日消息,京东云JoyBuilder平台完成关键升级,支持GR00T N1.5千卡训练,兼容LeRobot框架,训练效率提升3.5倍,亿级数据训练从15小时缩短至22分钟。 日前,京东云JoyBuilder模型开发平台完成 […]

发布时间:2025年12月8日
麦肯锡:AI将取代8亿岗位,同时创造新机遇

麦肯锡:AI将取代8亿岗位,同时创造新机遇

快速阅读: 据麦肯锡全球研究院消息,到2030年全球或有8亿岗位被人工智能取代,同时创造1.3亿至2.3亿新岗位,冲击驾驶、物流、医疗、法律等多个行业,专家呼吁加强再培训与政策应对。 日前,人工智能技术快速发展引发全球关注。加州大学伯克利分 […]

发布时间:2025年12月8日
可灵AI上线主体库,角色跨场景“永不变脸”

可灵AI上线主体库,角色跨场景“永不变脸”

快速阅读: 12月8日消息,快手旗下可灵AI发布“主体库”,为O1视频模型新增长期记忆能力,用户上传单图即可跨场景调用一致角色,主体一致性超96%,并推分级服务与2025年多人功能规划。 今日,快手旗下可灵AI正式发布“主体库”(Subje […]

发布时间:2025年12月8日
n1n.ai 重塑大模型API成本与体验

n1n.ai 重塑大模型API成本与体验

快速阅读: 据最新消息,大模型API平台n1n.ai整合近500种开源与闭源模型,价格低至官方十分之一,响应快、稳定性高,已助企业降本超70%并提升用户满意度。 近日,大模型API服务平台n1n.ai凭借高性价比、高稳定性及丰富模型选择,正 […]

发布时间:2025年12月8日
台积电:十年先进制程功耗降76%

台积电:十年先进制程功耗降76%

快速阅读: 据台积电披露,其从2018年N7到2028年A14制程十年间功耗降低76%,能效提升4.2倍,并推进N3P制程与HBM4E内存集成,强化AI及高性能计算芯片效能。 台积电日前在2025年OIP生态系统论坛欧洲场披露,从2018年 […]

发布时间:2025年12月8日
美国科技未来需投资人才与科研

美国科技未来需投资人才与科研

快速阅读: 据最新消息,美国政府拟持股英特尔10%,以强化半导体战略,但专家强调需同步加大基础科研投入并解决STEM人才短缺,方能维系科技领先地位。 近日,美国政府宣布将持有英特尔公司10%的股权,引发广泛关注。此举被视为对本国半导体制造业 […]

发布时间:2025年12月8日
康宁押注AI数据中心光纤需求激增

康宁押注AI数据中心光纤需求激增

快速阅读: 据康宁公司介绍,AI数据中心加速转向光纤互联,单节点集成72颗GPU,布线长达两英里;因算力激增与带宽需求,光通信将推动AI硬件生态结构性变革,市场或扩至三倍。 近日,人工智能硬件基础设施加速升级,数据中心内部连接技术正经历重要 […]

发布时间:2025年12月8日