OpenAI o3力压群雄,40轮激战夺冠,人类棋手地位受挑战

发布时间:2025年8月24日    来源:szf
OpenAI o3力压群雄,40轮激战夺冠,人类棋手地位受挑战

快速阅读: Kaggle举办AI国际象棋比赛,OpenAI o3以1685分领先,Grok 4和Gemini 2.5 Pro紧随其后,DeepSeek R1等并列第五。比赛旨在检验模型战略推理能力,提供AI发展参考。

Kaggle Game Arena举办国际象棋积分赛后,OpenAI o3以人类等效Elo 1685分的成绩领先,Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。

经过40轮激烈角逐,国际象棋AI仅凭文本输入的结果出炉。各AI模型在无工具、无验证器的情况下展开对决。每组配对进行了40场比赛,形成类似于围棋等项目的Elo排名。

OpenAI o3独占鳌头,Grok和Gemini位列第二。第一名OpenAI o3的人类等效Elo评分为1685分,远低于人类大师2200分的水平;第二名Grok 4的人类等效Elo评分为1395分;第三名Gemini 2.5 Pro的人类等效Elo评分为1343分。DeepSeek R1、GPT-4.1、Claude Sonnet-4和Claude Opus-4并列第五。

Kaggle首次举办的AI国际象棋比赛,OpenAI o3最终夺冠,证明了其实力。此前,Kaggle曾举办过一场AI国际象棋表演赛,展示了o3、Grok 4、Gemini 2.5、DeepSeek R1等通用模型在国际象棋方面的能力。这些模型进步显著,观众从中获得不少乐趣,例如发现大语言模型特别偏好西西里防御开局。

然而,四局三胜的淘汰赛存在较大偶然性,无法准确衡量模型的真实水平。为此,Kaggle正式发布了Game Arena平台上的国际象棋文本排行榜。该排行榜是一个严格的AI基准测试平台,前沿的大语言模型在此竞技,全面检验它们的战略推理、规划、适应和协作能力。

排行榜基于所有参赛模型之间的循环赛结果,每对模型进行20场白棋和20场黑棋的对决,总计40场比赛。参赛模型不仅包括上周表演赛的8个模型,还增加了更多模型,以提供更全面、更可靠的评估结果。Game Arena的Elo分数采用标准的Bradley-Terry算法计算,通过与不同等级的国际象棋Stockfish引擎对弈,估算模型的人类等效Elo评分。

尽管这些模型表现出色,但与顶级人类棋手相比仍有较大差距。人类“大师”级棋手的评分为2200分或以上,“特级大师”为2500分或以上,而最强版本的Stockfish引擎估计的人类Elo评分为3644分。

除了Elo分数,排行榜还增加了“平均每回合Token数”和“平均每回合成本”等指标,以反映模型在性能和效率之间的平衡。排行榜存在一些限制,例如仅限于国际象棋、严格的超时限制以及抽样随机性等问题。Kaggle将通过引入更多游戏来缓解这些问题。

用户可以在Kaggle的YouTube播放列表中观看带解说的表演赛,排行榜上也提供了更多对局回放。点击模型旁边的回放图标,选择想要观看的对局即可。此外,Kaggle还发布了一个包含可移植棋谱(PGN)和模型公开推理过程的数据集,旨在评估和比较当今通用语言模型的战略推理能力。

Kaggle认为,国际象棋文本输入测试具有重要意义,能够超越数据污染问题、检验模型在高压环境下的表现,并为通用人工智能的发展提供有价值参考。Kaggle计划定期将新模型加入国际象棋文本排行榜及其他Game Arena排行榜,以跟踪AI模型在战略规划、推理和其他认知能力方面的进步。未来,Game Arena将推出更多游戏的排行榜,为AI模型的能力评估提供更全面的基准。今天的国际象棋文本排行榜只是第一步。

(以上内容均由Ai生成)

你可能还想读

Snapchat免费开放“Imagine Lens”,AI图像生成全民可用

Snapchat免费开放“Imagine Lens”,AI图像生成全民可用

快速阅读: Snapchat宣布其AI工具“Imagine Lens”免费开放给所有用户,旨在对抗Meta AI和OpenAI的竞争,支持用户通过文本提示生成个性化图像,功能现已在美国上线,并计划扩展至更多国家。 Snapchat正式宣布, […]

发布时间:2025年10月23日
昆仑万维SkyReels全新版11月初上线,推动AI视频创作平民化

昆仑万维SkyReels全新版11月初上线,推动AI视频创作平民化

快速阅读: 昆仑万维AI视频产品SkyReels全新版本11月初上线,巩固其全球领先位置,推动全民视频创作。产品涵盖长视频生成、角色一致性等技术,已开源多个SOTA模型,促进AI视频创作平民化。 昆仑万维的AI视频产品SkyReels宣布, […]

发布时间:2025年10月23日
LiblibAI获1.3亿美元融资,成国内最大AI应用投资

LiblibAI获1.3亿美元融资,成国内最大AI应用投资

快速阅读: LiblibAI完成1.3亿美元B轮融资,由红杉中国等领投,成为国内AI应用领域最大融资。公司以多模态模型和创作社区为核心,已孵化超2000万AI创作者,计划加速全球化布局,推出2.0版“AI专业创作工作室”。 据Z Poten […]

发布时间:2025年10月23日
苹果MIND团队加速招聘,应对AI模型推理缺陷

苹果MIND团队加速招聘,应对AI模型推理缺陷

快速阅读: 苹果因最新研究揭示大型推理模型缺陷,正加快招聘AI领域高级人才。西雅图MIND团队招募专家,目标开发更准确高效的LLM和VLM架构,解决现有AI模型局限,推进下一代AI技术。 在苹果公司最近发布一项引发广泛讨论的研究,揭示当前大 […]

发布时间:2025年10月23日
Meta裁撤600人重塑AI架构,扎克伯格力挺新战略

Meta裁撤600人重塑AI架构,扎克伯格力挺新战略

快速阅读: Meta调整AI部门,计划裁员约600人,旨在减少官僚、加速决策。新成立的TBD Lab不受影响并将扩张,CEO扎克伯格支持AI主管Wang的策略。此次变动背景为内部关系紧张,部分科学家与管理层存分歧。 Meta公司正在对其人工 […]

发布时间:2025年10月23日
阿里“C计划”首发:夸克对话助手抢占AI市场

阿里“C计划”首发:夸克对话助手抢占AI市场

快速阅读: 阿里巴巴推出夸克App对话助手,采用Qwen最新闭源模型,集成问答、搜索、拍照搜题等功能,月活用户超1.5亿,主打25岁以下年轻市场,为阿里“C计划”首秀。 阿里巴巴“C计划”的 首款 产品近日正式揭晓,即夸克App上线的对话助 […]

发布时间:2025年10月23日
火山引擎发布Seedance1.0pro,首尾帧能力提升AI视频创作水平

火山引擎发布Seedance1.0pro,首尾帧能力提升AI视频创作水平

快速阅读: 火山引擎上线豆包视频生成模型1.0pro,提升AI视频创作的可控性和一致性,支持复杂场景和大幅运动的真实物理呈现,为企业和个人用户提供强大工具。 火山引擎正式上线了豆包视频生成模型1.0pro(Doubao-Seedance-1 […]

发布时间:2025年10月23日
生数科技Vidu Q2视频大模型API全面开放接入

生数科技Vidu Q2视频大模型API全面开放接入

快速阅读: 生数科技宣布Vidu Q2视频大模型API全面开放,该技术在广告、商品展示等领域展现独特价值,通过精细的表情生成技术提升视频的情感表现力,增强用户转化率。 近日,生数科技正式宣布 Vidu Q2参考生视频大模型 API 全面开放 […]

发布时间:2025年10月23日