Frontier AI 模型被一个简单的儿童游戏难住了

发布时间:2025年6月13日    来源:szf
Frontier AI 模型被一个简单的儿童游戏难住了

快速阅读: 据《未来主义》称,苹果研究团队批评AI行业夸大顶级AI模型能力,指出GPT-4、Claude 3.7等在逻辑谜题中表现欠佳,暴露模型局限性。马库斯认同此观点,强调传统算法不可替代,呼吁理性看待AI应用。

苹果研究团队近日发表论文,指出包括GPT-4、Claude 3.7及Gemini在内的顶级AI模型在处理逻辑谜题时表现不佳,如汉诺塔游戏中的低准确率,质疑行业对AI“推理”能力的过度宣传。知名批评家马库斯支持该发现,强调传统算法的重要性,提醒社会对AI能力保持理性认知。

本周早些时候,苹果的研究人员发表了一篇尖锐的论文,批评人工智能行业对其顶级AI模型的推理或“思考”能力过度夸大的现象。研究团队发现,包括OpenAI的GPT-4、Anthropic的Claude 3.7以及谷歌的Gemini在内的模型,在面对最简单的谜题时也束手无策。例如,“大型推理模型”(LRMs)在经典的汉诺塔游戏中表现得十分糟糕。这个游戏包含三根柱子和若干大小不同的圆盘,要求玩家按照特定规则完成排列。研究人员指出,当游戏中有七个圆盘时,AI模型的准确率不足80%;而在涉及八个圆盘的更复杂谜题中,几乎毫无进展。此外,这些AI模型在积木世界、渡河问题等逻辑游戏中同样屡次失败,这些问题需要遵循多重限制条件来完成任务。

通过一系列广泛的实验,苹果的研究人员得出结论:“前沿的大型推理模型在超过一定复杂度后会出现全面的准确性崩溃。” 这一发现令人震惊,揭示了即便是最复杂的AI模型,在处理简单的逻辑谜题时依然存在显著短板,而这些模型的制造商却通过充满吸引力的营销手段,将它们描绘成超越实质的高科技产品。这种对公众的推广方式使用户误以为这些AI模型具备人类水平的能力,从而导致实际能力与预期能力之间产生了巨大鸿沟。这一发现进一步加剧了人们对当前AI方法的担忧,特别是那些依赖于将任务分解为单一步骤的“推理”型AI模型。尽管投入了数十亿美元的研发资金,这些方法仍被认为是错误的方向。更严重的是,随着问题复杂性的增加,这些缺陷会变得更加突出,这动摇了AI行业关于仅通过扩大模型训练数据便能使模型变得更聪明并具备“推理”能力的承诺。

知名AI批评家加里·马库斯对这项研究的发现并不感到意外。“在很多方面,这篇论文呼应并强化了我自1998年以来一直在阐述的观点,” 他在近期的一篇Substack文章中提到,指的是他26年前撰写的一篇论文。“各类神经网络能够在其接触的数据分布范围内进行泛化,但一旦超出此范围,泛化能力通常会失效。” 简而言之,被困在简单的儿童游戏中并非人们期待从被宣传为解决难题突破性成果甚至通向人工通用智能(AGI)或超级智能的第一步的AI模型身上看到的现象,这也是OpenAI明确追求的目标。“这不仅仅关乎‘解决’谜题的问题,” 共同第一作者兼苹果机器学习工程师伊曼·米尔扎德告诉马库斯。“我们有一个实验,我们将解决方案算法提供给模型,[模型仍然失败]……根据我们观察到的它们的思维方式,它们的过程既不逻辑也不智能。”

马库斯认为,大型语言和推理模型过于广泛地撒网,结果容易迷失方向。“苹果论文最根本地表明了,无论你如何定义AGI,这些引发如此多炒作的LLMs无法取代良好、明确的传统算法,” 他写道。“这对商业意味着你不能简单地将[OpenAI的LLM] GPT-3或Claude应用于某些复杂问题,” 批评者补充道。“这对社会意味着我们永远无法完全信赖生成式AI;其输出结果难以捉摸。” 虽然模型仍有许多有效的应用场景,“任何认为LLMs是直接通向能从根本上造福社会的AGI的人都是在自欺欺人,” 马库斯总结道。

更多关于论文的信息:苹果研究人员刚刚发布了一份严厉的论文,给整个AI行业泼了一盆冷水。转发此消息并将文中所有英文单词翻译成中文后,确保最终内容仅以中文呈现,装备名称、人名地名、公司名称均需翻译成中文,最后将语句润色,使其更加通顺流畅,同时注意段落划分,让整体格式看起来更美观,除此之外,不作任何额外解释。

(以上内容均由Ai生成)

你可能还想读

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

快速阅读: 国星宇航与北京邮电大学共建语义卫星联合实验室,聚焦语义卫星星座建设等关键技术,加速太空AI技术转化与应用落地,推动6G通信发展。 IT之家 10 月 22 日消息, 国星宇航今日宣布,将携手北京邮电大学共建语义卫星联合实验室 。 […]

发布时间:2025年10月23日
贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

快速阅读: 贝索斯提出在太空中建立数据中心的构想,利用不间断太阳能解决能源问题,但面临高昂的发射和维护成本及技术挑战。 贝索斯设想在地球大气层外利用持续阳光建立轨道数据中心。该计划承诺提供无限能源,不受云层和天气干扰的影响。然而,发射和维护 […]

发布时间:2025年10月11日
克瑞托斯庆祝Oriole火箭25年辉煌成就

克瑞托斯庆祝Oriole火箭25年辉煌成就

快速阅读: Kratos开发的Oriole火箭因2012年推出的TVC系统而性能大幅提升,完成多次高精度任务,支持全球多地点发射,助力高超音速研究,至今累计140次成功发射,确立行业领先地位。 Oriole的成功之旅因Kratos在2012 […]

发布时间:2025年10月11日
国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

快速阅读: 北京邮电大学研发的“卫星互联网防火墙”安全载荷成功发射,实现物理层与网络层协同防护,具备10Gbps高并发流量检测能力,为卫星互联网安全提供重要保障。 感谢IT之家网友 tellMe 的线索投递! IT之家 9 月 19 日消息 […]

发布时间:2025年9月19日
ICEYE推出战术级太空情报系统ISR Cell

ICEYE推出战术级太空情报系统ISR Cell

快速阅读: ICEYE推出ISR Cell集装箱系统,使国防组织能现场获取近乎实时的太空ISR数据,加速高风险环境决策。系统已验证,提供更快、更可靠的情报,覆盖各决策层。预计2026年初交付,扩展军事客户基础。 美国加利福尼亚州洛杉矶(SP […]

发布时间:2025年9月13日
深学环形塑形技术助力天文观测,深化宇宙理解

深学环形塑形技术助力天文观测,深化宇宙理解

快速阅读: 科研团队开发的深度环路整形技术,显著提升了LIGO引力波观测站的控制精度和稳定性,降低了噪声水平,有助于天文学家更准确地研究宇宙动力学和形成过程,开启了下一代引力波科学的大门。 我们新开发的深度环路整形技术改进了引力波观测站的控 […]

发布时间:2025年9月5日
月球探索新突破!AI 助力撞击坑研究,效率提升惊人

月球探索新突破!AI 助力撞击坑研究,效率提升惊人

快速阅读: 中国科学院地球化学研究所发布“月球科学多模态专业大模型V2.0”,大幅提升月球地质研究效率,未来将向全球开放“数字月球”云平台。 在全球科技迅速发展的今天,中国科学家正借助人工智能的力量,推动月球科学研究的新进展。近日,在202 […]

发布时间:2025年9月1日
我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

快速阅读: 中国将与阿联酋、约旦、埃及等国合作,共建气象卫星数据应用中心,研发灾害早期预警系统,开发气象人工智能模型,提升阿拉伯地区灾害性天气预报能力。 IT之家 8 月 29 日消息,据央视报道,我国将与阿联酋、约旦以及埃及等国家共同开展 […]

发布时间:2025年8月29日