Frontier AI 模型被一个简单的儿童游戏难住了

发布时间：2025年6月13日来源：szf

快速阅读: 据《未来主义》称，苹果研究团队批评AI行业夸大顶级AI模型能力，指出GPT-4、Claude 3.7等在逻辑谜题中表现欠佳，暴露模型局限性。马库斯认同此观点，强调传统算法不可替代，呼吁理性看待AI应用。

苹果研究团队近日发表论文，指出包括GPT-4、Claude 3.7及Gemini在内的顶级AI模型在处理逻辑谜题时表现不佳，如汉诺塔游戏中的低准确率，质疑行业对AI“推理”能力的过度宣传。知名批评家马库斯支持该发现，强调传统算法的重要性，提醒社会对AI能力保持理性认知。

本周早些时候，苹果的研究人员发表了一篇尖锐的论文，批评人工智能行业对其顶级AI模型的推理或“思考”能力过度夸大的现象。研究团队发现，包括OpenAI的GPT-4、Anthropic的Claude 3.7以及谷歌的Gemini在内的模型，在面对最简单的谜题时也束手无策。例如，“大型推理模型”（LRMs）在经典的汉诺塔游戏中表现得十分糟糕。这个游戏包含三根柱子和若干大小不同的圆盘，要求玩家按照特定规则完成排列。研究人员指出，当游戏中有七个圆盘时，AI模型的准确率不足80%；而在涉及八个圆盘的更复杂谜题中，几乎毫无进展。此外，这些AI模型在积木世界、渡河问题等逻辑游戏中同样屡次失败，这些问题需要遵循多重限制条件来完成任务。

通过一系列广泛的实验，苹果的研究人员得出结论：“前沿的大型推理模型在超过一定复杂度后会出现全面的准确性崩溃。” 这一发现令人震惊，揭示了即便是最复杂的AI模型，在处理简单的逻辑谜题时依然存在显著短板，而这些模型的制造商却通过充满吸引力的营销手段，将它们描绘成超越实质的高科技产品。这种对公众的推广方式使用户误以为这些AI模型具备人类水平的能力，从而导致实际能力与预期能力之间产生了巨大鸿沟。这一发现进一步加剧了人们对当前AI方法的担忧，特别是那些依赖于将任务分解为单一步骤的“推理”型AI模型。尽管投入了数十亿美元的研发资金，这些方法仍被认为是错误的方向。更严重的是，随着问题复杂性的增加，这些缺陷会变得更加突出，这动摇了AI行业关于仅通过扩大模型训练数据便能使模型变得更聪明并具备“推理”能力的承诺。

知名AI批评家加里·马库斯对这项研究的发现并不感到意外。“在很多方面，这篇论文呼应并强化了我自1998年以来一直在阐述的观点，” 他在近期的一篇Substack文章中提到，指的是他26年前撰写的一篇论文。“各类神经网络能够在其接触的数据分布范围内进行泛化，但一旦超出此范围，泛化能力通常会失效。” 简而言之，被困在简单的儿童游戏中并非人们期待从被宣传为解决难题突破性成果甚至通向人工通用智能（AGI）或超级智能的第一步的AI模型身上看到的现象，这也是OpenAI明确追求的目标。“这不仅仅关乎‘解决’谜题的问题，” 共同第一作者兼苹果机器学习工程师伊曼·米尔扎德告诉马库斯。“我们有一个实验，我们将解决方案算法提供给模型，[模型仍然失败]……根据我们观察到的它们的思维方式，它们的过程既不逻辑也不智能。”

马库斯认为，大型语言和推理模型过于广泛地撒网，结果容易迷失方向。“苹果论文最根本地表明了，无论你如何定义AGI，这些引发如此多炒作的LLMs无法取代良好、明确的传统算法，” 他写道。“这对商业意味着你不能简单地将[OpenAI的LLM] GPT-3或Claude应用于某些复杂问题，” 批评者补充道。“这对社会意味着我们永远无法完全信赖生成式AI；其输出结果难以捉摸。” 虽然模型仍有许多有效的应用场景，“任何认为LLMs是直接通向能从根本上造福社会的AGI的人都是在自欺欺人，” 马库斯总结道。

更多关于论文的信息：苹果研究人员刚刚发布了一份严厉的论文，给整个AI行业泼了一盆冷水。转发此消息并将文中所有英文单词翻译成中文后，确保最终内容仅以中文呈现，装备名称、人名地名、公司名称均需翻译成中文，最后将语句润色，使其更加通顺流畅，同时注意段落划分，让整体格式看起来更美观，除此之外，不作任何额外解释。

(以上内容均由Ai生成)