思考“思考的错觉”——为什么 Apple 有道理（读者论坛）

快速阅读: 据《RCR 无线》称，苹果论文称现有AI语言模型仅模拟推理而非真实推理，反驳者虽提出质疑，但主要依赖个例与假设而非严谨论证。论文指出，即便在复杂任务中，AI常表现出“放弃努力”的倾向，其表现依赖记忆而非灵活推理。这仍是AI领域需正视的重要议题。

在过去几天里，苹果公司发表了一篇题为《思考的错觉》的论文，引发了人工智能领域的热烈讨论。论文的核心主张直截了当：当下主流的语言模型实际上并不具备真正的推理能力。相反，这些模型只是通过模拟推理的表象来误导人们，而当复杂性提升时，其逻辑漏洞便会逐渐显现。

这篇论文一发布，便引来了一篇反驳文章——题为《思考的错觉的错觉》。署名“C.奥普斯”是对Anthropic公司Claude Ops模型的致敬，同时也有亚历克斯·劳森的名字，他曾以玩笑形式在arXiv分发服务上分享这一内容，结果意外走红，被广泛传播。不论这是否只是一个玩笑，LLM是否真能驳倒苹果的论点？答案显然是否定的。苹果展示了什么？——玛丽亚·苏哈列娃的观点苹果团队试图探究AI模型是否能够真正进行推理，抑或只是基于记忆的实例来模仿解决问题的过程。为此，团队设计了一系列任务，这些任务的复杂度可以通过可控的方式逐步增加：汉诺塔中增加更多盘子，跳棋中增加更多棋子，过河问题中增加更多角色，世界块中增加更多积木。假设很简单：如果一个模型已经掌握了解决简单情况的能力，那么它应该能够将相同的原则应用于更复杂的案例中，尤其是当计算资源和上下文长度依然充足时。但事实并非如此。苹果的研究发现，即使在操作范围之内，模型也无法应对挑战。相反，在复杂性增加时，它们生成的内容变得更加简短且缺乏结构。这表明了一种“放弃努力”的现象，而非积极应对硬约束。更有说服力的是，研究发现模型往往在需要更多努力时减少其推理的努力。作为进一步的证据，苹果引用了2024年和2025年的美国数学邀请赛（AIME）基准问题，这是一个面向顶尖高中生的著名美国数学竞赛。尽管人类的表现逐年提高，但对于未见过的2025年批次，模型得分却下降了——这支持了人工智能的成功仍然严重依赖于记忆模式的观点，而不是灵活的问题解决能力。

克劳德的失败之处反驳的关键在于语言模型在响应过程中并非因无法推理而中断，而是因为它们“知道”输出会变得太长。一个例子显示模型在解决方案中途停止，并附带了带有自我意识的评论：“模式继续，但为了避免让它太长，我会在这里停下来。”这被呈现为模型理解任务但选择简洁的证据。然而，即便如此，这也仅仅是一个案例——来自单一社交媒体帖子，并且需要做出巨大的推断跳跃。甚至最初发布这个例子的工程师也不完全认同反驳的结论。他们指出更高的生成随机性（“温度”）会导致累积错误，尤其是在较长序列中——因此提前停止可能不是表示理解，而是为了避免熵。反驳还采用了概率框架：解决方案中的每一步都像抛硬币一样，最终即使是小的每令牌错误率也会使长序列脱轨。但推理不仅仅是概率生成；它是模式识别和抽象。一旦模型识别出解决方案结构，后续步骤不应是独立猜测——它们应是演绎得出的。反驳并未考虑这一点。但反驳真正的失误在于它认为如果提示生成代码，模型就可以成功。但这完全偏离了重点。苹果的目标并非检验模型能否检索预设算法；而是在评估它们自己通过问题结构进行推理的能力。如果一个模型通过简单地识别应该调用或生成特定工具或代码片段来解决问题，那么它实际上并没有推理——它只是回忆解决方案或模式。换句话说，如果一个人工智能模型看到汉诺塔难题并输出之前“见过”的Lua代码，它只是将问题匹配到已知模板并检索相应的工具。它不是通过问题进行“思考”；它只是复杂的库查找。

这让我们处于何处诚然，苹果的论文并非毫无瑕疵。它对过河问题的处理存在不足。一旦加入足够多的人，问题就变得无法解决。然而苹果的基准将“无解”回应标记为错误。这是一个错误。但问题是，模型的表现早已在问题变得无法解决之前崩溃了——这表明下降发生在理性边缘之外，很久以前。总之，反驳的回答，无论是人工智能辅助还是人工智能生成的，都提出了重要的问题，尤其是在评估方法和模型自我意识方面。但反驳更多依赖个例和假设框架，而不是严格的反证。苹果最初的主张——当前模型只是模拟推理而未实现扩展——仍然基本成立。而且这并不是新的；数据科学家们早就说过这一点。当然，当像苹果这样的大公司支持主流科学时，总是有帮助的。苹果的论文有时听起来很挑衅——仅在标题上。但它的分析是深思熟虑且有充分依据的。它揭示的是人工智能社区必须面对的一个真相：推理不仅仅是令牌生成，如果没有更深的架构转变，今天的模型可能会陷入这种思考的错觉之中。

总之，反驳的回答，无论是人工智能辅助还是人工智能生成的，都提出了重要的问题，尤其是在评估方法和模型自我意识方面。但反驳更多依赖个例和假设框架，而不是严格的反证。苹果最初的主张——当前模型只是模拟推理而未实现扩展——仍然基本成立。而且这并不是新的；数据科学家们早就说过这一点。玛丽亚·苏哈列娃在人工智能领域工作了15年——在人工智能模型训练和产品管理方面。她是西门子的人工智能首席关键专家。上述观点仅代表她本人，而非她的雇主。她的Substack博客页面在这里；她的网站在这里。

(以上内容均由Ai生成)