为什么 GPT 不能像我们一样思考
快速阅读: 据《科学日报》最新报道,类比推理涉及通过比较不同事物的相似性来理解和做决策。研究表明,尽管GPT模型在标准类比测试中表现良好,但在变化条件下,如数字位置改变或故事元素重写时,其表现不如人类。这表明AI更多依赖模式匹配而非深入理解,强调了AI在复杂推理任务中的局限性。研究者指出,这为教育、法律和医疗等领域的人工智能应用敲响了警钟。
类比推理是指根据两个不同事物在某些方面的相似性进行比较的能力。这是人们理解和做决定世界的一种常见方法。类比推理的一个例子:杯子之于咖啡如同碗之于(答案是:汤)。像GPT-4这样的大型语言模型在各种测试中表现出色,包括那些需要类比推理的测试。但人工智能模型能否真正进行广泛的、稳健的推理,还是过度依赖其训练数据中的模式?由语言和人工智能专家玛莎·刘易斯(阿姆斯特丹大学逻辑、语言与计算研究所)和梅兰妮·米切尔(圣塔菲研究所)进行的一项研究探讨了GPT模型是否像人类一样在类比方面具有灵活性和稳健性。“这至关重要,因为人工智能越来越多地用于现实世界的决策和问题解决,”刘易斯解释道。
将人工智能模型与人类表现进行比较
刘易斯和米切尔比较了人类和GPT模型在三种不同类型类比问题上的表现:字母序列——识别字母序列中的模式并正确完成。数字矩阵——分析数字模式并确定缺失的数字。故事类比——理解哪两个故事最符合给定示例故事。故事类比
一个真正理解类比的系统应该即使在变化的情况下也能保持高性能。该研究还考察了GPT模型在问题被微妙修改时的表现。“一个真正理解类比的系统应该即使在这些变化下也能保持高绩效,”作者在其文章中表示。
GPT模型在稳健性上存在不足
在大多数修改版本的问题上,人类保持了高水平的性能,而GPT模型虽然在标准类比问题上表现良好,但在变化面前却遇到了困难。“这表明人工智能模型往往比人类缺乏灵活性,它们的推理更多的是基于模式匹配而非真正的抽象理解,”刘易斯解释道。在数字矩阵中,当缺失数字的位置发生变化时,GPT模型的表现明显下降。人类对此没有困难。在故事类比中,GPT-4更倾向于选择第一个给出的答案作为正确答案,而人类不会受答案顺序的影响。此外,当故事的关键元素被重写时,GPT-4比人类更难处理,这表明它依赖于表面相似性而不是深层因果推理。在较简单的类比任务上,GPT模型在测试修改版本时表现下降,而人类则保持一致。然而,在更复杂的类比推理任务上,人类和AI的表现都不理想。
弱于人类认知
这项研究挑战了普遍认为像GPT-4这样的AI模型可以像人类一样推理的假设。“尽管GPT模型展示了令人印象深刻的能力,但这并不意味着它们真正理解自己在做什么,”刘易斯和米切尔总结道。“它们在跨变体泛化方面的能力仍然远逊于人类认知。GPT模型通常依赖于表面模式而非深刻理解。”这对于教育、法律和医疗等重要决策领域的AI使用是一个重要的警告。人工智能可以成为一个强大的工具,但它还不是替代人类思考和推理的替代品。
(以上内容均由Ai生成)