AI 真的会思考吗？研究揭示了逻辑执行方面的差距

快速阅读: 据《AZoAI》最新报道，尽管大型语言模型（LLMs）在规划和构建解决问题的方法方面表现出色，但在执行复杂推理任务时仍面临挑战，特别是在算术和事实核查方面。研究表明，LLMs在元推理（高层次战略思考）方面表现良好，但在对象推理（如数值计算和事实检索）方面存在显著不足。这一发现强调了改进模型在执行阶段能力的重要性。

审阅：乔尔·斯坎伦 2025年2月17日

尽管人工智能模型能够将问题分解成结构化的步骤，但新的研究揭示它们在基础算术和事实核查方面仍然失败，这引发了对其实际推理能力的质疑。研究：《问答中大型语言模型的元推理和对象推理评估》。图片来源：Summit Art Creations / Shutterstock

**重要通知**：arXiv发布初步科学报告，这些报告未经同行评审，因此不应被视为最终结论，不应用于指导开发决策，也不应被视为人工智能研究领域的权威信息。

大型语言模型（LLMs）已经成为自然语言处理领域不可或缺的一部分，在情感分析、阅读理解和回答事实性问题等方面表现出色。然而，它们在复杂、多步骤推理方面的表现仍然是一个重大挑战，尤其是在需要逻辑推理而非简单记忆的问题回答任务中。这项由爱丁堡大学和Aveni的研究人员尼克·弗格森、莉安·吉鲁、阿兰·邦迪和夸贝纳·努马赫共同完成的研究，探讨了LLMs在两种不同推理类型中的参与程度：元推理和对象推理。

理解元推理和对象推理

元推理涉及高层次的战略思考，包括问题分解和制定解决问题所需的中间步骤。对象推理则指执行这些步骤，比如进行数学计算、检索具体事实或应用符号逻辑。为了评估LLMs在这两个领域的表现，作者引入了FRANKLIN数据集，该数据集明确要求模型参与这两种推理类型。FRANKLIN数据集受FRANK系统启发，该系统是一个用于问答的符号推理框架，并专注于人口趋势、经济指标和地区比较等地理政治指标。

除了三个已建立的多步骤问答数据集外，FRANKLIN还用作测试四个特定LLM版本性能的基准：Meta的Llama 3.1 8B、微软的Phi 3.5 Mini、谷歌的Gemma 2 9B和OpenAI的GPT-4o-mini。

通过两项人类注释研究，研究人员评估了LLMs能否成功生成有理据的回答，以及在执行答案前先规划其答案是否能提升其表现。

理解元推理和对象推理

LLMs如何处理推理任务

研究将其分析置于LLMs推理任务的更广泛背景中。作为一种认知功能，推理包括逻辑推理、信念修正和推理制作。常识推理需要理解日常概念并推断隐含知识的能力。数学推理要求数值运算和逻辑问题解决，而符号推理涉及基于规则的操作，如模拟形式逻辑或推导抽象实体间的关系。多步骤推理尤为重要，因为它需要顺序应用推理过程以得出最终答案。尽管有所进展，LLMs在这些任务中往往遇到困难，因为它们依赖于统计模式匹配而非真正的逻辑演绎。

现有技术试图改善LLMs在推理任务上的表现。微调涉及在特定领域的数据集上进行额外训练，以提高特定任务的准确性，而提示技术如思维链（CoT）则将显式的推理步骤引入模型响应。这些方法已显示出改进，但仍有人质疑LLMs是否真的在推理，还是只是模仿从训练数据中学习到的结构化思维模式。

作者提出了一种更结构化的LLM推理分类，区分元推理和对象推理过程。虽然元推理涉及计划、选择相关知识来源并确定解决问题所需的步骤，对象推理则侧重于准确执行，包括事实检索、数值精度和逻辑推理。

FRANKLIN数据集：LLMs的新挑战

为了评估这些推理类型，研究引入了FRANKLIN数据集，该数据集受FRANK系统启发，采用显式符号推理解决复杂问题。FRANKLIN数据集包括需要对未来预测、地区比较、历史趋势和预测的情景。每个问题都附有一个详细的解释，概述必要的推理步骤。这个数据集对LLMs提出了重大挑战，因为它不仅要求它们确定回答问题的适当策略，还要准确检索和操作数据。

LLMs如何被评估：两项人类注释研究

评估设计包括两项人类注释研究。在第一项研究中，LLMs被提示直接回答问题，以便评估其对象推理能力。在第二项研究中，模型首先被要求生成计划，然后执行其推理步骤，测试其元推理技能。参与者根据其连贯性、正确性和结构化推理的存在来评分。研究还引入了三项关键评估指标：回答失败率（AFR）——LLM未能尝试作答的案例百分比。理性方法率（RAR）——概述连贯问题解决方法的响应比例。计划创建率（PCR）——以清晰、逐步的方式组织其推理的响应百分比。

结果显示，LLMs在这两种推理水平上的表现存在明显差异。主要发现：元推理强项，对象推理弱点

在所有数据集中，LLMs在元推理方面始终表现出色。响应通常包含结构化的逐步解释，人类注释者认为这些解释是合理且可解读的。即使对于FRANKLIN中的复杂问题，模型也展示了将其问题分解为中间步骤并制定解决问题计划的能力。然而，尽管这些响应看起来结构化，但研究对它们是否代表真正的推理或仅仅是模仿学习模式表示担忧。

相比之下，LLMs在对象推理方面显著挣扎。对象推理失败频繁，尤其是在问题需要数值精度或事实回忆时。例如，在FRANKLIN中，模型经常编造数值数据、提供错误值或犯基本算术错误。即使模型成功识别出正确的推理路径，它们也常常无法准确进行计算或事实检索。

错误模式包括：编造数值数据（例如引用不存在的来源）。检索不准确或不精确的信息（例如错误地四舍五入值）。执行错误的计算（即使是简单的算术运算）。

对错误的更深入分析突显了这些失败的本质。一些响应包含完全编造的数据，其中模型引用了不存在的来源或发明了统计数据。其他响应检索的信息精度降低，四舍五入值或省略了进行准确比较所需的关键细节。在数学任务中，模型经常产生错误的计算，即使是简单的操作也是如此。

这些发现表明，虽然LLMs可以以看似合乎逻辑的方式构建其响应，但在需要对象推理的领域中，它们缺乏可靠生成正确答案所需的稳健执行能力。

对LLM发展的启示

这些发现对LLM的发展具有重要意义。虽然提示模型参与元推理可以提高其表达连贯策略的能力，但这并不能解决其在对象推理方面的不足。这意味着未来的进步必须集中在整合外部符号推理组件、改进事实检索机制以及完善数值处理能力上。FRANKLIN数据集作为一个关键基准，证明即使模型具有强大的问题分解技能，在执行方面仍存在问题。

结论：AI推理的前进之路

总之，这项研究强调了LLMs推理能力的一个关键区别。虽然它们可以有效地规划和构建解决问题的方法，但在执行复杂推理任务方面仍然有限。研究结果强调，LLMs擅长模仿推理结构，但不一定以人类认知的方式进行推理。FRANKLIN的引入提供了一种新的评估手段，为未来进一步研究提高LLM在多步问答中的表现奠定了基础。结果强调了继续改进LLMs处理对象推理的重要性，确保未来的迭代能够超越表面模仿，迈向真正的认知推理能力。

期刊参考：初步科学报告。
Ferguson, N., Guillou, L., Bundy, A., & Nuamah, K. (2025). 《问答中大型语言模型的元推理和对象推理评估》。ArXiv。

(以上内容均由Ai生成)