AI 真的会思考吗?研究揭示了逻辑执行方面的差距
快速阅读: 据《AZoAI》最新报道,尽管大型语言模型(LLMs)在规划和构建解决问题的方法方面表现出色,但在执行复杂推理任务时仍面临挑战,特别是在算术和事实核查方面。研究表明,LLMs在元推理(高层次战略思考)方面表现良好,但在对象推理(如数值计算和事实检索)方面存在显著不足。这一发现强调了改进模型在执行阶段能力的重要性。
审阅:乔尔·斯坎伦 2025年2月17日
尽管人工智能模型能够将问题分解成结构化的步骤,但新的研究揭示它们在基础算术和事实核查方面仍然失败,这引发了对其实际推理能力的质疑。研究:《问答中大型语言模型的元推理和对象推理评估》。图片来源:Summit Art Creations / Shutterstock
**重要通知**:arXiv发布初步科学报告,这些报告未经同行评审,因此不应被视为最终结论,不应用于指导开发决策,也不应被视为人工智能研究领域的权威信息。
大型语言模型(LLMs)已经成为自然语言处理领域不可或缺的一部分,在情感分析、阅读理解和回答事实性问题等方面表现出色。然而,它们在复杂、多步骤推理方面的表现仍然是一个重大挑战,尤其是在需要逻辑推理而非简单记忆的问题回答任务中。这项由爱丁堡大学和Aveni的研究人员尼克·弗格森、莉安·吉鲁、阿兰·邦迪和夸贝纳·努马赫共同完成的研究,探讨了LLMs在两种不同推理类型中的参与程度:元推理和对象推理。
理解元推理和对象推理
元推理涉及高层次的战略思考,包括问题分解和制定解决问题所需的中间步骤。对象推理则指执行这些步骤,比如进行数学计算、检索具体事实或应用符号逻辑。为了评估LLMs在这两个领域的表现,作者引入了FRANKLIN数据集,该数据集明确要求模型参与这两种推理类型。FRANKLIN数据集受FRANK系统启发,该系统是一个用于问答的符号推理框架,并专注于人口趋势、经济指标和地区比较等地理政治指标。
除了三个已建立的多步骤问答数据集外,FRANKLIN还用作测试四个特定LLM版本性能的基准:Meta的Llama 3.1 8B、微软的Phi 3.5 Mini、谷歌的Gemma 2 9B和OpenAI的GPT-4o-mini。
通过两项人类注释研究,研究人员评估了LLMs能否成功生成有理据的回答,以及在执行答案前先规划其答案是否能提升其表现。
理解元推理和对象推理
LLMs如何处理推理任务
研究将其分析置于LLMs推理任务的更广泛背景中。作为一种认知功能,推理包括逻辑推理、信念修正和推理制作。常识推理需要理解日常概念并推断隐含知识的能力。数学推理要求数值运算和逻辑问题解决,而符号推理涉及基于规则的操作,如模拟形式逻辑或推导抽象实体间的关系。多步骤推理尤为重要,因为它需要顺序应用推理过程以得出最终答案。尽管有所进展,LLMs在这些任务中往往遇到困难,因为它们依赖于统计模式匹配而非真正的逻辑演绎。
现有技术试图改善LLMs在推理任务上的表现。微调涉及在特定领域的数据集上进行额外训练,以提高特定任务的准确性,而提示技术如思维链(CoT)则将显式的推理步骤引入模型响应。这些方法已显示出改进,但仍有人质疑LLMs是否真的在推理,还是只是模仿从训练数据中学习到的结构化思维模式。
作者提出了一种更结构化的LLM推理分类,区分元推理和对象推理过程。虽然元推理涉及计划、选择相关知识来源并确定解决问题所需的步骤,对象推理则侧重于准确执行,包括事实检索、数值精度和逻辑推理。
FRANKLIN数据集:LLMs的新挑战
为了评估这些推理类型,研究引入了FRANKLIN数据集,该数据集受FRANK系统启发,采用显式符号推理解决复杂问题。FRANKLIN数据集包括需要对未来预测、地区比较、历史趋势和预测的情景。每个问题都附有一个详细的解释,概述必要的推理步骤。这个数据集对LLMs提出了重大挑战,因为它不仅要求它们确定回答问题的适当策略,还要准确检索和操作数据。
LLMs如何被评估:两项人类注释研究
评估设计包括两项人类注释研究。在第一项研究中,LLMs被提示直接回答问题,以便评估其对象推理能力。在第二项研究中,模型首先被要求生成计划,然后执行其推理步骤,测试其元推理技能。参与者根据其连贯性、正确性和结构化推理的存在来评分。研究还引入了三项关键评估指标:回答失败率(AFR)——LLM未能尝试作答的案例百分比。理性方法率(RAR)——概述连贯问题解决方法的响应比例。计划创建率(PCR)——以清晰、逐步的方式组织其推理的响应百分比。
结果显示,LLMs在这两种推理水平上的表现存在明显差异。主要发现:元推理强项,对象推理弱点
在所有数据集中,LLMs在元推理方面始终表现出色。响应通常包含结构化的逐步解释,人类注释者认为这些解释是合理且可解读的。即使对于FRANKLIN中的复杂问题,模型也展示了将其问题分解为中间步骤并制定解决问题计划的能力。然而,尽管这些响应看起来结构化,但研究对它们是否代表真正的推理或仅仅是模仿学习模式表示担忧。
相比之下,LLMs在对象推理方面显著挣扎。对象推理失败频繁,尤其是在问题需要数值精度或事实回忆时。例如,在FRANKLIN中,模型经常编造数值数据、提供错误值或犯基本算术错误。即使模型成功识别出正确的推理路径,它们也常常无法准确进行计算或事实检索。
错误模式包括:编造数值数据(例如引用不存在的来源)。检索不准确或不精确的信息(例如错误地四舍五入值)。执行错误的计算(即使是简单的算术运算)。
对错误的更深入分析突显了这些失败的本质。一些响应包含完全编造的数据,其中模型引用了不存在的来源或发明了统计数据。其他响应检索的信息精度降低,四舍五入值或省略了进行准确比较所需的关键细节。在数学任务中,模型经常产生错误的计算,即使是简单的操作也是如此。
这些发现表明,虽然LLMs可以以看似合乎逻辑的方式构建其响应,但在需要对象推理的领域中,它们缺乏可靠生成正确答案所需的稳健执行能力。
对LLM发展的启示
这些发现对LLM的发展具有重要意义。虽然提示模型参与元推理可以提高其表达连贯策略的能力,但这并不能解决其在对象推理方面的不足。这意味着未来的进步必须集中在整合外部符号推理组件、改进事实检索机制以及完善数值处理能力上。FRANKLIN数据集作为一个关键基准,证明即使模型具有强大的问题分解技能,在执行方面仍存在问题。
结论:AI推理的前进之路
总之,这项研究强调了LLMs推理能力的一个关键区别。虽然它们可以有效地规划和构建解决问题的方法,但在执行复杂推理任务方面仍然有限。研究结果强调,LLMs擅长模仿推理结构,但不一定以人类认知的方式进行推理。FRANKLIN的引入提供了一种新的评估手段,为未来进一步研究提高LLM在多步问答中的表现奠定了基础。结果强调了继续改进LLMs处理对象推理的重要性,确保未来的迭代能够超越表面模仿,迈向真正的认知推理能力。
**重要通知**:arXiv发布初步科学报告,这些报告未经同行评审,因此不应被视为最终结论,不应用于指导开发决策,也不应被视为人工智能研究领域的权威信息。
期刊参考:初步科学报告。
Ferguson, N., Guillou, L., Bundy, A., & Nuamah, K. (2025). 《问答中大型语言模型的元推理和对象推理评估》。ArXiv。
(以上内容均由Ai生成)