AI 真的会思考吗?研究揭示了逻辑执行方面的差距

发布时间:2025年2月17日    来源:szf
AI 真的会思考吗?研究揭示了逻辑执行方面的差距

快速阅读: 据《AZoAI》最新报道,尽管大型语言模型(LLMs)在规划和构建解决问题的方法方面表现出色,但在执行复杂推理任务时仍面临挑战,特别是在算术和事实核查方面。研究表明,LLMs在元推理(高层次战略思考)方面表现良好,但在对象推理(如数值计算和事实检索)方面存在显著不足。这一发现强调了改进模型在执行阶段能力的重要性。

审阅:乔尔·斯坎伦 2025年2月17日

尽管人工智能模型能够将问题分解成结构化的步骤,但新的研究揭示它们在基础算术和事实核查方面仍然失败,这引发了对其实际推理能力的质疑。研究:《问答中大型语言模型的元推理和对象推理评估》。图片来源:Summit Art Creations / Shutterstock

**重要通知**:arXiv发布初步科学报告,这些报告未经同行评审,因此不应被视为最终结论,不应用于指导开发决策,也不应被视为人工智能研究领域的权威信息。

大型语言模型(LLMs)已经成为自然语言处理领域不可或缺的一部分,在情感分析、阅读理解和回答事实性问题等方面表现出色。然而,它们在复杂、多步骤推理方面的表现仍然是一个重大挑战,尤其是在需要逻辑推理而非简单记忆的问题回答任务中。这项由爱丁堡大学和Aveni的研究人员尼克·弗格森、莉安·吉鲁、阿兰·邦迪和夸贝纳·努马赫共同完成的研究,探讨了LLMs在两种不同推理类型中的参与程度:元推理和对象推理。

理解元推理和对象推理

元推理涉及高层次的战略思考,包括问题分解和制定解决问题所需的中间步骤。对象推理则指执行这些步骤,比如进行数学计算、检索具体事实或应用符号逻辑。为了评估LLMs在这两个领域的表现,作者引入了FRANKLIN数据集,该数据集明确要求模型参与这两种推理类型。FRANKLIN数据集受FRANK系统启发,该系统是一个用于问答的符号推理框架,并专注于人口趋势、经济指标和地区比较等地理政治指标。

除了三个已建立的多步骤问答数据集外,FRANKLIN还用作测试四个特定LLM版本性能的基准:Meta的Llama 3.1 8B、微软的Phi 3.5 Mini、谷歌的Gemma 2 9B和OpenAI的GPT-4o-mini。

通过两项人类注释研究,研究人员评估了LLMs能否成功生成有理据的回答,以及在执行答案前先规划其答案是否能提升其表现。

理解元推理和对象推理

LLMs如何处理推理任务

研究将其分析置于LLMs推理任务的更广泛背景中。作为一种认知功能,推理包括逻辑推理、信念修正和推理制作。常识推理需要理解日常概念并推断隐含知识的能力。数学推理要求数值运算和逻辑问题解决,而符号推理涉及基于规则的操作,如模拟形式逻辑或推导抽象实体间的关系。多步骤推理尤为重要,因为它需要顺序应用推理过程以得出最终答案。尽管有所进展,LLMs在这些任务中往往遇到困难,因为它们依赖于统计模式匹配而非真正的逻辑演绎。

现有技术试图改善LLMs在推理任务上的表现。微调涉及在特定领域的数据集上进行额外训练,以提高特定任务的准确性,而提示技术如思维链(CoT)则将显式的推理步骤引入模型响应。这些方法已显示出改进,但仍有人质疑LLMs是否真的在推理,还是只是模仿从训练数据中学习到的结构化思维模式。

作者提出了一种更结构化的LLM推理分类,区分元推理和对象推理过程。虽然元推理涉及计划、选择相关知识来源并确定解决问题所需的步骤,对象推理则侧重于准确执行,包括事实检索、数值精度和逻辑推理。

FRANKLIN数据集:LLMs的新挑战

为了评估这些推理类型,研究引入了FRANKLIN数据集,该数据集受FRANK系统启发,采用显式符号推理解决复杂问题。FRANKLIN数据集包括需要对未来预测、地区比较、历史趋势和预测的情景。每个问题都附有一个详细的解释,概述必要的推理步骤。这个数据集对LLMs提出了重大挑战,因为它不仅要求它们确定回答问题的适当策略,还要准确检索和操作数据。

LLMs如何被评估:两项人类注释研究

评估设计包括两项人类注释研究。在第一项研究中,LLMs被提示直接回答问题,以便评估其对象推理能力。在第二项研究中,模型首先被要求生成计划,然后执行其推理步骤,测试其元推理技能。参与者根据其连贯性、正确性和结构化推理的存在来评分。研究还引入了三项关键评估指标:回答失败率(AFR)——LLM未能尝试作答的案例百分比。理性方法率(RAR)——概述连贯问题解决方法的响应比例。计划创建率(PCR)——以清晰、逐步的方式组织其推理的响应百分比。

结果显示,LLMs在这两种推理水平上的表现存在明显差异。主要发现:元推理强项,对象推理弱点

在所有数据集中,LLMs在元推理方面始终表现出色。响应通常包含结构化的逐步解释,人类注释者认为这些解释是合理且可解读的。即使对于FRANKLIN中的复杂问题,模型也展示了将其问题分解为中间步骤并制定解决问题计划的能力。然而,尽管这些响应看起来结构化,但研究对它们是否代表真正的推理或仅仅是模仿学习模式表示担忧。

相比之下,LLMs在对象推理方面显著挣扎。对象推理失败频繁,尤其是在问题需要数值精度或事实回忆时。例如,在FRANKLIN中,模型经常编造数值数据、提供错误值或犯基本算术错误。即使模型成功识别出正确的推理路径,它们也常常无法准确进行计算或事实检索。

错误模式包括:编造数值数据(例如引用不存在的来源)。检索不准确或不精确的信息(例如错误地四舍五入值)。执行错误的计算(即使是简单的算术运算)。

对错误的更深入分析突显了这些失败的本质。一些响应包含完全编造的数据,其中模型引用了不存在的来源或发明了统计数据。其他响应检索的信息精度降低,四舍五入值或省略了进行准确比较所需的关键细节。在数学任务中,模型经常产生错误的计算,即使是简单的操作也是如此。

这些发现表明,虽然LLMs可以以看似合乎逻辑的方式构建其响应,但在需要对象推理的领域中,它们缺乏可靠生成正确答案所需的稳健执行能力。

对LLM发展的启示

这些发现对LLM的发展具有重要意义。虽然提示模型参与元推理可以提高其表达连贯策略的能力,但这并不能解决其在对象推理方面的不足。这意味着未来的进步必须集中在整合外部符号推理组件、改进事实检索机制以及完善数值处理能力上。FRANKLIN数据集作为一个关键基准,证明即使模型具有强大的问题分解技能,在执行方面仍存在问题。

结论:AI推理的前进之路

总之,这项研究强调了LLMs推理能力的一个关键区别。虽然它们可以有效地规划和构建解决问题的方法,但在执行复杂推理任务方面仍然有限。研究结果强调,LLMs擅长模仿推理结构,但不一定以人类认知的方式进行推理。FRANKLIN的引入提供了一种新的评估手段,为未来进一步研究提高LLM在多步问答中的表现奠定了基础。结果强调了继续改进LLMs处理对象推理的重要性,确保未来的迭代能够超越表面模仿,迈向真正的认知推理能力。

**重要通知**:arXiv发布初步科学报告,这些报告未经同行评审,因此不应被视为最终结论,不应用于指导开发决策,也不应被视为人工智能研究领域的权威信息。

期刊参考:初步科学报告。
Ferguson, N., Guillou, L., Bundy, A., & Nuamah, K. (2025). 《问答中大型语言模型的元推理和对象推理评估》。ArXiv。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日