AI 真的会思考吗?研究揭示了逻辑执行方面的差距

发布时间:2025年2月17日    来源:szf
AI 真的会思考吗?研究揭示了逻辑执行方面的差距

快速阅读: 据《AZoAI》最新报道,尽管大型语言模型(LLMs)在规划和构建解决问题的方法方面表现出色,但在执行复杂推理任务时仍面临挑战,特别是在算术和事实核查方面。研究表明,LLMs在元推理(高层次战略思考)方面表现良好,但在对象推理(如数值计算和事实检索)方面存在显著不足。这一发现强调了改进模型在执行阶段能力的重要性。

审阅:乔尔·斯坎伦 2025年2月17日

尽管人工智能模型能够将问题分解成结构化的步骤,但新的研究揭示它们在基础算术和事实核查方面仍然失败,这引发了对其实际推理能力的质疑。研究:《问答中大型语言模型的元推理和对象推理评估》。图片来源:Summit Art Creations / Shutterstock

**重要通知**:arXiv发布初步科学报告,这些报告未经同行评审,因此不应被视为最终结论,不应用于指导开发决策,也不应被视为人工智能研究领域的权威信息。

大型语言模型(LLMs)已经成为自然语言处理领域不可或缺的一部分,在情感分析、阅读理解和回答事实性问题等方面表现出色。然而,它们在复杂、多步骤推理方面的表现仍然是一个重大挑战,尤其是在需要逻辑推理而非简单记忆的问题回答任务中。这项由爱丁堡大学和Aveni的研究人员尼克·弗格森、莉安·吉鲁、阿兰·邦迪和夸贝纳·努马赫共同完成的研究,探讨了LLMs在两种不同推理类型中的参与程度:元推理和对象推理。

理解元推理和对象推理

元推理涉及高层次的战略思考,包括问题分解和制定解决问题所需的中间步骤。对象推理则指执行这些步骤,比如进行数学计算、检索具体事实或应用符号逻辑。为了评估LLMs在这两个领域的表现,作者引入了FRANKLIN数据集,该数据集明确要求模型参与这两种推理类型。FRANKLIN数据集受FRANK系统启发,该系统是一个用于问答的符号推理框架,并专注于人口趋势、经济指标和地区比较等地理政治指标。

除了三个已建立的多步骤问答数据集外,FRANKLIN还用作测试四个特定LLM版本性能的基准:Meta的Llama 3.1 8B、微软的Phi 3.5 Mini、谷歌的Gemma 2 9B和OpenAI的GPT-4o-mini。

通过两项人类注释研究,研究人员评估了LLMs能否成功生成有理据的回答,以及在执行答案前先规划其答案是否能提升其表现。

理解元推理和对象推理

LLMs如何处理推理任务

研究将其分析置于LLMs推理任务的更广泛背景中。作为一种认知功能,推理包括逻辑推理、信念修正和推理制作。常识推理需要理解日常概念并推断隐含知识的能力。数学推理要求数值运算和逻辑问题解决,而符号推理涉及基于规则的操作,如模拟形式逻辑或推导抽象实体间的关系。多步骤推理尤为重要,因为它需要顺序应用推理过程以得出最终答案。尽管有所进展,LLMs在这些任务中往往遇到困难,因为它们依赖于统计模式匹配而非真正的逻辑演绎。

现有技术试图改善LLMs在推理任务上的表现。微调涉及在特定领域的数据集上进行额外训练,以提高特定任务的准确性,而提示技术如思维链(CoT)则将显式的推理步骤引入模型响应。这些方法已显示出改进,但仍有人质疑LLMs是否真的在推理,还是只是模仿从训练数据中学习到的结构化思维模式。

作者提出了一种更结构化的LLM推理分类,区分元推理和对象推理过程。虽然元推理涉及计划、选择相关知识来源并确定解决问题所需的步骤,对象推理则侧重于准确执行,包括事实检索、数值精度和逻辑推理。

FRANKLIN数据集:LLMs的新挑战

为了评估这些推理类型,研究引入了FRANKLIN数据集,该数据集受FRANK系统启发,采用显式符号推理解决复杂问题。FRANKLIN数据集包括需要对未来预测、地区比较、历史趋势和预测的情景。每个问题都附有一个详细的解释,概述必要的推理步骤。这个数据集对LLMs提出了重大挑战,因为它不仅要求它们确定回答问题的适当策略,还要准确检索和操作数据。

LLMs如何被评估:两项人类注释研究

评估设计包括两项人类注释研究。在第一项研究中,LLMs被提示直接回答问题,以便评估其对象推理能力。在第二项研究中,模型首先被要求生成计划,然后执行其推理步骤,测试其元推理技能。参与者根据其连贯性、正确性和结构化推理的存在来评分。研究还引入了三项关键评估指标:回答失败率(AFR)——LLM未能尝试作答的案例百分比。理性方法率(RAR)——概述连贯问题解决方法的响应比例。计划创建率(PCR)——以清晰、逐步的方式组织其推理的响应百分比。

结果显示,LLMs在这两种推理水平上的表现存在明显差异。主要发现:元推理强项,对象推理弱点

在所有数据集中,LLMs在元推理方面始终表现出色。响应通常包含结构化的逐步解释,人类注释者认为这些解释是合理且可解读的。即使对于FRANKLIN中的复杂问题,模型也展示了将其问题分解为中间步骤并制定解决问题计划的能力。然而,尽管这些响应看起来结构化,但研究对它们是否代表真正的推理或仅仅是模仿学习模式表示担忧。

相比之下,LLMs在对象推理方面显著挣扎。对象推理失败频繁,尤其是在问题需要数值精度或事实回忆时。例如,在FRANKLIN中,模型经常编造数值数据、提供错误值或犯基本算术错误。即使模型成功识别出正确的推理路径,它们也常常无法准确进行计算或事实检索。

错误模式包括:编造数值数据(例如引用不存在的来源)。检索不准确或不精确的信息(例如错误地四舍五入值)。执行错误的计算(即使是简单的算术运算)。

对错误的更深入分析突显了这些失败的本质。一些响应包含完全编造的数据,其中模型引用了不存在的来源或发明了统计数据。其他响应检索的信息精度降低,四舍五入值或省略了进行准确比较所需的关键细节。在数学任务中,模型经常产生错误的计算,即使是简单的操作也是如此。

这些发现表明,虽然LLMs可以以看似合乎逻辑的方式构建其响应,但在需要对象推理的领域中,它们缺乏可靠生成正确答案所需的稳健执行能力。

对LLM发展的启示

这些发现对LLM的发展具有重要意义。虽然提示模型参与元推理可以提高其表达连贯策略的能力,但这并不能解决其在对象推理方面的不足。这意味着未来的进步必须集中在整合外部符号推理组件、改进事实检索机制以及完善数值处理能力上。FRANKLIN数据集作为一个关键基准,证明即使模型具有强大的问题分解技能,在执行方面仍存在问题。

结论:AI推理的前进之路

总之,这项研究强调了LLMs推理能力的一个关键区别。虽然它们可以有效地规划和构建解决问题的方法,但在执行复杂推理任务方面仍然有限。研究结果强调,LLMs擅长模仿推理结构,但不一定以人类认知的方式进行推理。FRANKLIN的引入提供了一种新的评估手段,为未来进一步研究提高LLM在多步问答中的表现奠定了基础。结果强调了继续改进LLMs处理对象推理的重要性,确保未来的迭代能够超越表面模仿,迈向真正的认知推理能力。

**重要通知**:arXiv发布初步科学报告,这些报告未经同行评审,因此不应被视为最终结论,不应用于指导开发决策,也不应被视为人工智能研究领域的权威信息。

期刊参考:初步科学报告。
Ferguson, N., Guillou, L., Bundy, A., & Nuamah, K. (2025). 《问答中大型语言模型的元推理和对象推理评估》。ArXiv。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日