MIT研究发现：推理模型思考成本与人类相似

快速阅读: 新一代大型语言模型（LLM）称为推理模型，正接受训练解决复杂问题，其“思考成本”与人类相似。研究表明，这些模型在处理复杂任务时的表现显著提升，如解决数学问题和编写代码，且与人类思维方式有趋同现象。

像ChatGPT这样的大型语言模型（LLM）几乎可以瞬间撰写文章或规划菜单。然而，直到最近，这些模型还很容易被难倒。由于依赖语言模式来回应用户的查询，它们在数学问题上经常失败，也不擅长复杂推理。不过，它们在这方面的表现突然有了显著提升。

新一代被称为推理模型的LLM正在接受训练，以解决复杂问题。与人类一样，这些模型需要时间来思考这些问题——令人惊讶的是，麻省理工学院麦戈文脑科学研究所在《美国国家科学院院刊》（PNAS）上发表的一项研究发现，需要最多处理资源的问题正是那些人们也需要花时间思考的问题。换句话说，对于推理模型来说，“思考的成本”与人类相似。

该研究由脑与认知科学副教授、麦戈文研究所研究员埃韦利娜·费多伦科（Evelina Fedorenko）领导。研究团队认为，在至少一个重要的方面，推理模型的思考方式与人类相似。费多伦科指出，这种趋同并非设计初衷。“构建这些模型的人并不关心它们是否像人类那样思考，他们只是希望系统能在各种条件下稳健运行并产生正确的响应。”她表示，“这种趋同现象非常引人注目。”

推理模型类似于许多形式的人工智能，是人工神经网络：当给定数据和问题时，它们会学习如何处理信息。人工神经网络在许多大脑神经网络擅长的任务上表现出色，某些情况下，神经科学家发现表现最好的人工神经网络确实与大脑的信息处理方式有相似之处。尽管如此，一些科学家仍认为人工智能尚未准备好应对更复杂的智力任务。

“直到最近，我也是那些认为‘这些模型在感知和语言方面非常出色，但在推理方面还有很长的路要走’的人之一，”费多伦科说，“然而，这些大型推理模型的出现表明，它们在很多思维任务上表现得更好，例如解决数学问题和编写计算机代码。”

安德烈亚·格雷戈尔·德·瓦尔达（Andrea Gregor de Varda）是费多伦科实验室的一名博士后，也是K.丽莎·杨ICoN中心的研究员。他解释说，推理模型通过逐步解决问题来工作。“有人意识到，模型需要更多空间来进行实际计算，以解决复杂问题，”他说，“如果允许模型将问题分解成部分，性能会大幅提升。”

为了鼓励模型逐步解决复杂问题，工程师可以使用强化学习。在训练过程中，模型因正确答案而获得奖励，因错误答案而受到惩罚。“模型会自行探索问题空间，”德·瓦尔达说，“导致正面奖励的行为会被加强，从而使模型更频繁地产生正确解决方案。”

经过这种方式训练的模型比其前辈更有可能在面对推理任务时得出与人类相同的答案。虽然它们在解决问题时需要花费更多时间，但与之前的LLM相比，它们能够得出正确答案，因此值得等待。

模型需要时间来解决复杂问题，这一点已经暗示了与人类思维的相似之处：如果要求一个人立即解决一个难题，他们也可能失败。德·瓦尔达希望更系统地研究这种关系，于是他让推理模型和人类志愿者解决同一组问题，并不仅记录他们是否答对，还记录了解决问题所需的时间或努力。

时间与标记

这意味着测量人们回答每个问题所需的时间，精确到毫秒。对于模型，德·瓦尔达使用了不同的度量标准。测量处理时间没有意义，因为这更多取决于计算机硬件，而不是模型在解决问题上投入的努力。因此，他追踪了标记，这是模型内部思维链的一部分。“这些标记不是为了让用户看到，而是为了记录模型的内部计算过程，”德·瓦尔达解释说，“就像它们在自言自语一样。”

研究人员让人类和推理模型解决七种不同类型的问题，包括数字算术和直觉推理。对于每个问题类别，他们都提供了多个问题。问题难度越大，人们解决所需的时间就越长；而人们解决问题所花费的时间越长，推理模型在得出答案时生成的令牌就越多。

同样，人类耗时最长的问题类别也是模型需要最多令牌才能解决的类别：算术问题最简单，而被称为“ARC挑战”的一类问题——涉及通过分析颜色网格的变换来推断并应用于新对象——则是对人和模型都最具挑战性的。

德瓦尔达和费多伦科认为，这种思考成本的高度匹配表明了推理模型在某种程度上像人类一样思考。但这并不意味着模型能够重现人类的智能。研究人员还想知道，这些模型是否使用了与人脑相似的信息表示方法，以及这些表示是如何转化为问题解决方案的。他们也很好奇，模型能否应对那些需要未在训练文本中明确表述的世界知识的问题。

研究者指出，尽管推理模型在解决问题时会产生内部独白，但这并不意味着它们是通过语言来思考的。“如果你查看这些模型在推理过程中产生的输出，其中往往含有错误或不合理之处，即使最终模型得出了正确答案。因此，实际的内部计算可能发生在抽象的、非语言的表示空间中，类似于人类并不使用语言来思考的过程。”

(以上内容均由Ai生成)