为什么 LLM 会编造东西？幕后的新研究同行。

发布时间：2025年3月29日来源：szf

快速阅读: 据《Ars Technica》称，Anthropic的新研究揭示了大型语言模型在处理未知信息时的内部“回路”，通过追踪神经元群组的激活路径，解释了模型为何会编造答案而非说“不知道”。这项研究有助于理解模型的决策机制，为减少虚假信息提供思路。

使用大型语言模型时最令人沮丧的事情之一就是应对它凭空制造出一些与训练数据不符的答案。从人类的角度来看，很难理解为什么这些模型不直接说“我不知道”，而是编造一些听起来合乎逻辑的无稽之谈。现在，Anthropic 的新研究揭示了至少部分帮助大型语言模型（LLM）决定何时尝试回答（可能是臆想的回答）或拒绝回答的内部神经网络的“回路”。尽管人类对这一内部LLM“决策”机制的理解仍显粗浅，但这种研究可能会为解决AI编造问题提供更好的解决方案。

当面对“未知实体”时，在去年五月份的一篇开创性论文中，Anthropic 使用了一种稀疏自动编码器系统来帮助揭示Claude LLM在处理从“金门大桥”到“编程错误”等内部概念时激活的人工神经元群组（Anthropic 将这些群组称为“特征”，我们在本文余下部分也将使用这一术语）。本周Anthropic 发布的新研究扩展了之前的工作，追踪了这些特征如何影响代表Claude构建回答时遵循的计算决策“路径”的其他神经元群组。

在两篇相关论文中，Anthropic 详细描述了对这些内部神经元电路的部分检查如何带来了关于Claude用多种语言“思考”的新洞见，以及它如何被某些越狱技术愚弄，甚至其广受吹捧的“思维链”解释是否准确。但是，描述Claude“实体识别和幻觉”过程的部分提供了我们所见过的对复杂问题最详细的解释之一。

在去年五月份的一篇开创性论文中，Anthropic 使用了一种稀疏自动编码器系统来帮助揭示Claude LLM在处理从“金门大桥”到“编程错误”等内部概念时激活的人工神经元群组（Anthropic 将这些群组称为“特征”，我们在本文余下部分也将使用这一术语）。本周Anthropic 发布的新研究扩展了之前的工作，追踪了这些特征如何影响代表Claude构建回答时遵循的计算决策“路径”的其他神经元群组。

从根本上讲，大型语言模型的设计目的是将一段文本作为输入，并预测可能跟随其后的文本——这种设计让一些人轻蔑地视为“高级自动补全”。当提示文本与模型大量训练数据中已有的内容非常接近时，这种核心设计是有用的。然而，对于较为生僻的事实或主题，这种总是完成提示文本的倾向“促使模型猜测文本块的可能结尾方式”，Anthropic 在其新研究中写道。

(以上内容均由Ai生成)