我们终于开始了解 LLM 的工作原理：不，它们不是简单地逐个单词地预测

发布时间：2025年3月30日来源：szf

快速阅读: 据《技术点》最新报道，人工智能公司Anthropic尝试用新技术揭示大型语言模型的工作原理。电路追踪技术展示了Claude 3.5 Haiku在多语言、数学及诗歌创作中的独特推理方式，但全面理解仍需更多努力。

人工智能公司不断改进其模型的努力可能会让你以为我们终于搞明白大型语言模型（LLMs）是怎么工作的了。但它并非如此——LLMs依然是大众市场上最难以理解的技术之一。不过，Anthropic公司正试图通过一种叫作电路追踪的新技术来改变这种状况，该技术帮助该公司揭示了其Claude 3.5 Haiku模型的一些内部工作机制。

电路追踪是一种相对较新的技术，它允许研究人员逐步跟踪AI模型如何构建其答案——就像追踪大脑中的线路一样。它通过连接模型的不同组成部分来做到这一点。Anthropic公司利用这项技术窥探了Claude的内部运作情况。这揭示了一些非常奇怪的、有时甚至是超自然的答案生成方式，而当被问及时，这些方式连机器人本身都不会承认使用过。总的来说，团队检查了Claude的10种不同行为，其中有三种尤为突出。

其中一种比较直接，就是用不同语言回答“small”的反义词是什么。你可能会认为Claude可能对英语、法语或中文有单独的组件。但实际上，它首先利用无语言倾向的电路来确定答案（与“大”相关的内容），然后选择合适的词语以匹配问题的语言。这就意味着Claude不只是在重复记忆的翻译——它是在跨语言应用抽象概念，几乎就像人类一样。

接下来是数学。如果你让Claude计算36加59，它不会遵循标准的方法（个位数相加，进位等），而是做了一些非常奇怪的事情。它开始近似计算“40多加60多”或者“57多加36多”，最终得出“92多”。与此同时，模型的另一部分专注于数字6和9，意识到答案必须以5结尾。结合这两个奇怪的步骤，它得出了95的结果。

然而，如果你问Claude是如何解决问题的，它会自信地描述出标准的小学方法，掩盖了其实际的、奇怪的推理过程。

诗歌更是奇怪。研究人员要求Claude创作押韵的对联，并给出提示：“押韵对联：他看到一根胡萝卜，不得不抓住它。”在这里，模型在处理“抓住它”时选择了“兔子”作为押韵的词。然后，它似乎已经决定下一行的结尾，最终吐出了“他的饥饿像一只饥饿的兔子”。这表明LLMs可能比我们预想的更具前瞻性，并且它们并不总是逐字预测来形成一个连贯的答案。

总而言之，这些发现意义重大——它们证明我们现在可以一窥这些模型的运行机制。尽管如此，该公司的一名研究科学家Joshua Batson向麻省理工学院承认，这只是“冰山一角”。追踪单一回应就要花上好几个小时，还有很多工作要做。

(以上内容均由Ai生成)