我们不知道 AI 是如何工作的。Anthropic 希望构建一个“MRI”来找出答案

快速阅读: 《ZME 科学》消息，顶尖AI实验室Anthropic的CEO阿莫德警告，当前强大AI模型的运作机制仍是个谜，这可能带来深远风险。他呼吁加速研发“人工智能核磁共振仪”以解析AI决策过程，并推动行业加强可解释性研究与监管合作，以应对未来通用人工智能带来的挑战。

阿莫德于2023年在美国参议院面前作证，他说出了硅谷很少有人敢公开承认的事情：即便是在构建人工智能的人也不完全理解它是如何运作的。没错，人工智能——这项席卷全球的技术……我们对其工作原理只有粗略的理解。现在，Anthropic——世界上顶尖的人工智能实验室之一的首席执行官正在发出同样的警告，而且比以往任何时候都更加响亮。在他的题为《可解释性的紧迫性》的文章中，阿莫德传递了一个明确的信息：当今最强大的人工智能模型的内部工作机制仍然是一个谜，而这个谜可能带来深远的风险。“这种缺乏理解在技术史上几乎是前所未有的，”他写道。Anthropic提出的目标是开发阿莫德所称的‘人工智能核磁共振仪’，这是一个登月计划——一种严格且高分辨率的方法，在这些人工智能变得难以管理之前解析它们的决策过程。

我请求OpenAI的图像生成AI Sora为自己生成一张照片。这就是它产生的结果。“数据中的天才国度”。人工智能不再是初出茅庐的好奇对象。它是全球工业、军事规划、科学研究及数字生活的基石。它正渗透到世界上的每一件技术中。但在其成就背后隐藏着一个令人不安的悖论：现代人工智能，尤其是像Claude或ChatGPT这样的大型语言模型，表现得更像自然力量而非一段代码。

“生成式人工智能更像是被培养出来的，而非被设计出来的，”Anthropic联合创始人克里斯·奥拉赫说道，他是人工智能可解释性领域的先驱。这些模型不像传统软件那样逐行编写。它们是通过训练——输入大量的文本、代码和图像，并从中提取模式和关联来实现的。结果是一个可以写文章、回答问题甚至通过律师考试的模型——但没有人，即使是它的创造者，能够完全解释它是如何做到的。

这种不透明性带来了实际后果。人工智能模型有时会幻化事实、做出无法解释的选择，或者在边缘情况下表现出不可预测的行为。我们并不真正知道为什么会这样发生，而这些可能是代价高昂的错误。在安全关键领域——如金融评估、军事系统或生物研究中，这种不可预测性可能是危险的，甚至是灾难性的。“我对在对可解释性掌握得更好的情况下部署此类系统非常担忧，”阿莫德警告说。“这些系统将在经济、技术和国家安全中占据绝对核心地位……我认为人类对它们的工作原理一无所知是完全不可接受的。”

– 巧克力与人类的关系比我们想象的要久远得多。
– 学校的投资通过减少青少年犯罪来获得回报并超出预期。
– 赫拉克勒斯A星系中喷射出的高能相对论等离子射流。
– 考古学家发现了一种五十万年前的木质结构——这不是智人建造的。

Anthropic设想了一个我们可以让人工智能通过诊断机器的世界——一种揭示它为何如此思考及原因的心灵X光机。但这个世界仍然几年之后才能实现，因为我们对这些系统如何做出决定仍然知之甚少。

另一个由Sora创作的“自画像”。提示：“生成一张你自己学习的照片。”

**电路与特征**

近年来，Anthropic和其他可解释性研究人员取得了初步进展。该公司已经识别出人工智能认知的微小组成部分——它称之为特征和电路。特征可能代表抽象的概念，如“表达不满的音乐类型”或“回避语言”。电路将它们连接起来形成连贯的推理链。在一个引人注目的例子中，Anthropic追踪了模型如何回答：“包含达拉斯的州的首府是什么？”系统激活了一个“位于”的电路，将“达拉斯”链接到“德克萨斯”，然后召唤“奥斯汀”作为答案。“这些电路展示了模型思维的步骤，”阿莫德解释道。Anthropic甚至操纵了这些电路，增强某些特征以产生奇怪且执着的结果。一个名为“金门克劳德”的模型几乎在每个答案中都会提到金门大桥，无论上下文如何。这听起来可能很有趣，但它也证明了更深层次的东西：如果我们知道在哪里寻找，我们可以改变这些系统的想法。

尽管取得了这些进步，前方的道路依然艰巨。即使是中型模型也包含数千万个特征。更大的系统可能包含数十亿个。大多数仍然不透明。而且可解释性仍然相当落后。

**与机器赛跑**

这就是为什么阿莫德敲响警钟的原因。他认为我们在两条指数曲线之间进行比赛：人工智能模型的智力增长和我们理解它们的能力。在一次红队实验中，Anthropic故意向一个模型引入了一个隐藏的缺陷——一个导致其行为欺骗的对齐问题。然后它要求几个团队找出问题所在。有些团队成功了，特别是在使用可解释性工具时。阿莫德说，这是一个突破性的时刻。“它帮助我们获得了使用可解释性技术找到并解决模型问题的一些实践经验，”他写道。

Anthropic现在设定了一个雄心勃勃的目标：到2027年，可解释性应该可靠地检测到大多数模型问题。但那可能太晚了。一些专家，包括阿莫德，警告说我们可能会在2026年或2027年看到具有通用人工智能能力的AI——在各个领域与人类能力相匹配或超越人类的AI。阿莫德称这个未来为“数据中的天才国度”。

著名的AI安全研究员罗曼·亚姆波尔斯基认为这种结果的可能性很低：“除非我们停止建造它，否则人工智能有99.999999%的概率终结人类，”他告诉《商业内幕》。阿莫德不同意放弃人工智能，但他分享了这种紧迫感。“我们无法阻止这一切，”他写道，“但我们能够引导它。”相当一致，我补充道。提示：“超现实的自己毕业照，Sora”

好吧，让我们试着控制它！

Anthropic并非唯一呼吁深入理解的人。谷歌DeepMind首席执行官德米斯·哈萨比斯在接受《时代》杂志采访时说：“AGI即将来临，我不确定社会是否准备好了。”与此同时，Anthropic的前母公司OpenAI因为了赶超竞争对手而削减安全措施而受到指责。包括阿莫德在内的几位早期员工因担心安全被边缘化以追求快速商业化而离职。如今，阿莫德正在推动行业范围内的变革。他希望其他实验室发布安全实践，加大对可解释性的投资，并探索监管激励措施。他还呼吁对先进芯片实施出口管制，以延迟外国竞争对手并给研究人员更多时间。“即使是一两年的领先优势，”他写道，“也可能意味着‘人工智能核磁共振仪’是否能基本发挥作用之间的区别……和一个不起作用的区别。”

这或许是本世代面临的最关键问题。

那么，公众为何需要关注如果科技公司无法解释他们的AI是如何工作的？

因为赌注巨大。没有可解释性，我们不能在法庭、医院或国防系统中信任AI。我们无法可靠地防止越狱、检测偏见或理解失败。我们不知道模型包含了哪些知识——或者它可能会与谁共享这些知识。也许最令人不安的是，我们可能永远不知道——或者是否——一个人工智能会变成不仅仅是工具。

“可解释性将在确定人工智能福祉方面发挥至关重要的作用，”阿莫德写道，暗示了未来关于权利、意识和责任的辩论。目前，这些问题仍然是理论上的。但随着每个月的过去，模型变得越来越大、越来越聪明，并且越来越多地融入我们的生活。

“强大的人工智能将深刻影响人类命运，”阿莫德总结道，“在它们彻底重塑经济、生活及未来之前，我们值得了解自己的创造。”

(以上内容均由Ai生成)