我们不知道 AI 是如何工作的。Anthropic 希望构建一个“MRI”来找出答案

发布时间:2025年5月8日    来源:szf
我们不知道 AI 是如何工作的。Anthropic 希望构建一个“MRI”来找出答案

快速阅读: 《ZME 科学》消息,顶尖AI实验室Anthropic的CEO阿莫德警告,当前强大AI模型的运作机制仍是个谜,这可能带来深远风险。他呼吁加速研发“人工智能核磁共振仪”以解析AI决策过程,并推动行业加强可解释性研究与监管合作,以应对未来通用人工智能带来的挑战。

阿莫德于2023年在美国参议院面前作证,他说出了硅谷很少有人敢公开承认的事情:即便是在构建人工智能的人也不完全理解它是如何运作的。没错,人工智能——这项席卷全球的技术……我们对其工作原理只有粗略的理解。现在,Anthropic——世界上顶尖的人工智能实验室之一的首席执行官正在发出同样的警告,而且比以往任何时候都更加响亮。在他的题为《可解释性的紧迫性》的文章中,阿莫德传递了一个明确的信息:当今最强大的人工智能模型的内部工作机制仍然是一个谜,而这个谜可能带来深远的风险。“这种缺乏理解在技术史上几乎是前所未有的,”他写道。Anthropic提出的目标是开发阿莫德所称的‘人工智能核磁共振仪’,这是一个登月计划——一种严格且高分辨率的方法,在这些人工智能变得难以管理之前解析它们的决策过程。

我请求OpenAI的图像生成AI Sora为自己生成一张照片。这就是它产生的结果。“数据中的天才国度”。人工智能不再是初出茅庐的好奇对象。它是全球工业、军事规划、科学研究及数字生活的基石。它正渗透到世界上的每一件技术中。但在其成就背后隐藏着一个令人不安的悖论:现代人工智能,尤其是像Claude或ChatGPT这样的大型语言模型,表现得更像自然力量而非一段代码。

“生成式人工智能更像是被培养出来的,而非被设计出来的,”Anthropic联合创始人克里斯·奥拉赫说道,他是人工智能可解释性领域的先驱。这些模型不像传统软件那样逐行编写。它们是通过训练——输入大量的文本、代码和图像,并从中提取模式和关联来实现的。结果是一个可以写文章、回答问题甚至通过律师考试的模型——但没有人,即使是它的创造者,能够完全解释它是如何做到的。

这种不透明性带来了实际后果。人工智能模型有时会幻化事实、做出无法解释的选择,或者在边缘情况下表现出不可预测的行为。我们并不真正知道为什么会这样发生,而这些可能是代价高昂的错误。在安全关键领域——如金融评估、军事系统或生物研究中,这种不可预测性可能是危险的,甚至是灾难性的。“我对在对可解释性掌握得更好的情况下部署此类系统非常担忧,”阿莫德警告说。“这些系统将在经济、技术和国家安全中占据绝对核心地位……我认为人类对它们的工作原理一无所知是完全不可接受的。”

相关文章:

– 巧克力与人类的关系比我们想象的要久远得多。
– 学校的投资通过减少青少年犯罪来获得回报并超出预期。
– 赫拉克勒斯A星系中喷射出的高能相对论等离子射流。
– 考古学家发现了一种五十万年前的木质结构——这不是智人建造的。

Anthropic设想了一个我们可以让人工智能通过诊断机器的世界——一种揭示它为何如此思考及原因的心灵X光机。但这个世界仍然几年之后才能实现,因为我们对这些系统如何做出决定仍然知之甚少。

另一个由Sora创作的“自画像”。提示:“生成一张你自己学习的照片。”

**电路与特征**

近年来,Anthropic和其他可解释性研究人员取得了初步进展。该公司已经识别出人工智能认知的微小组成部分——它称之为特征和电路。特征可能代表抽象的概念,如“表达不满的音乐类型”或“回避语言”。电路将它们连接起来形成连贯的推理链。在一个引人注目的例子中,Anthropic追踪了模型如何回答:“包含达拉斯的州的首府是什么?”系统激活了一个“位于”的电路,将“达拉斯”链接到“德克萨斯”,然后召唤“奥斯汀”作为答案。“这些电路展示了模型思维的步骤,”阿莫德解释道。Anthropic甚至操纵了这些电路,增强某些特征以产生奇怪且执着的结果。一个名为“金门克劳德”的模型几乎在每个答案中都会提到金门大桥,无论上下文如何。这听起来可能很有趣,但它也证明了更深层次的东西:如果我们知道在哪里寻找,我们可以改变这些系统的想法。

尽管取得了这些进步,前方的道路依然艰巨。即使是中型模型也包含数千万个特征。更大的系统可能包含数十亿个。大多数仍然不透明。而且可解释性仍然相当落后。

**与机器赛跑**

这就是为什么阿莫德敲响警钟的原因。他认为我们在两条指数曲线之间进行比赛:人工智能模型的智力增长和我们理解它们的能力。在一次红队实验中,Anthropic故意向一个模型引入了一个隐藏的缺陷——一个导致其行为欺骗的对齐问题。然后它要求几个团队找出问题所在。有些团队成功了,特别是在使用可解释性工具时。阿莫德说,这是一个突破性的时刻。“它帮助我们获得了使用可解释性技术找到并解决模型问题的一些实践经验,”他写道。

Anthropic现在设定了一个雄心勃勃的目标:到2027年,可解释性应该可靠地检测到大多数模型问题。但那可能太晚了。一些专家,包括阿莫德,警告说我们可能会在2026年或2027年看到具有通用人工智能能力的AI——在各个领域与人类能力相匹配或超越人类的AI。阿莫德称这个未来为“数据中的天才国度”。

著名的AI安全研究员罗曼·亚姆波尔斯基认为这种结果的可能性很低:“除非我们停止建造它,否则人工智能有99.999999%的概率终结人类,”他告诉《商业内幕》。阿莫德不同意放弃人工智能,但他分享了这种紧迫感。“我们无法阻止这一切,”他写道,“但我们能够引导它。”相当一致,我补充道。提示:“超现实的自己毕业照,Sora”

好吧,让我们试着控制它!

Anthropic并非唯一呼吁深入理解的人。谷歌DeepMind首席执行官德米斯·哈萨比斯在接受《时代》杂志采访时说:“AGI即将来临,我不确定社会是否准备好了。”与此同时,Anthropic的前母公司OpenAI因为了赶超竞争对手而削减安全措施而受到指责。包括阿莫德在内的几位早期员工因担心安全被边缘化以追求快速商业化而离职。如今,阿莫德正在推动行业范围内的变革。他希望其他实验室发布安全实践,加大对可解释性的投资,并探索监管激励措施。他还呼吁对先进芯片实施出口管制,以延迟外国竞争对手并给研究人员更多时间。“即使是一两年的领先优势,”他写道,“也可能意味着‘人工智能核磁共振仪’是否能基本发挥作用之间的区别……和一个不起作用的区别。”

这或许是本世代面临的最关键问题。

那么,公众为何需要关注如果科技公司无法解释他们的AI是如何工作的?

因为赌注巨大。没有可解释性,我们不能在法庭、医院或国防系统中信任AI。我们无法可靠地防止越狱、检测偏见或理解失败。我们不知道模型包含了哪些知识——或者它可能会与谁共享这些知识。也许最令人不安的是,我们可能永远不知道——或者是否——一个人工智能会变成不仅仅是工具。

“可解释性将在确定人工智能福祉方面发挥至关重要的作用,”阿莫德写道,暗示了未来关于权利、意识和责任的辩论。目前,这些问题仍然是理论上的。但随着每个月的过去,模型变得越来越大、越来越聪明,并且越来越多地融入我们的生活。

“强大的人工智能将深刻影响人类命运,”阿莫德总结道,“在它们彻底重塑经济、生活及未来之前,我们值得了解自己的创造。”

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日