构建安全人工智能的解决方案是否在大脑中？

发布时间：2025年2月17日来源：szf

快速阅读: 据《发射器》称，对抗样本是AI系统的棘手问题，单纯扩大数据集和计算能力无法解决。破解大脑对对抗样本的抵抗力，理解其泛化能力，将有助于提高AI系统的安全性与鲁棒性。神经科学不仅能增强AI的安全性，还能帮助验证AI系统的功能。大规模神经科学技术的进步有助于解决这些挑战，促进AI系统更符合人类价值观和意图。

对抗样本是当前AI系统中一个出乎意料的顽固问题：仅仅扩大数据集和计算能力无法解决这一问题；即使没有访问模型内部结构的机会，它们也能在现实世界中构建和部署；并且它们不仅影响视觉模型，还影响大型语言模型。如果我们能够破解大脑对对抗样本的抵抗力——理解它是如何如此有效地泛化到新情况的——并将这一点融入当前的AI系统中，我们将解决一个重要且悬而未决的安全和保障问题。神经科学可能不仅仅增强AI的安全性，还能提高其鲁棒性。规范问题——让AI系统“做我们想做的，而不是我们说的”——是AI安全的根本所在。作为人类，我们理解意图，在上下文中正确解释模糊指令，并平衡多个奖励以提炼指令的本质。这些能力源自能够实现心智理论、实用推理和社会规范理解的神经架构。通过研究大脑如何实施这些与规范相关的能力，我们可以开发出更好地符合人类价值观和意图的AI系统。最后，神经科学可以帮助我们验证AI系统是否按预期工作——通过帮助我们理解其内部结构。神经科学家在理解生物神经网络的反复纠缠方面已经取得了数十年的进展，研究人员现在正在应用各种受神经科学启发的方法来理解人工神经网络。继续这项工作，受到神经科学直觉和方法的指导，或许借助基于工具的AI，可以帮助确保AI系统按我们的意愿行事。当然，我们不能天真地认为人类的一切都是安全的。悉尼毕竟是在互联网上训练的，随机模仿了可能包含我们在社交媒体上的对抗性互动的人类生成文本。我们不必完全复制大脑：我们可以专注于模拟从AI安全角度来看有用的行为和计算。遗憾的是，许多与AI安全相关的认知机制尚未得到充分理解。为什么我们对对抗样本具有鲁棒性？我们是如何平衡竞争的奖励来源以维持稳态的？我们是如何模拟他人的思维以有效合作的？为了系统地解决这些雄心勃勃的问题，我们需要大规模的神经科学技术。神经技术的最新进展使得在多个层面上研究大脑变得越来越可行。过去十年，大脑计划等项目的大量投资促进了大规模神经科学的发展。新的组织和资金模式正在帮助克服主要的技术障碍；例如，E11生物科技公司和森林神经科技公司等专注的研究机构正在构建工具，以解决大脑测绘中的一些最大瓶颈，从单个神经元水平的电路测绘到在人脑中记录全脑活动。鉴于所有这些投资，我们倡导采取全面的方法来应对雄心勃勃的神经科学研究，建立工具和数据集来定义自然智能的科学。结合记录技术和计算方法的进步，现在正是开始理解大脑如何实现稳健、明确和可验证的智能的时候。

(以上内容均由Ai生成)