专家质疑Anthropic防核武AI计划的有效性
快速阅读: AI科学家克利夫批评Anthropic称其AI助手Claude不助制造核武为“安全剧场”,指出模型未接触核秘密,质疑其测试结果的有效性及与NNSA合作的安全性。
海迪·克利夫,AI Now研究所的首席AI科学家,具有核安全背景。她认为,Anthropic承诺其AI助手Claude不会帮助任何人制造核武器,这既是一种魔术表演,也是一种安全剧场。克利夫表示,像Claude这样的大型语言模型的质量取决于其训练数据。如果Claude从未接触过核秘密,那么分类器就无关紧要了。
“如果美国国家核安全管理局(NNSA)测试的模型没有经过敏感核材料的训练,那么他们的测试结果并不能证明其测试方法是全面的,而是表明该模型可能不具备展示足够核能力的数据或训练。”克利夫告诉《连线》杂志,“在这种情况下,利用这些不确定的结果和普通核知识来构建核‘风险指标’分类器是不充分的,距离法律和技术定义的核安全保障还很远。”
克利夫补充说,这类声明会引发关于聊天机器人实际不具备的能力的猜测。“这项工作似乎基于一个未经证实的假设,即Anthropic的模型在未经进一步训练的情况下会产生新的核能力,这与现有的科学知识不符。”她说。
Anthropic对此持不同意见。“我们很多安全工作的重点是主动建立能够识别未来风险并加以缓解的安全系统。”一位Anthropic发言人告诉《连线》杂志,“这个分类器就是一个例子。我们与NNSA的合作使我们能够进行适当的风险评估,并创建防止潜在滥用模型的保障措施。”
克利夫对美国政府与私人AI公司之间的合作也不感到兴奋。像Anthropic这样的公司对训练数据有很高的需求,她认为美国政府急于拥抱AI技术,为AI行业获取其他途径无法获得的数据提供了机会。“我们是否希望这些基本上不受监管的私营公司能够接触到极其敏感的国家安全数据?”她问道,“无论是军事系统、核武器还是核能。”
(以上内容均由Ai生成)