技术 AI 政府机构在推进 AI 创新和可信度方面发挥着至关重要的作用

快速阅读: 据《布鲁金斯学会》最新报道，美国人工智能安全研究所是促进AI安全性和可信度的关键机构，需持续获得资金与技术支持。研究所评估AI模型风险，确保其安全、可靠，防止潜在危害。特朗普政府应支持其发展，国会需立法保障其长期运作。

当前的人工智能安全研究所是一个至关重要的新机构，目前暂设在美国商务部国家标准与技术研究院（NIST）内。该机构对于美国在开发安全且可靠的人工智能方面具有关键作用。特朗普政府应与国会合作，继续该研究所的科学和技术工作。该机构应致力于评估最新前沿人工智能模型的能力，并评估它们在多大程度上缓解了与国家安全和公共安全危害相关的具体、现实的风险。国会应在法律中永久授权该机构，并确保其得到充分的资金支持和由薪酬合理的无党派技术专家组成的团队。去年，美国众议院人工智能特别委员会主席杰伊·奥伯诺特（共和党-加利福尼亚州）和其他代表试图在拨款法案中建立并资助NIST的人工智能安全研究所。在2025年2月的众议院科学委员会会议上，奥伯诺特承诺重新引入立法，赋予该机构法定权力。这项拟议中的法案应成为国会全面审议和快速通过的重要议题。

现有AI计划的审查在他重返办公室后的第三天，特朗普总统签署了名为《消除阻碍美国人工智能领导地位的障碍》的行政命令。该命令撤销了前任政府的人工智能行政命令，并下令在180天内审查所有依据现已撤销的旧命令采取的政策、指示、法规、命令和其他行动。基于此次审查，任何被认定为阻碍“美国全球人工智能主导地位”的行动将被列为暂停、修订或撤销的目标。2月6日，国家科学基金会发布了一份联邦注册通知，征求公众意见以制定这一人工智能行动计划。公众可以通过3月15日之前提交评论。这种广泛的撤销似乎没有必要。前任政府的人工智能行政命令中的大多数措施都是指示机构跟上步伐，加快提升其人工智能专业知识以应对新技术的挑战。一些措施可能对现任政府来说过于激进。例如，许多人批评其过度依赖《国防生产法》来强制要求与政府共享人工智能测试结果。这些措施本可以进行修订或撤销。鉴于特朗普候选人曾承诺撤销整个前任的人工智能行政命令，这可能是政治上的必要之举，但它仍然打击了在创造稳定的人工智能投资和增长监管环境方面必不可少的两党合作精神。

然而，有一个因素支持进行全面的政策审查。2024年12月，中国公司深度求索（DeepSeek）发布了关于其V3模型的技术报告。报告显示该模型的能力与OpenAI的GPT-4o相当。但尽管GPT-4训练成本高达1亿美元，深度求索在V3的最终训练阶段仅花费了560万美元。随后在1月22日，深度求索发布了另一份关于其从V3衍生的R1推理模型家族的技术报告，这些模型的能力与2024年9月发布的OpenAI推理o1模型相当。似乎深度求索在短短几个月内就以极低的成本复制了OpenAI最先进的前沿模型的成功。股市反应强烈。1月27日，芯片公司英伟达的股票下跌了17%，市值蒸发近6000亿美元，导致美国科技股普遍下跌。投资者显然认为美国公司不再在中国公司面前有显著优势，推动美国公司模型进步的巨大计算投资也不再必要。科技股已从这次打击中有所恢复，但很明显，美国人工智能行业正面临技术企业家马克·安德森所说的“斯普特尼克时刻”。在深度求索冲击的背景下，评估如何维持美国人工智能领导地位将需要一些时间。在这种情况下，重新评估美国人工智能政策以确定哪些要素可能阻碍与近邻人工智能竞争对手的成功竞争或许是有意义的。好消息是，经过180天的审查后，特朗普政府可以保留那些有助于人工智能创新和可信度的元素。人工智能安全研究所应成为新政府人工智能行动计划的一部分。

真实的人工智能风险

最近在巴黎举行的AI峰会传递出的信息是生存风险的边缘化——即失控的人工智能模型可能会毁灭人类的推测性和分散注意力的风险。但多年来，人工智能研究人员警告说，这些高度能力的人工智能基础模型创造了必须在模型层面管理的严重新风险。这些真实的风险包括允许非专家设计和合成新型生物或化学武器，用最少的用户指令生成有说服力的虚假信息，以及利用前所未有的进攻性网络能力。

也许是为了强调从对生存风险的关注转向对这些更为平凡但紧迫的风险的关注，英国最近将其人工智能安全研究所测试机构更名为人工智能安全研究所。新名称更清晰地关注于“强化保护人工智能对国家安全和犯罪带来的风险”。无论名称如何，政府在评估和减轻真正的AI风险方面有着迫切的需求。在急于开发高能力AI的过程中，公司可能会忽视保护这些真实风险的需要。

有一些证据表明深度求索确实如此。虽然它似乎很好地遵守了中国的内容控制系统，拒绝回答关于敏感话题如天安门广场的问题，但在其他风险领域表现较差。安全公司恩克里普特AI的一份报告显示，深度求索的R1模型比类似的美国AI模型更容易产生偏颇内容、有害材料、恶意软件代码以及与化学、生物和网络安全风险相关的内容。揭示深度求索在操作和安全风险领域存在“相当大的漏洞”并非是对过度监管或沉迷于科幻幻想风险的举动，而是一项公共服务，警告公司和专业人士如果想将这些模型嵌入其业务系统或在其专业工作中使用它们，就需要采取额外的预防措施。

政府有责任确保人工智能公司有正确的经济激励来开发安全且可信的人工智能系统，而不是可能使用户或公众暴露于重大危害的系统。最好的方法是设立一个自愿性测试机构，向他们和公众提供有关模型能力和如何控制已知和可预见风险的信息。没有模型对齐可以避免所有可能的风险，但它可以使大量风险降至可控水平。例如，如果没有对齐，大型语言模型（LLMs）会回答如何制造化学和生物武器的问题。有证据表明，2024年兰德公司的研究表明，当今LLMs的可用性可能不会让不熟练的对手比仅通过互联网访问更容易制造这些武器。这意味着增量风险目前可能不大，但随着更强大的模型出现，情况可能会改变。此外，为什么要给不良行为者提供另一种开发操作性生物威胁的途径？如果不对LLMs施加控制，有相当大的风险未经培训的非专家对手可能会使用这个工具制造武器。强加对模型使用的严格控制，只有具备大量技术专长的人才能规避，这大大增加了使用LLM获取此类信息的难度，从而将重大风险降低到更可控的程度。

关键是要在政府、产业界和学术界之间形成共同理解，明确需要解决哪些风险以及如何衡量和评估风险降低。政府机构可以协调风险的识别和测量。只有政府机构才有召集各方的能力和权威，确保结果代表了从事人工智能工作的最佳人员和机构的共识。

美国人工智能安全研究所的活动

在过去一年的活动中，美国人工智能安全研究所已经开始这样做。2023年11月1日，商务部宣布成立由国家标准与技术研究院（NIST）领导的人工智能安全研究所，旨在“促进人工智能模型的安全性、安全性和测试标准的发展，制定验证人工智能生成内容的标准，并为研究人员提供测试环境以评估新兴的人工智能风险并应对已知影响。”2024年2月7日，该部门重申了这一使命，即“进行研究，制定指导方针，并评估包括先进LLMs在内的AI模型，以识别和缓解AI安全风险。”

其使命是“开展研究，制定指南，并评估包括高级大型语言模型在内的AI模型，以识别和缓解AI安全风险”。认识到这一使命无法仅靠一个政府机构单独完成，2024年2月8日，该部门宣布成立美国AI安全研究所联盟。这一联盟由拥有AI专业背景的美国公司、大学、智库和倡导团体构成，旨在汇集超过280个组织，共同开发基于科学且有实证支持的AI测量和政策指南及标准，为全球AI安全奠定基础。

2024年8月，该研究所与OpenAI和Anthropic就AI安全测试签署了协议。这些协议在机构与公司之间建立了正式的合作安排，并允许该机构在每家公司发布其主要新模型之前和之后获得访问权限。

2024年11月19日，该研究所发布了对Anthropic升级版Claude 3.5 Sonnet模型的部署前评估。评估涉及四个领域：生物能力、网络能力、软件和AI开发、以及防护有效性。该模型与Anthropic先前的Sonnet 3.5版本、OpenAI的o1-preview以及OpenAI的GPT-4o进行了比较。评估显示，该模型在所有领域都有所提升，但研究人员能够使用公开可用的“越狱”方法绕过模型的内置防护措施，这意味着“该模型提供了本应被阻止的答案”。

2024年12月18日，该研究所发布了对OpenAI的o1推理模型的部署前评估，其完整版本于2024年12月5日向公众发布。评估显示，该模型在某些方面优于参考模型，而在另一些方面则稍逊一筹。参考模型包括OpenAI的o1-preview、OpenAI的GPT-4o以及Anthropic的Claude 3.5 Sonnet的升级版和早期版本。

2024年11月20日，旨在将全球致力于解决相同AI可信度问题的政府机构连接起来，美国在旧金山的一次会议上启动了国际AI安全研究所网络。

2025年1月15日，NIST发布了其关于双重用途基础模型误用风险的第二份草案指导文件，供公众评论至2025年3月15日。

维持AI测试机构的运作

从多个角度来看，“安全研究所”这个名称其实是个误解。正如NIST在其备受推崇的AI风险管理框架中指出的那样，AI模型不会“导致人类生命、健康、财产或环境处于危险状态”的意义上的安全性只是值得信赖的AI的一个组成部分。政策制定者还期望AI具备有效性和可靠性，“安全且有弹性，可问责且透明，可解释且可理解，增强隐私性，并公平且有害偏见得到管理”。

而“AI安全”这一术语也引发了对失控的AI系统可能拥有意识、独立行动力和超人力量所带来的存在风险的推测性恐惧。这些科幻式的恐惧只会分散政策制定者对真正挑战和机遇的关注。

英国研究所的新标签聚焦于研究所的实际工作。无论其名称如何，该研究所在美国AI领导地位的维护中发挥着至关重要的作用。匆忙将不可信的AI模型推向市场而不进行充分的部署前审查不是建立领导地位的方式——而是吓跑寻找可靠AI产品以提高工作效率并使日常生活更轻松舒适的个人和机构客户的方式。

NIST已为众多其他技术执行了此类测试功能，包括面部识别技术。自2017年以来，它已自愿评估了面部识别算法，并根据其准确识别不同性别、年龄和种族背景的人的能力对其进行排名。这项信息对于技术用户来说至关重要，可以帮助他们比较不同品牌并决定哪个最适合他们的需求。

一个设在NIST的AI测试机构将为通用前沿AI模型提供类似的功能。可信的AI企业已实施部署前测试，并承诺继续这一最佳实践，但评估AI可信度的科学才刚刚起步。美国需与企业合作，构建精准且客观的可信度评估标准。它需要在政府内部建立一个卓越中心，让企业可以自愿与公认的专家合作，看看他们在提供安全、可靠、稳健和可信模型方面取得了多大成功。

(以上内容均由Ai生成)