人工智能在实验室任务中超越病毒学家,引发了对生物武器安全的担忧
快速阅读: 据《eWeek 系列》称,新研究显示AI在病毒学任务中超越专家,引发更快突破的希望及生物武器风险担忧。麻省理工等机构测试了多个AI模型,发现有网路访问的专家平均得分22.1%,而OpenAI的o3模型得分43.8%。研究人员呼吁谨慎访问控制,xAI提出风险管理框架应对潜在威胁。
图片来源:DC_工作室/Envato元素
eWEEK的内容和产品推荐保持独立编辑立场。当您点击我们的合作伙伴链接时,我们可能会赚钱。了解更多。
一项新研究显示,在专业实验室任务中,人工智能的表现超过了专家病毒学家,这引发了对更快的生物医学突破的希望,同时也引发了对生物武器风险的担忧。
研究人员测试了领先的AI模型——如OpenAI的GPT-4o、谷歌的Gemini 2.5 Pro、Anthropic的Claude 3.5 Sonnet以及DeepSeek的R1——与病毒学能力测试(Virology Capabilities Test,简称VCT)进行对比。VCT是一个旨在评估病毒学和湿实验室协议专家级知识的基准。结果显示,像OpenAI的GPT-4o这类AI模型在准确性上超过了大多数人类病毒学家。
研究中提到:“VCT包含322个多模态问题,涵盖了病毒学实验室实际工作所需的基本、隐性和视觉知识。”
拥有或正在攻读病毒学博士学位的科学家使用由OpenAI、谷歌、Anthropic和DeepSeek开发的大语言模型(LLMs)测试了VCT问题。VCT使用的基准问题分为四个类别:重要、困难、验证和多模态。
“重要”类别的问题测试了受试者在病毒学领域的基础知识,这是胜任实验室研究员所需的理解水平。
“困难”类别的问题要求更深层次的知识或领域专长。
“验证”类别中的问题是经过专家审核和验证的答案。
“多模态”问题包含了反映真实实验室场景的图片。
这项研究是在麻省理工学院媒体实验室、巴西UFABC大学和SecureBio中心进行的。
病毒学基准与大语言模型对比研究的结果
结果显示,有互联网访问权限的专家在VCT测试中平均得分22.1%,但AI模型表现更高。
OpenAI的o3模型得分43.8%,优于94%被要求回答特定专业问题的专家病毒学家。
DeepSeek-R1模型得分为38.6%。
谷歌的Gemini 2.5 Pro模型得分为37.6%。
OpenAI的o4-mini模型得分为37%,其早期版本GPT-4模型得分为35.4%。
Anthropic(2024年10月发布)的Claude 3.5 Sonnet模型得分为33.6%。
基于调查结果的安全隐患
研究人员表示:“VCT的结果强调了亟需审慎的访问控制,以平衡有益的研究与安全顾虑。”
甚至更具风险的是能够独立执行任务的AI病毒学家聊天机器人。如果落入不法分子手中,这些AI模型可能被用于制造可能导致大规模破坏的生物武器。
尽管AI提高了效率并增加了准确性,但科学家们警告其潜在危险。虽然科学家可以利用AI预防传染病的大规模爆发,但在非专家手中,AI模型可能被武器化,用于制造和生产生物武器。
“之前我们发现这些模型有很多理论知识,但缺乏实践知识,”AI安全中心主任丹·亨德里克斯在接受《时代》杂志采访时说。“但现在它们获得了令人担忧的大量实践知识。”
“我们希望给予那些有正当理由询问如何操控致命病毒的人——例如麻省理工学院生物学系的研究人员——这样的能力……但刚注册的普通用户不具备这种能力,”亨德里克斯补充道。
风险管理框架的回应
针对研究人员的发现,xAI为Grok模型发布了一个风险管理框架。xAI概述了诸如训练AI模型拒绝有害请求、设置有害输出的断路器以及过滤与网络犯罪和大规模杀伤性武器相关的查询等保障措施。
(以上内容均由Ai生成)