人工智能在实验室任务中超越病毒学家，引发了对生物武器安全的担忧

发布时间：2025年4月26日来源：szf

快速阅读: 据《eWeek 系列》称，新研究显示AI在病毒学任务中超越专家，引发更快突破的希望及生物武器风险担忧。麻省理工等机构测试了多个AI模型，发现有网路访问的专家平均得分22.1%，而OpenAI的o3模型得分43.8%。研究人员呼吁谨慎访问控制，xAI提出风险管理框架应对潜在威胁。

图片来源：DC_工作室/Envato元素
eWEEK的内容和产品推荐保持独立编辑立场。当您点击我们的合作伙伴链接时，我们可能会赚钱。了解更多。

一项新研究显示，在专业实验室任务中，人工智能的表现超过了专家病毒学家，这引发了对更快的生物医学突破的希望，同时也引发了对生物武器风险的担忧。

研究人员测试了领先的AI模型——如OpenAI的GPT-4o、谷歌的Gemini 2.5 Pro、Anthropic的Claude 3.5 Sonnet以及DeepSeek的R1——与病毒学能力测试（Virology Capabilities Test，简称VCT）进行对比。VCT是一个旨在评估病毒学和湿实验室协议专家级知识的基准。结果显示，像OpenAI的GPT-4o这类AI模型在准确性上超过了大多数人类病毒学家。

研究中提到：“VCT包含322个多模态问题，涵盖了病毒学实验室实际工作所需的基本、隐性和视觉知识。”

拥有或正在攻读病毒学博士学位的科学家使用由OpenAI、谷歌、Anthropic和DeepSeek开发的大语言模型（LLMs）测试了VCT问题。VCT使用的基准问题分为四个类别：重要、困难、验证和多模态。

“重要”类别的问题测试了受试者在病毒学领域的基础知识，这是胜任实验室研究员所需的理解水平。

“困难”类别的问题要求更深层次的知识或领域专长。

“验证”类别中的问题是经过专家审核和验证的答案。

“多模态”问题包含了反映真实实验室场景的图片。

这项研究是在麻省理工学院媒体实验室、巴西UFABC大学和SecureBio中心进行的。

病毒学基准与大语言模型对比研究的结果

结果显示，有互联网访问权限的专家在VCT测试中平均得分22.1%，但AI模型表现更高。

OpenAI的o3模型得分43.8%，优于94%被要求回答特定专业问题的专家病毒学家。

DeepSeek-R1模型得分为38.6%。

谷歌的Gemini 2.5 Pro模型得分为37.6%。