新的 AI 方法可以预测新出现的 SARS-CoV-2 变体

快速阅读: 《News-Medical.Net》消息，佛罗里达大西洋大学研发“深层新型突变搜索”(DNMS)技术，利用AI预测新冠病毒突变。该方法结合语法正确性、语义变化和注意力机制，优于传统方法。研究成果有助于提前应对病毒新变种，提升公共卫生准备。

佛罗里达大西洋大学
2025年3月27日

自新冠疫情被宣布为全球大流行以来，已经过去了五年。随着新冠病毒（SARS-CoV-2）逐渐成为地方性流行病，其未来进化的方向仍悬而未决。新变种可能会因更高的传播能力、更长的感染周期以及更强的免疫逃逸能力等特性而出现。这些变化可能使病毒更容易在曾经感染过或接种过疫苗的人群中传播，从而引发新一轮的感染高峰。预测病毒的新突变对生命科学研究至关重要，特别是在理解病毒如何进化、传播并影响公共健康时。传统上，研究人员依赖湿实验室实验来研究突变。然而，这些实验不仅昂贵而且耗时。佛罗里达大西洋大学工程与计算机科学学院的研究人员开发了一种名为“深层新型突变搜索”（Deep Novel Mutation Search，简称DNMS）的新技术，用于预测蛋白质序列中的突变。这是一种基于深度神经网络的人工智能模型。

在这项研究中，他们专注于新冠病毒的刺突蛋白——这种病毒用来进入人体细胞的关键部分，并利用一种蛋白质语言模型来预测该蛋白中从未见过的潜在新突变。为此，研究人员使用了经过特定微调的语言模型ProtBERT，以帮助理解SARS-CoV-2刺突蛋白的“方言”。该模型通过查看潜在突变并根据多个因素对其进行排名来工作。这些因素包括语法正确性，即根据模型学习到的语法规则，突变的可能性或“正确”程度；以及突变后的序列与原始蛋白质的相似度，这通过语义变化和注意力机制来衡量。

这项研究的结果发表在《通讯生物学》期刊上，显示DNMS语言模型可以根据相似性将序列分组。该模型能够通过寻找仅对蛋白质结构和功能产生微小影响的突变来预测哪些突变可能发生。这是因为，在大多数情况下，像SARS-CoV-2这样的病毒是通过小的变化进化的，这些变化允许它们适应而不大幅改变其整体功能。

DNMS方法利用所有可用的关于序列和突变的信息来创建更准确的突变预测。与以往的研究不同，后者通常关注参考蛋白质序列的变化，DNMS引入了一个父代-子代突变预测模型。父代序列（现有蛋白质序列）用于预测突变，然后基于这些突变可能随时间演化的可能性进行分析。该方法首先获取给定的SARS-CoV-2刺突蛋白序列，并模拟所有可能的单点突变。对于蛋白质的每个突变版本，DNMS使用ProtBERT模型计算每个突变遵循蛋白质“语法”的可能性（语法正确性），以及突变后的序列与原始序列的相似度（语义变化）。此外，该模型还考虑了注意力机制，这是一种用来研究蛋白质结构和功能的测量指标，但以前从未应用于突变预测。

“我们方法的关键在于利用父代序列提供的上下文信息。这个上下文对于评估潜在突变是否符合蛋白质的‘语法’至关重要，”朱教授说道。“DNMS通过从系统发育树（本质上是一株病毒家族树）中选择一个父代序列，并模拟所有可能的突变来工作。”

相关研究还探讨了预测突变与病毒适应性之间的关系，即病毒复制和生存的能力。结果显示，具有高语法正确性、小语义变化和低注意力变化的突变与较高的病毒适应性相关。这表明那些很好地符合蛋白质生物规则并且对蛋白质结构或功能干扰最小的突变更有可能有利于病毒。

“我们认为，仅凭序列数据就能帮助做出这些预测，因为蛋白质遵循某些生物规则，”朱教授补充道。

研究人员通过统计分析验证了DNMS的有效性。他们的结果显示，DNMS在预测新突变方面优于其他方法，因为它将所有相关因素整合到一个更准确的预测模型中。

“我们的研究人员开发的经过微调的预训练语言模型可以预测未来更可能发生的SARS-CoV-2突变，”工程与计算机科学学院院长斯特拉·巴塔尔马博士表示。“这种方法可以指导实验研究，因为它在人群中观察到突变之前提供了关于突变的预测，帮助公共卫生官员追踪并提前准备应对新突变，在它们大规模传播之前。”

研究合著者是佛罗里达大西洋大学电气工程与计算机科学系的博士生玛格达琳·E·埃尔金。这项研究得到了美国国家科学基金会的支持。

**资料来源**：佛罗里达大西洋大学
**期刊参考文献**：埃尔金，M. E.， & 朱，X.（2025）。聚焦SARS-CoV-2方言：一种预测新蛋白质突变的深度神经网络方法。《通讯生物学》。doi.org/10.1038/s42003-024-07262-7

(以上内容均由Ai生成)