病毒基因组特征可预测正痘病毒宿主
快速阅读: 据《Nature.com》最新报道,我们进行了四轮主成分分析(PCA),从OPV基因组数据中提取了十个关键特征,这些特征解释了约70%的数据方差,并用于链接预测模型。尽管数据仅涵盖有限的OPV-宿主配对,我们通过中位数填补缺失数据,确保了12种OPV物种的分析完整性。完整的宿主和病毒特征列表见补充数据3。
接下来,我们进行了四轮主成分分析(PCA),提取出最重要的特征,以便纳入链接预测模型。PCA将高维数据集线性转换到一组不相关的坐标系中,其中第一个主成分解释了最大的方差,随后是每个后续成分。因此,PCA以尽可能少的维度捕获了数据中的大部分方差。使用R软件包`stats`,我们进行了四轮PCA:第一次包括所有981个变量和197个序列;第二次排除了只出现在一种病毒物种中的辅助基因变量(即仅存在于一种病毒物种中的辅助基因);第三次排除了与数据集中其他序列具有相同辅助基因存在/不存在模式的序列;第四次排除了可能的异常值(序列)。每次PCA在不同维度上的方差解释比例略有不同。
此外,我们观察到分数的空间分布情况(即每个个体序列的坐标)和载荷(即每个原始变量与主成分之间的相关性)之间没有明显差异。因此,我们使用了第一次PCA的结果,并提取了前十个主成分的分数作为最终的病毒预测变量清单。这十个主成分解释了大约70%的数据方差(补充图5),并作为病毒预测因子包含在我们的链接预测模型中(补充数据3)。
重要的是,用于PCA分析的OPV基因组数据可用于12种OPV物种,但仅限于有限数量的OPV-宿主配对(例如,猴痘病毒-人类、猴痘病毒-狗)。然而,由于我们将PCA得出的十个主成分变量视为病毒特征,我们对这12种OPV物种中缺失PC数据的宿主连接进行了中位数填补(例如,对于所有未观察到的猴痘病毒-宿主配对,我们应用了猴痘病毒的中位PC值,针对每个主成分的情况)。
重要的是,用于PCA分析的OPV基因组数据可用于12种OPV物种,但仅限于有限数量的OPV-宿主配对(例如,猴痘病毒-人类、猴痘病毒-狗)。链接预测模型中包含的宿主和病毒特征的完整列表可以在补充数据3中找到。
(以上内容均由Ai生成)