通过机器学习和单细胞 RNA-seq 揭示免疫检查点反应的基因和细胞特征

快速阅读: 据《Nature.com》称，本研究开发了PRECISE框架，利用单细胞RNA测序数据预测免疫治疗反应。通过机器学习模型，实现样本级与细胞级预测结合，提供可解释性。结果显示模型在不同癌症类型中具有稳健性与通用性，为免疫治疗研究提供新思路。

在这项研究中，我们开发了PRECISE（通过提取免疫单细胞表达数据中的细胞和基因预测治疗反应），这是一种机器学习框架，旨在从单细胞RNA测序数据分析中预测对免疫检查点抑制剂（ICI）的反应。我们的目标是为如何在预测任务（如治疗反应）中使用单细胞数据提供一个路线图，同时保持模型的可解释性。

机器学习模型因其能够独特地捕捉肿瘤微环境（TME）中的复杂性并反映在单细胞数据中而脱颖而出。这些监督学习模型的主要优势在于它们能够直接针对目标进行训练，并根据数据特性进行调整。能够在样本级和细胞级两个复杂性层面上同时工作，对于任何设计用于单细胞预测和解释的模型来说都是至关重要的。我们的模型正是以此方式实现的：首先，根据每个细胞所属的样本为其分配标签；接着，将细胞级预测结果综合成样本响应评分；然后，利用SHAP聚合单细胞对模型的影响，并将其分组为样本贡献；最后，通过强化学习模型，将样本响应向下传播至细胞级，为每个细胞赋予预测分数。这种方法充分利用了大量单细胞数据来有效训练机器学习模型，而这些模型通常需要大量的数据。同时，它确保可以在样本级得出有意义的结论，从而创建一个稳健且可解释的预测框架。

由于ROC曲线下面积（AUC）具有阈值独立性的特点，因此被选为主要评估指标。然而，在实际应用中，需要基于临床或政策驱动的目标选择最佳阈值——例如最小化假阳性率（FPR）或假阴性率（FNR）。可以通过交叉验证优化阈值。尽管如此，在用于训练的黑色素瘤数据集中，默认阈值0.5达到了最高的准确性（基础模型为0.833）。然而，由于响应者样本的比例可能会影响预测结果，因此将阈值与该比例对齐可以作为一种替代基准，提供一种直观的方法而不需额外优化。

我们决定将Boruta作为主要特征选择方法，因为它不仅在预测准确性方面表现可靠，而且更重要的是不需要手动选择所选基因的数量。对于基础模型和T细胞，Boruta的表现远远优于其他方法，即使在优化了其他方法的参数后也是如此（Boruta的AUC为0.89，而其他方法为0.83-0.855）。Lasso在某些特定细胞类型中对于某些alpha值取得了略高的AUC，但差异很小（补充数据5）。当使用基于树的机器学习模型时，Boruta证明是一个可靠的选择。

我们的模型在实施和目标上都非常灵活。虽然我们使用了XGBoost，但许多其他具有足够容量的算法同样可以有效地处理数据复杂性。此外，我们选择了包含所有通过预处理步骤的基因，以捕获数据中的最强信号。然而，这种方法可能会忽略数据的重要子集。未来的分析可以关注特定的基因组（如代谢基因），以探索不同的维度并揭示新的见解。

癌症类型的差异以及先前治疗和医疗背景的不同使得从一个数据集到另一个数据集的结果转移非常具有挑战性。尽管面临这些挑战，11个基因的特征在所有数据集中均呈现积极趋势，表明模型结果的稳健性和通用性。RL过滤得分也在大多数数据集中呈现积极趋势，提高了预测准确性并有效地去除了噪声和非预测性的细胞。专注于免疫系统是建立癌症类型之间可转移性的极佳方式，因为尽管癌症可能有很大差异，但免疫系统保留了共同的特征。这很可能解释了为什么我们的模型结果可以在不同癌症类型之间得到推广。

看到在一个数据集中识别的标记物在其他几个数据集中具有预测性固然令人鼓舞，但结果基因可能并不普遍适用。此外，如果直接应用于单独的数据集而没有适当的整合，模型预计表现不佳。事实上，即使在一个数据集内不同样本之间也可能存在较大的批次效应，这可能影响性能。为了检验这一点，我们在一个包含来自不同癌症类型多个队列的数据集上应用了我们的方法，其中包括139名接受ICI治疗的患者样本。数据被标准化以创建标准化数据集，同时保持稀疏性，这是计算效率的重要因素（方法）。预测以10折交叉验证的方式进行，并探索了几种机器学习模型和参数，包括XGBoost、LightGBM、逻辑回归、决策树和三种简单的多层神经网络。这些模型实现了高预测性能，AUC分数范围从0.815到0.89（补充图8，补充数据10）。这些结果证明了模型的泛化能力和潜在适用性，特别是在适当的数据整合之后。

有趣的是，逻辑回归的表现优于所有其他模型，而此前表现最优的决策树则表现最差。未来的工作应致力于扩大该模型的应用范围，可能通过利用基础模型有效整合单细胞数据到统一嵌入中（应牢记可解释性）。扩展模型的输入数据应增强模型的鲁棒性，并开启新的可能性，包括添加高级模型以汇总不同细胞类型和样本级特征（如年龄、性别和细胞间通讯）的分数，生成更全面和准确的整体样本分数。

另一个要考虑的要点是使用基线样本和治疗后样本。虽然此类模型的最终目标是预测治疗前患者的反应，但我们仍在训练数据中包含了治疗前后的样本，以尽可能多地保留用于训练的数据。尽管如此，我们发现仅基于治疗前样本估计的验证数据集的预测准确性相似，甚至在某些情况下产生了更好的分离。此外，需要注意的是，在晚期一线ICI再挑战的情况下，预测治疗后样本的价值在于识别动态生物标志物，这些标志物反映了肿瘤微环境和免疫系统因治疗而发生的变化。与治疗前标志物不同，治疗后特征可以提供实时洞察治疗效果、耐药机制以及患者分层以进行进一步干预。这种方法可以早期识别无反应者，指导适应性治疗策略并优化临床结果。此外，它有助于细化治疗靶点并改进未来免疫疗法试验的设计。

本研究表明，基于单细胞数据训练的机器学习模型在预测免疫治疗反应和提供深刻的生物学洞见方面展现出潜力。这里采用的两步方法使样本级和细胞级预测之间的转换成为可能，提供了平行方法无法提供的粒度可解释性。此外，这是首次在ICI反应预测背景下应用此类方法，使这项工作成为免疫治疗研究的一项新颖贡献。我们通过强化预测良好的细胞来评估其对响应分类的方向性影响的方法，据我们所知，这是首次引入。我们认为这展示了多层次预测建模的潜力，并鼓励在这个方向上进一步创新。

借助PRECISE（通过提取免疫单细胞表达数据中的细胞和基因预测治疗反应），我们提供了一条路径，通过这条路径，单细胞数据不仅可以用于样本预测，还可以用于理解复杂的生物系统，如肿瘤微环境。在此背景下，机器学习模型不仅能进行预测——我们展示了它们在捕捉基因间相互作用、识别非线性表达模式以及量化细胞类型和单细胞参与免疫反应方面的效用。随着数据量的增加及技术的进一步发展，这些模型有望成为极为强大的工具。扩大到更大、多数据集的队列培训将是提高泛化能力的关键。

(以上内容均由Ai生成)