AI预测千种疾病风险,助力未来医疗规划
快速阅读: 研究人员开发出Delphi-2M模型,能预测1,256种疾病的发展,利用大规模健康数据和个人病史,为精准医疗和政策规划提供支持。模型预测准确性高,尤其在长期健康轨迹预测上展现优势。
由 Priyanjana Pramanik 和 Susha Cheriyedath 审核,发表于 2025 年 9 月 18 日。一项强大的新人工智能技术能够预测超过 1,000 种疾病在个人生命历程中的发展情况,为精准预防、政策规划和公平意识的医疗创新打开了大门。这项研究发表在《自然》杂志上,研究人员开发了一种机器学习模型,利用大规模健康数据,根据患者的过往病史预测 1,256 种不同的 ICD-10 第三级疾病的进展。
该模型的预测准确性可与现有的针对单个疾病分析的工具相媲美,其潜力在于能够在长达二十年的时间内模拟未来的健康轨迹,并提供关于个性化健康风险和共病的见解。人类疾病的进展涉及健康期、急性病期和慢性病期,通常表现为由遗传、生活方式和社会经济因素影响的共病集群。理解这些模式对于提供个性化医疗服务、生活方式指导以及实施有效的早期筛查项目至关重要。然而,传统算法主要设计用于单一疾病,无法捕捉到超过 1,000 种已知健康状况的复杂性。这一局限性在老龄化人口背景下尤为重要,预计未来几十年癌症、糖尿病、心血管疾病和痴呆症等疾病的负担将显著增加。因此,准确建模疾病轨迹对于医疗保健规划和经济政策都至关重要。
人工智能,特别是大型语言模型(LLMs),提供了一个有希望的解决方案。这些模型擅长学习数据序列间的依赖关系,类似于根据之前的健康事件预测疾病。受此类比的启发,研究人员开发了基于变压器的模型来预测特定条件,早期结果显示出了令人鼓舞的结果。尽管取得了这些进展,但尚未系统评估过一种真正全面且具有生成能力的模型,能够随时间模拟多病共存的完整范围。
研究人员创建了 Delphi-2M,这是一种基于变压器的模型,用于预测终身疾病轨迹。与处理单词的语言模型不同,Delphi-2M 处理的是第十版国际疾病分类(ICD-10)的诊断代码,以及死亡、性别、BMI 和吸烟饮酒等生活方式因素。为了填补医疗记录中的空白,团队插入了人工“无事件”标记。它包括性别和生活方式标记,词汇表涵盖疾病代码、生活方式水平、性别、无事件和填充标记(总计约 1,270 项)。训练基于来自英国生物银行的大规模健康记录,包括 402,799 名参与者用于训练,100,639 名用于验证,471,057 名用于纵向测试。为了测试其通用性,该模型还在丹麦 193 万个人的数据上进行了验证。
该模型经过多种修改以适应健康数据:用连续年龄编码代替位置编码,增加一个预测下一次事件时间的输出头,并修改注意力掩码以防止同一时间点的标记相互影响。通过超参数调优优化性能,Delphi-2M 结合了预测准确性和生成能力,成为一个包含 2.2 百万参数的模型,为多病共存和长期健康进展的建模提供了新的方法。
图 a 显示了基于 ICD-10 诊断、生活方式和健康填充标记的健康轨迹,每个标记记录在一个特定年龄。图 b 显示了从英国生物银行(左)和丹麦疾病登记处(右)提取的训练、验证和测试数据。图 c 显示了 Delphi 模型架构,红色元素表示与底层 GPT-2 模型相比的变化。“N ×” 表示顺序应用变压器块 N 次。图 d 显示了模型输入(提示)和输出(样本),包括(年龄:标记)对。图 e 显示了 Delphi 的扩展定律,表明了不同训练数据量下的最优验证损失与模型参数的关系。图 f 显示了消融结果,通过与基于年龄和性别的基线相比的交叉熵差异测量(y 轴)不同年龄(x 轴)。图 g 显示了预测时间到事件的准确性,观察到的时间(y 轴)和预期的时间(x 轴)显示了每个下一个标记预测(灰色点)。蓝色线显示了 x 轴连续区间上的平均值。
在评估模型性能方面,Delphi-2M 展现了出色的预测能力和生成能力,为理解和预测复杂的人类疾病进程提供了有力工具。
德尔菲-2M的性能评估基于英国生物银行63,622名参与者直至60岁的健康数据。该模型生成了模拟健康轨迹,并将其与实际结果进行了对比。对于70岁和75岁时的疾病率预测,其结果与观察到的趋势高度吻合,证实了模型在捕捉人口级发病率趋势方面的能力。尽管在更长的时间范围内预测准确性有所下降,从平均AUC值约0.76降至10年时的约0.70,德尔菲-2M仍然优于仅基于年龄和性别的模型。
该模型能够有效区分由生活方式或既往疾病定义的不同亚组的风险,支持其在个性化风险评估中的价值。重要的是,德尔菲-2M还可以生成反映真实世界疾病模式的合成健康轨迹,而不会复制个人记录。仅使用这些合成数据训练的模型仍保留了大部分原始性能,AUC值仅下降了三个百分点。这表明该模型在隐私保护研究中的潜在应用。
为了解读预测结果,研究人员检查了嵌入空间,发现疾病集群与ICD-10章节一致,并展示了特定诊断如何影响结果,例如胰腺癌对死亡率的显著影响。丹麦数据的外部验证确认了模型的泛化能力,虽然表现略有下降,平均AUC值约为0.67。最后,研究指出了其局限性,包括英国生物银行招募过程中的偏差和数据缺失模式。
结论部分指出,该研究介绍了德尔菲-2M,一种基于GPT的模型,能够预测并模拟多种疾病的进展。与单病种或生物标志物模型相比,德尔菲-2M在预测超过1,000种健康风险方面表现出强大的准确性。然而,在糖尿病风险预测方面,其表现低于单标志物HbA1c方法,但在丹麦数据测试中,性能下降幅度较小。
该模型能够生成合成未来轨迹,允许估计长期疾病负担,并创建保护隐私的数据集。它还揭示了共病模式和疾病时间影响,例如癌症带来的持续死亡风险,并在预测死亡方面达到了约0.97的AUC值。然而,研究也注意到了几个限制因素。预测反映了英国生物银行数据中的偏差,包括健康志愿者效应、招募偏差和数据缺失模式。不同祖先和社会经济群体之间也存在差异。值得注意的是,模型捕捉的是统计关联而非因果关系,这限制了其在临床直接应用的可能性。
总体而言,德尔菲-2M展示了基于变压器模型在个性化风险预测、医疗保健规划和生物医学研究方面的潜力。未来的改进可能包括整合多模态数据、支持临床决策以及帮助老龄化人口的政策制定。参考文献:《利用生成变压器学习人类疾病自然史》,作者:Shmatko, A., Jung, A.W., Gaurav, K., Brunak, S., Mortensen, L.H., Birney, E., Fitzgerald, T., Gerstung, M.,《自然》(2025)。DOI: 10.1038/s41586-025-09529-3, https://www.nature.com/articles/s41586-025-09529-3。
(以上内容均由Ai生成)