AI预测千种疾病风险，助力未来医疗规划

快速阅读: 研究人员开发出Delphi-2M模型，能预测1,256种疾病的发展，利用大规模健康数据和个人病史，为精准医疗和政策规划提供支持。模型预测准确性高，尤其在长期健康轨迹预测上展现优势。

由 Priyanjana Pramanik 和 Susha Cheriyedath 审核，发表于 2025 年 9 月 18 日。一项强大的新人工智能技术能够预测超过 1,000 种疾病在个人生命历程中的发展情况，为精准预防、政策规划和公平意识的医疗创新打开了大门。这项研究发表在《自然》杂志上，研究人员开发了一种机器学习模型，利用大规模健康数据，根据患者的过往病史预测 1,256 种不同的 ICD-10 第三级疾病的进展。

该模型的预测准确性可与现有的针对单个疾病分析的工具相媲美，其潜力在于能够在长达二十年的时间内模拟未来的健康轨迹，并提供关于个性化健康风险和共病的见解。人类疾病的进展涉及健康期、急性病期和慢性病期，通常表现为由遗传、生活方式和社会经济因素影响的共病集群。理解这些模式对于提供个性化医疗服务、生活方式指导以及实施有效的早期筛查项目至关重要。然而，传统算法主要设计用于单一疾病，无法捕捉到超过 1,000 种已知健康状况的复杂性。这一局限性在老龄化人口背景下尤为重要，预计未来几十年癌症、糖尿病、心血管疾病和痴呆症等疾病的负担将显著增加。因此，准确建模疾病轨迹对于医疗保健规划和经济政策都至关重要。

人工智能，特别是大型语言模型（LLMs），提供了一个有希望的解决方案。这些模型擅长学习数据序列间的依赖关系，类似于根据之前的健康事件预测疾病。受此类比的启发，研究人员开发了基于变压器的模型来预测特定条件，早期结果显示出了令人鼓舞的结果。尽管取得了这些进展，但尚未系统评估过一种真正全面且具有生成能力的模型，能够随时间模拟多病共存的完整范围。

研究人员创建了 Delphi-2M，这是一种基于变压器的模型，用于预测终身疾病轨迹。与处理单词的语言模型不同，Delphi-2M 处理的是第十版国际疾病分类（ICD-10）的诊断代码，以及死亡、性别、BMI 和吸烟饮酒等生活方式因素。为了填补医疗记录中的空白，团队插入了人工“无事件”标记。它包括性别和生活方式标记，词汇表涵盖疾病代码、生活方式水平、性别、无事件和填充标记（总计约 1,270 项）。训练基于来自英国生物银行的大规模健康记录，包括 402,799 名参与者用于训练，100,639 名用于验证，471,057 名用于纵向测试。为了测试其通用性，该模型还在丹麦 193 万个人的数据上进行了验证。

该模型经过多种修改以适应健康数据：用连续年龄编码代替位置编码，增加一个预测下一次事件时间的输出头，并修改注意力掩码以防止同一时间点的标记相互影响。通过超参数调优优化性能，Delphi-2M 结合了预测准确性和生成能力，成为一个包含 2.2 百万参数的模型，为多病共存和长期健康进展的建模提供了新的方法。

图 a 显示了基于 ICD-10 诊断、生活方式和健康填充标记的健康轨迹，每个标记记录在一个特定年龄。图 b 显示了从英国生物银行（左）和丹麦疾病登记处（右）提取的训练、验证和测试数据。图 c 显示了 Delphi 模型架构，红色元素表示与底层 GPT-2 模型相比的变化。“N ×” 表示顺序应用变压器块 N 次。图 d 显示了模型输入（提示）和输出（样本），包括（年龄：标记）对。图 e 显示了 Delphi 的扩展定律，表明了不同训练数据量下的最优验证损失与模型参数的关系。图 f 显示了消融结果，通过与基于年龄和性别的基线相比的交叉熵差异测量（y 轴）不同年龄（x 轴）。图 g 显示了预测时间到事件的准确性，观察到的时间（y 轴）和预期的时间（x 轴）显示了每个下一个标记预测（灰色点）。蓝色线显示了 x 轴连续区间上的平均值。

在评估模型性能方面，Delphi-2M 展现了出色的预测能力和生成能力，为理解和预测复杂的人类疾病进程提供了有力工具。

德尔菲-2M的性能评估基于英国生物银行63,622名参与者直至60岁的健康数据。该模型生成了模拟健康轨迹，并将其与实际结果进行了对比。对于70岁和75岁时的疾病率预测，其结果与观察到的趋势高度吻合，证实了模型在捕捉人口级发病率趋势方面的能力。尽管在更长的时间范围内预测准确性有所下降，从平均AUC值约0.76降至10年时的约0.70，德尔菲-2M仍然优于仅基于年龄和性别的模型。

该模型能够有效区分由生活方式或既往疾病定义的不同亚组的风险，支持其在个性化风险评估中的价值。重要的是，德尔菲-2M还可以生成反映真实世界疾病模式的合成健康轨迹，而不会复制个人记录。仅使用这些合成数据训练的模型仍保留了大部分原始性能，AUC值仅下降了三个百分点。这表明该模型在隐私保护研究中的潜在应用。

为了解读预测结果，研究人员检查了嵌入空间，发现疾病集群与ICD-10章节一致，并展示了特定诊断如何影响结果，例如胰腺癌对死亡率的显著影响。丹麦数据的外部验证确认了模型的泛化能力，虽然表现略有下降，平均AUC值约为0.67。最后，研究指出了其局限性，包括英国生物银行招募过程中的偏差和数据缺失模式。

结论部分指出，该研究介绍了德尔菲-2M，一种基于GPT的模型，能够预测并模拟多种疾病的进展。与单病种或生物标志物模型相比，德尔菲-2M在预测超过1,000种健康风险方面表现出强大的准确性。然而，在糖尿病风险预测方面，其表现低于单标志物HbA1c方法，但在丹麦数据测试中，性能下降幅度较小。

该模型能够生成合成未来轨迹，允许估计长期疾病负担，并创建保护隐私的数据集。它还揭示了共病模式和疾病时间影响，例如癌症带来的持续死亡风险，并在预测死亡方面达到了约0.97的AUC值。然而，研究也注意到了几个限制因素。预测反映了英国生物银行数据中的偏差，包括健康志愿者效应、招募偏差和数据缺失模式。不同祖先和社会经济群体之间也存在差异。值得注意的是，模型捕捉的是统计关联而非因果关系，这限制了其在临床直接应用的可能性。

总体而言，德尔菲-2M展示了基于变压器模型在个性化风险预测、医疗保健规划和生物医学研究方面的潜力。未来的改进可能包括整合多模态数据、支持临床决策以及帮助老龄化人口的政策制定。参考文献：《利用生成变压器学习人类疾病自然史》，作者：Shmatko, A., Jung, A.W., Gaurav, K., Brunak, S., Mortensen, L.H., Birney, E., Fitzgerald, T., Gerstung, M.，《自然》（2025）。DOI: 10.1038/s41586-025-09529-3, https://www.nature.com/articles/s41586-025-09529-3。

(以上内容均由Ai生成)