AI预测千种疾病风险，助力早期预防

快速阅读: 德国癌症研究中心开发的AI“Delphi-2M”能预测超1000种疾病风险，基于40万份医疗记录训练，预测20年内患多种疾病可能性，尤其在心血管疾病和痴呆症方面表现优异。

还记得上次去看医生时，他们可能询问了你的病史吗？对于许多疾病而言，这些信息不仅对诊断和治疗至关重要，而且对预防也极为重要。得益于人工智能（AI），现在有多种算法能够根据医疗记录预测单个疾病的患病风险，例如心血管疾病和癌症。

然而，疾病并非孤立存在。某些病症可能会增加其他病症的风险。全面了解一个人的健康轨迹，可以预测其患多种疾病的风险。这不仅能指导早期治疗，还能识别出需要筛查和其他预防措施的高危人群。此外，它还能识别出那些不符合常规标准但处于某种疾病风险中的人群，比如高血压或乳腺癌。

近日，德国癌症研究中心的研究团队及其合作者发布了一款名为“Delphi-2M”的AI“先知”，该AI能够预测一个人未来几十年内患上超过1000种常见疾病的风险。Delphi-2M是一种大型语言模型，类似于支持流行聊天机器人的算法。不过，研究团队并未用文本训练AI，而是向其提供了来自英国生物银行（UK Biobank）的超过40万份医疗记录，该研究追踪了参与者随年龄增长的健康状况。在加入体重指数、吸烟和饮酒习惯等生活方式信息后，Delphi能够预测每位参与者至少20年内患多种疾病的可能性。

尽管AI仅基于生物银行队列进行了训练，但它在未更改设置的情况下，成功地绘制了丹麦近200万人的健康轨迹，显示出它已经掌握了疾病风险和相互作用的核心。Delphi还具有可解释性，能够阐明其评估的理由。

安格利亚鲁斯金大学的贾斯汀·斯特宾（Justin Stebbing）表示，这款工具是一项“成就”，为医疗保健领域的“预测准确性和可解释性设定了新标准”。

随着医疗保健从治疗转向预防，个人指导有时会令人困惑。以乳房X光检查为例，关于何时开始检测的建议曾从40岁改为50岁，又改回40岁。更广泛地说，随着全球人口老龄化，模拟癌症、痴呆症等疾病负担，有助于更好地准备应对所谓的“银发海啸”。

在这种背景下，医疗AI发挥了重要作用。早期的工具旨在通过医学影像诊断疾病，而大型语言模型则开辟了预测的新途径。这些算法与传统疾病建模共享相同的逻辑。AI将语言视为一系列被称为标记的词片段序列，然后基于从网络资源中学习到的文本，逐个标记生成响应。经过充分的训练数据，AI能够学习标记之间的统计关系，从而生成类似人类的响应。

预测疾病进程与此有些类似。如果将疾病进展的每一步视为一个标记，那么预测下一步就是统计上确定这些标记如何关联。科学家们已经利用类似大型语言模型的算法，通过对电子健康记录的训练，来预测包括癌症、中风和自伤在内的单个疾病。

然而，同时预测多种疾病则是另一回事。

今年早些时候，一款名为Foresight的AI在这方面取得了进一步突破。Foresight基于英格兰国家卫生服务局的5700万份匿名健康记录进行了训练，学会了预测住院、心脏病发作和数百种其他情况，但由于隐私问题，该算法的应用仅限于新冠病毒研究。

德国团队设计的Delphi将每种疾病的诊断代码视为一个标记。这些代码在全球范围内是标准化的。团队随后对大型语言模型进行了改造，以纳入新的信息，例如血液检测结果，从而重新评估其预测。

Delphi基于超过40万份涵盖1258种疾病的综合健康记录进行了训练，同时还考虑了性别、体重指数等其他自我报告的生活方式指标，包括吸烟和饮酒习惯。AI立即发现了基于年龄和其他人口统计模式的总体趋势。例如，水痘发病率在婴儿期达到峰值，而哮喘则倾向于长期存在。一个人的生理性别对其糖尿病、抑郁症和心脏病发作的风险也有显著影响。

对于大多数疾病，Delphi 的预测表现优于临床风险评分考试和针对个别疾病的医疗人工智能预测器。它还超过了其他用于分析生物标志物（通常是血液中的特定蛋白质或其他分子）的算法，在预测某些疾病长达二十年的风险方面表现出色。

研究团队写道：“Delphi 提供了‘在任何时候同时评估超过 1,000 种疾病及其发生时间的巨大优势’。”

该人工智能在心血管疾病和痴呆症的分析中尤为有用，这两种疾病的发展模式相对稳定。然而，对于 2 型糖尿病，其发展轨迹受生活方式变化的影响较大，Delphi 的预测效果较差。

接下来，研究团队使用近两百万条丹麦健康记录测试了 Delphi，未对算法进行任何调整。这些记录来自丹麦国家患者登记处，涵盖了近半个世纪的医疗数据。结果显示，Delphi 的预测准确性几乎没有下降，表明该人工智能可以应用于其训练数据之外的健康记录数据集。

Delphi 还具有其他优点。它可以生成并学习合成的医疗记录数据，以降低侵犯参与者隐私的风险。此外，Delphi 还能够“自我解释”。例如，像糖尿病这样的疾病通常伴随其他健康问题，如视力问题或周围神经病变。Delphi 将这些症状归类，有助于科学家探索这些联系背后的基因或细胞驱动因素。

研究团队强调，Delphi 仅揭示关联，而非因果关系。但他们设计了这款人工智能，使其能够轻松整合其他数据，如基因组、诊断图像、生物标志物甚至可穿戴设备的数据，以进一步提高其预测能力。他们现在正在其他国家和地区测试这一工具。

与其他人工智能算法一样，Delphi 从其训练数据中学习预测——这包括数据中的偏见。英国生物银行的健康记录通常偏向白人、中年和受过良好教育的人群。对于癌症患者，只有生存者被纳入数据库，这可能会影响人工智能的预测。对于 80 岁以上的老年人，可用数据非常有限，因此 Delphi 无法可靠地模拟他们的健康轨迹。

即便如此，该人工智能仍可以帮助识别那些可以从诊断测试或筛查项目中受益的人群，即使他们不符合传统标准，例如乳腺癌筛查。

伦敦国王学院的 Gustavo Sudre（未参与此项研究）表示：“这项研究似乎是向可扩展、可解释且最重要的是道德责任的医学预测建模迈出的重要一步。”

Shelly Fan

Shelly Fan 博士是一位从神经科学家转行的科学作家。她对大脑、人工智能、长寿、生物技术和这些领域的交叉点的研究充满兴趣。作为一名数字游牧民，她喜欢探索新文化、当地美食和户外活动。

(以上内容均由Ai生成)