人工智能如何改变病理学

快速阅读: 据《Nature.com》称，病理学面临诊断压力，AI助手被寄予厚望。多伦多大学王波称AI可提升诊断精准性和效率。哈佛科学家开发了能模拟整个病理过程的聊天机器人，但其可靠性仍需验证。模型多样性和规模重要，但过拟合问题需解决。未来两到三年内，基础模型有望成为临床验证产品。

如果你曾经做过活检，那么你——或者至少你的切除组织——已经被病理学家检查过了。“病理学是诊断的核心，尤其是在癌症诊断方面，”加拿大多伦多大学的计算机科学家王波说道。但病理学家们正面临越来越大的压力。在全球范围内，需求超过了供应，许多国家都面临着短缺。同时，病理学家的工作也变得更加繁重。他们不仅要进行越来越多的传统任务，比如切片和染色组织，然后在显微镜下观察，还要进行需要额外工具和专业知识的测试，例如基因和其他分子标记的检测。对于王波和其他人来说，解决这一日益严重的问题的一个可能方法在于人工智能（AI）。

AI工具可以在多个方面帮助病理学家：突出组织中的可疑区域，标准化诊断并揭示人类肉眼无法察觉的模式等。王波说：“它们有潜力提高诊断的精准性、可重复性和效率”，“同时也为挖掘大规模病理和分子数据开辟了新的研究方向。”

科学领域的ChatGPT：如何与你的数据对话

在过去的几十年里，幻灯片越来越多地被数字化，使病理学家能够在屏幕上而不是显微镜下研究样本——尽管许多人仍然更喜欢使用显微镜。这些包含整个幻灯片的图像对计算机科学家和生物医学工程师来说证明是非常有价值的，他们利用这些图像开发了基于AI的助手。此外，像ChatGPT和DeepSeek这样的AI聊天机器人的成功也激励研究人员将类似的技术应用于病理学。“这是一个非常活跃的研究领域，每天都有大量新研究出现，”王波说，“这非常令人兴奋。”

科学家们设计了AI模型来执行诸如分类疾病、预测治疗结果以及识别疾病的生物学标志物等任务。有些人甚至开发出了可以帮助医生和研究人员解读隐藏在组织切片中的数据的聊天机器人。哈佛医学院的计算机科学家法伊萨尔·马哈茂德说：“这样的模型‘基本上可以模拟整个病理过程’，从分析幻灯片到订购测试再到撰写报告。”“所有这些今天的技术都可以实现。”

但一些研究人员持怀疑态度。他们表示，AI模型尚未得到充分验证——并且某些模型的不透明性给将其部署到临床带来了挑战。“最终，当这些工具进入医院，来到患者床边时，它们需要提供可靠、精准且稳定的结果，”梅奥诊所的计算机科学家哈米德·蒂兹霍什说。“我们仍在等待这些。”

基础模型的构建

早期用于病理学的AI工具旨在执行明确的任务，例如检测乳腺组织活检样本中的癌症。但“基础”模型的到来——这些模型能够适应它们未专门训练过的广泛应用程序——提供了一种替代方法。其中最著名的“基础”模型之一是驱动生成式AI工具（如ChatGPT）的大语言模型。然而，ChatGPT是在互联网上的大量文本上进行训练的，而病理学家没有相应庞大的资源来训练他们的软件。

对于马哈茂德来说，2023年的一项潜在解决方案出现在科技巨头Meta发布的DINOv2中，这是一种旨在执行视觉任务（如图像分类）的基础模型。关于DINOv2的研究论文为马哈茂德提供了一个重要见解——即训练数据集的多样性比其规模更为重要。通过应用这一原则，马哈茂德和他的团队于2024年3月推出了他们所描述的病理学通用模型UNI2。他们收集了一个涵盖患病与健康状态的器官和组织的超过1亿张图片的数据集，这些图片来自10万张幻灯片。研究人员随后使用该数据集训练了一个自我监督学习算法——一种机器学习模型，它教会自己在大型数据集中检测模式。该团队报告称，UNI在数十种分类任务中表现出色，包括检测乳腺癌和脑癌中的癌转移和各种肿瘤亚型。目前版本UNI2的训练数据集已扩大，其中包括超过2亿张图片和35万张幻灯片（参见go.nature.com/3h5qkwb）。

该团队设计的第二个基础模型采用了相同的数据集多样性哲学，但也包含了来自病理学幻灯片的图片和从PubMed和其他医学数据库获取的文本（此类模型称为多模态）。与UNI类似，该模型——名为CONCH（Histopathology对比学习的标题）——在癌症亚型分类等分类任务中表现优于其他模型，研究人员发现。例如，它可以以超过90%的准确率区分携带BRCA基因突变的癌症亚型，准确识别BRCA基因突变的精确度超过90%，而其他模型大多表现得与随机猜测无异。它还能对图像进行分类和添加描述，根据图像查询检索文本，反之亦然，生成特定癌症中观察到的模式图。然而，在这些任务中的准确性不如分类任务那么高。

在一对一评估中，即便下游模型训练可用的数据点非常少，CONCH也始终优于基线方法。与UNI类似，该模型——名为CONCH（Histopathology对比学习的标题）——在癌症亚型分类等分类任务中表现优于其他模型，研究人员发现。例如，它可以以超过90%的准确率区分携带BRCA基因突变的癌症亚型。UNI和CONCH已在模型共享平台Hugging Face上公开可用（参见go.nature.com/44g24w2）。研究人员已经用它们进行了多种应用，包括神经母细胞瘤的分级和亚型分类、预测治疗结果以及识别与特定疾病相关的基因表达生物标志物。下载量已超150万次，引用次数达数百次，这些模型被应用于我从未想到的用途。我不知道有这么多人对计算病理学感兴趣。

其他团队也开发了自己的病理学基础模型。例如，由香港科技大学计算机科学家陈浩带领的团队设计的mSTAR整合了基因表达谱、图像及文本（5）。同样可在Hugging Face平台上获取（参见go.nature.com/3ylmauf），mSTAR被设计用来检测转移、癌症亚型分类并执行其他任务。

现在，Mahmood和陈浩的团队基于他们的模型构建了“副驾驶”。2024年6月，Mahmood团队推出了PathChat——一款结合了UNI和大型语言模型的通用型人工智能助手（6）。然后，该模型使用来自PubMed文章、病例报告和其他来源的近一百万个问题和答案进行了微调。病理科医生可以使用它来讨论上传的图像并生成报告等。该聊天机器人已授权给位于马萨诸塞州波士顿的生物医学公司Modella AI，并在今年早些时候获得了美国食品药品监督管理局的突破性设备指定。同样，陈浩的团队开发了SmartPath，这是一种正在中国医院中进行测试的聊天机器人。病理科医生正与该工具在乳腺癌、肺癌和结肠癌的评估中展开竞争。

除了分类任务之外，PathChat和SmartPath均具备类似代理的能力——计划、决策和自主行动的能力。据Mahmood所言，这使PathChat能够优化病理科医生的工作流程——例如，突出可能对某种疾病呈阳性的病例，订购进一步的测试以支持诊断过程并撰写病理报告。

德国德累斯顿工业大学的肿瘤学家Jakob Kather表示，基础模型标志着病理学领域一项真正的技术革新——尽管它们尚未得到监管机构的批准。“我认为这些工具成为广泛可用、临床验证的产品大约需要两到三年时间，”他说。

人工智能革命？并非所有人都认为基础模型将为医学领域带来革命性改变——至少短期内不会。一个关键问题是准确性。具体来说，如何量化它，Emory大学的生物医学工程师Anant Madabhushi说。由于数据相对缺乏，大多数病理学人工智能研究采用交叉验证法，即将数据集的一部分保留用于训练，另一部分用于测试。这种方法可能导致过拟合等问题，即算法在与模型之前遇到的信息相似的数据上表现良好，但在不同的数据上表现不佳。“交叉验证法往往提供相当乐观的结果，”Madabhushi解释道。“验证这些模型的最佳方式是通过外部独立验证，其中外部测试集与训练集分开且不同，理想情况下来自不同的机构。”

为什么肿瘤地理学重要——以及如何绘制它

此外，模型在现场的表现可能不如开发者所建议的那样好。在2月份发表的一项研究中（7），Tizhoosh及其同事对包括UNI和GigaPath在内的几种病理学基础模型进行了测试。使用零样本方法，即在一个模型尚未遇到的数据集上进行测试（在这种情况下，来自癌症基因组图谱的数据，包含来自超过9,000名个体的大约11,000张切片），该团队发现，评估的模型平均而言在癌症识别上的准确性甚至不及随机猜测——尽管某些模型在特定器官（如肾脏）上表现更好。

(以上内容均由Ai生成)