医疗保健 AI 需要验证，但并未发生

快速阅读: 《医疗保健 IT 新闻》消息，医疗AI缺乏标准验证机制，导致性能不稳定，医院负担加重。专家指出需加强部署前后监测，推动透明化与标准化。

然后负担就转嫁到了医院，这使临床医生陷入困境，他们依赖的AI可能无法泛化，而且没有真正的方法来跟踪性能或进行调整——一位医疗AI治理专家表示，这是一个不可接受的盲点。人工智能与机器学习情报全球人工智能AI人工智能作者：比尔·西维基 | 2025年7月9日 | 上午11点32分费鲁姆健康公司首席执行官兼联合创始人佩卢·特兰图表示，医疗AI最大的缺口之一是目前还没有一种标准的方式来在部署前后验证这些工具。该公司协助医疗机构进行全面的AI治理，解决碎片化实施、偏见、监管挑战和缺乏问责制等障碍。与药物或医疗设备不同，AI在几乎没有透明度的情况下进入市场——一旦推出，其性能可能会因种族、扫描设备类型甚至数据格式而波动。对上市后监测的需求并不新鲜——在与《医疗IT新闻》的讨论中，Tran解释了为什么实际上这种监测并没有发生，以及医院和医疗系统AI和IT领导者需要做些什么。

Q. 所以，仍然没有一种标准的方式来验证医疗AI工具。你为什么认为这会造成这么大的缺口？

A. 部署前和部署后的验证是医疗AI中最被忽视的问题之一，而且是一个大问题。临床环境混乱、高风险，比任何实验室或试验环境都要更加复杂。即使AI模型获得了FDA的批准，这也不意味着它在现实世界中会表现相同。实际上，大多数都不会。RSNA（美国放射学会）的一项研究发现，81%的AI模型在外部数据集上测试时性能下降。近一半的模型性能明显下降，四分之一的模型性能显著下降。这些工具获得批准后，没有一种标准的方法可以在不同扫描设备、医院或患者群体中持续关注它们的表现。因此，负担就转移到了医院，医院不得不自己去解决这个问题。这使临床医生处于困境之中，依赖可能无法泛化的AI，并且没有真正的方法来跟踪性能或进行调整。对于一个旨在支持患者安全的工具来说，这是一个不可接受的盲点。

Q. 为什么这种验证今天没有发生？

A. 目前，FDA将AI视为传统医疗设备——一旦获得批准，基本上就被锁定。即使是小的更新，也可能触发全新的审批流程。这个模式适用于如心脏起搏器之类的设备，但不适合AI，因为AI应该随着时间的推移不断进化和变得更智能。这有点像电子健康记录的早期阶段，当时在隐私、兼容性和标准方面存在重大差距。AI正在经历类似的成长痛苦。如果没有支持持续验证的监管框架，我们可能在这些工具有机会证明自己之前就阻碍了进展并削弱了信任。此外，各州开始推出自己的AI规则——尤其是在公平性和偏见方面——这为医院带来了碎片化的规定。这令人困惑、不一致，并使本已缓慢的采用速度更加缓慢。现实是，在部署之前，很难判断什么有效。很多供应商在纸面上看起来都一样，但如果没有明确的独立性能数据，决策往往取决于谁演示得最好，而不是谁拥有最好的模型。这并不是安全和有效护理的正确方法。

Q. 一个医疗AI工具的验证过程会是什么样子？你认为必须检查哪些内容？

A. 一个健全的医疗AI验证过程必须解决两个大问题：多样性和变化。首先，在任何工具上线之前，它需要在各种真实条件下进行测试——不仅仅是在一家医院或一个数据集上。这意味着不同的扫描设备类型、临床工作流程和患者群体。我们指的是确保模型在种族、年龄和人口统计学上公平运行，并能够处理实际临床实践中出现的所有混乱的变异性。但工具部署后，工作并未停止。AI模型会发生变化，无论是通过正式的更新还是意外的漂移，因此持续的监控不是可选的，而是必不可少的。医院需要一种方法来持续跟踪这些工具的表现，尽早发现问题，并将这些信息反馈到共享数据库中。这种集体监督有助于每个人做出更明智的决策，并减少床边的意外情况。像健康AI联盟和美国放射学会这样的组织已经在建立支持这一目标的基础设施——从共同的标准到国家登记系统。目标是超越猜测和光鲜的营销声明，转向对什么在何时何地有效有清晰透明的认识。

Q. 你认为医院和医疗系统CIO、CAIO和其他IT领导者在购买AI系统时应该注意什么？

A. 对于评估AI工具的CIO和CAIO来说，有几个重要的事情需要注意——如果你只关注演示或FDA印章，很容易忽略这些要点。首先，不要假设FDA的审批意味着该模型在你的环境中表现良好。大多数工具都是在狭窄的数据集上验证的，通常来自纽约、波士顿或旧金山等地的学术中心。俄勒冈州农村的一位患者可能与曼哈顿的患者有不同的合并症、影像协议或随访模式。这些差异可能会极大地影响AI的性能。最终，确保这些工具在其使用的地方确实有效，这是医疗系统的责任，而不是供应商或监管机构的责任。其次，考虑长期的基础设施。部署一个AI工具可能需要数月时间，成本高达数万美元。现在想象一下在放射科、心脏病学、病理学等多个领域进行部署——如果每个工具都单独处理，这是不可持续的。相反，应推动集中化的AI基础设施——一个可以同时部署、集成和监控多个模型的共享平台。它可以减少重复工作，加快部署速度，并使在整个医疗系统中扩展AI成为可能，而不会让IT团队精疲力尽。第三，要求更多的不只是流行语。太多采购决策仍然取决于谁的演讲最精彩或谁的品牌最知名。真正需要的是标准化、透明的性能报告——显示工具在不同人群中的实际表现，而不仅仅是幻灯片上的好数据。这将帮助你避免那些无法提供价值的工具。最后，要考虑更大的生态系统。如果验证的标准过高，只有大型供应商才能参与，这可能会扼杀小型初创企业带来的创新，而这些初创企业通常正在开发最令人兴奋的工具。最佳平衡点是轻便的上市后性能报告，它能对工具负责，而不会阻止它们最初到达患者手中。

在领英上关注比尔的HIT报道：比尔·西维基给他发邮件：[email protected]《医疗IT新闻》是HIMSS媒体出版物。立即观看：根据VA AI负责人说法如何启动医疗AI项目主题：人工智能，质量和安全

(以上内容均由Ai生成)