AI 系统在降低医疗成本的同时匹配诊断准确性
快速阅读: 《News-Medical.Net》消息,微软AI系统在复杂病例诊断中比医生更准确、高效且成本更低。研究基于NEJM病例,使用SDBench评估,结果显示AI表现优异。
由普里约姆·博斯博士、劳伦·哈达克审阅,2025年7月2日
在一项新研究中,微软的AI驱动诊断系统在解决最复杂的医学病例方面比经验丰富的医生更快、更便宜且更准确。
研究:使用语言模型进行连续诊断
图片来自:metamorworks/Shutterstock.com
*重要声明:arXiv发布的是未经同行评审的初步科学报告,因此不应被视为结论性的,不能作为指导临床实践/健康行为或视为已确立的信息。
最近在arXix预印本服务器上的一项研究比较了人工智能系统与临床医生在复杂病例中的诊断准确性和资源消耗情况。微软AI团队展示了人工智能(AI)在医学中高效利用的潜力,以应对医生难以解读的诊断挑战。
连续诊断和语言模型
通常,医生通过一个涉及逐步、迭代提问和测试的临床推理过程来诊断患者。即使初始信息有限,临床医生也会通过向患者提问并借助生化检测、影像学、活检和其他诊断程序来缩小可能的诊断范围。
解决复杂病例需要广泛的一系列技能,包括确定最关键的问题或测试,保持对测试成本的意识以避免增加患者的负担,并识别证据以做出自信的诊断。
多项研究表明,语言模型(LMs)在医学执照考试和高度结构化的诊断案例中表现出更高的效率。然而,大多数LMs的表现是在人工条件下评估的,这与现实世界的临床环境大相径庭。
大多数用于诊断评估的LM模型基于选择题测验,诊断是从预定义的答案集中得出的。缩短的连续诊断周期会增加夸大静态基准模型能力的风险。此外,这些诊断模型存在随意订购检测项目和过早做出诊断结论的风险。因此,迫切需要一种基于连续诊断周期的AI系统,以提高诊断准确性并降低检查成本。
多项研究表明,语言模型(LMs)在医学执照考试和高度结构化的诊断案例中表现出更高的效率。然而,大多数LMs的表现是在人工条件下评估的,这与现实世界的临床环境大相径庭。
研究背景
为克服上述LM模型在临床诊断中的缺点,科学家们开发了连续诊断基准(SDBench),作为一个交互式框架,通过真实的连续临床接触来评估诊断代理(人类或AI)。
为了评估诊断准确性,本研究使用了《新英格兰医学杂志》(NEJM)每周发表的病例,这是世界上最领先的医学期刊。该期刊通常以详细叙述的形式发表来自马萨诸塞州总医院的患者病例记录。这些病例是临床医学中最具有诊断挑战性和智力要求的病例,通常需要多位专家和诊断测试才能确认诊断。
相关报道
专家绘制路径,将微生物组科学带入常规临床护理
ChatGPT-4通过英国医学执照考试,但在实际临床决策中表现不佳,研究揭示
RSV在老年人群中的低估掩盖了其真实影响
SDBench将2017年至2025年NEJM临床病理会议(CPC)中的304个病例重新构建为逐步诊断接触。医疗数据涵盖从临床表现到最终诊断的各种情况,从常见疾病(如肺炎)到罕见疾病(如新生儿低血糖)。使用交互平台,诊断代理决定提出哪些问题、订购哪些测试以及何时确认诊断。
信息守门人是一个语言模型,它仅在被明确查询时才选择性地披露完整病例文件中的临床细节。它还可以为原始CPC叙述中未描述的测试提供额外的、与病例一致的信息。在根据守门人的信息做出最终诊断后,临床评估的准确性被与真实诊断进行了对比。此外,还估计了在实际诊断中所有请求的诊断测试的累计成本。通过评估诊断准确性和成本,SDBench表明我们距离可持续成本的高质量护理有多近。
研究发现
本研究分析了SDBench上所有诊断代理的表现。AI代理在所有304个NEJM病例上进行了评估,而医生则在56个测试集子集上进行了评估。这项研究观察到AI代理在这一子集上的表现优于医生。
在美国和英国执业、平均有12年临床经验的医生在SDBench上的诊断准确率为20%,平均每例花费2963美元,突显了该基准的固有难度。医生每例平均花费11.8分钟,提出6.6个问题和7.2项测试。GPT-4在诊断准确性和成本方面都超过了医生。市面上现成的模型在诊断准确性和成本上表现出不同的水平。
本研究还介绍了MAI诊断协调器(MAI-DxO),这是一个与医生共同设计的平台,其诊断效率高于人类医生和商业语言模型。与商业LM相比,MAI-DxO显示出更高的诊断准确性和医疗成本显著降低超过一半。例如,现成的O3模型在7860美元的费用下实现了78.6%的诊断准确率,而MAI-DxO仅花费2397美元就达到了79.9%的准确率,或者花费7184美元达到85.5%的准确率。
MAI-DxO通过模拟一个虚拟的“医生代理”小组,其中每个代理有不同的角色,如假设生成、测试选择、成本意识和错误检查,从而实现这一点。与基线AI提示不同,这种结构化的协调使系统能够进行迭代和高效的推理。
MAI-DxO是一种模型无关的方法,在各种语言模型中都显示出了准确性的提升,而不仅仅是O3基础模型。
结论和未来展望
当前研究结果表明,当引导AI系统进行迭代思考并谨慎行动时,其诊断准确性和成本效益更高。SDBench和MAI-DxO为在现实约束下推进AI辅助诊断提供了实证基础。
未来,MAI-DxO必须在临床环境中进行验证,其中疾病的流行率和表现频率如同日常一样,而不是罕见的情况。此外,还需要涉及超过304个病例的大规模互动医学基准。结合视觉和其他感官模态,如影像学,也可以在不牺牲成本效率的情况下提高诊断准确性。
然而,作者指出了一些重要的限制。NEJM CPC病例因其难度而被选中,并不代表日常的临床表现。研究没有包括健康患者或测量假阳性率。此外,诊断成本估算基于美国的价格,可能在全球范围内有所不同。
这些模型还在一个保留的测试集(2024-2025年)上进行了测试,以评估泛化能力和避免过拟合,因为这些病例中的许多是在大多数模型的训练截止日期之后发布的。
该论文还提出了一个更广泛的问题:我们应该将AI系统与个别医生还是整个医疗团队进行比较?由于MAI-DxO模仿多专科协作,比较可能更接近团队护理而非个人实践。
尽管如此,研究结果表明,像MAI-DxO这样的结构化AI系统有一天可能会支持或增强临床医生,特别是在专科医生获取受限或昂贵的环境中。
该论文还提出了一个更广泛的问题:我们应该将AI系统与个别医生还是整个医疗团队进行比较?由于MAI-DxO模仿多专科协作,比较可能更接近团队护理而非个人实践。
立即下载您的PDF副本!
*重要声明:
arXiv发布的是未经同行评审的初步科学报告,因此不应被视为结论性的,不能作为指导临床实践/健康行为或视为已确立的信息。
参考文献:
初步科学报告。
Nori, H. 等 (2025) 使用语言模型进行连续诊断。
arXiv 。 https://arxiv.org/abs/2506.22405
https://arxiv.org/abs/2506.22405。 https://arxiv.org/abs/2506.22405
(以上内容均由Ai生成)