AI 系统在降低医疗成本的同时匹配诊断准确性

发布时间:2025年7月2日    来源:szf
AI 系统在降低医疗成本的同时匹配诊断准确性

快速阅读: 《News-Medical.Net》消息,微软AI系统在复杂病例诊断中比医生更准确、高效且成本更低。研究基于NEJM病例,使用SDBench评估,结果显示AI表现优异。

由普里约姆·博斯博士、劳伦·哈达克审阅,2025年7月2日

在一项新研究中,微软的AI驱动诊断系统在解决最复杂的医学病例方面比经验丰富的医生更快、更便宜且更准确。

研究:使用语言模型进行连续诊断

图片来自:metamorworks/Shutterstock.com

*重要声明:arXiv发布的是未经同行评审的初步科学报告,因此不应被视为结论性的,不能作为指导临床实践/健康行为或视为已确立的信息。

最近在arXix预印本服务器上的一项研究比较了人工智能系统与临床医生在复杂病例中的诊断准确性和资源消耗情况。微软AI团队展示了人工智能(AI)在医学中高效利用的潜力,以应对医生难以解读的诊断挑战。

连续诊断和语言模型

通常,医生通过一个涉及逐步、迭代提问和测试的临床推理过程来诊断患者。即使初始信息有限,临床医生也会通过向患者提问并借助生化检测、影像学、活检和其他诊断程序来缩小可能的诊断范围。

解决复杂病例需要广泛的一系列技能,包括确定最关键的问题或测试,保持对测试成本的意识以避免增加患者的负担,并识别证据以做出自信的诊断。

多项研究表明,语言模型(LMs)在医学执照考试和高度结构化的诊断案例中表现出更高的效率。然而,大多数LMs的表现是在人工条件下评估的,这与现实世界的临床环境大相径庭。

大多数用于诊断评估的LM模型基于选择题测验,诊断是从预定义的答案集中得出的。缩短的连续诊断周期会增加夸大静态基准模型能力的风险。此外,这些诊断模型存在随意订购检测项目和过早做出诊断结论的风险。因此,迫切需要一种基于连续诊断周期的AI系统,以提高诊断准确性并降低检查成本。

多项研究表明,语言模型(LMs)在医学执照考试和高度结构化的诊断案例中表现出更高的效率。然而,大多数LMs的表现是在人工条件下评估的,这与现实世界的临床环境大相径庭。

研究背景

为克服上述LM模型在临床诊断中的缺点,科学家们开发了连续诊断基准(SDBench),作为一个交互式框架,通过真实的连续临床接触来评估诊断代理(人类或AI)。

为了评估诊断准确性,本研究使用了《新英格兰医学杂志》(NEJM)每周发表的病例,这是世界上最领先的医学期刊。该期刊通常以详细叙述的形式发表来自马萨诸塞州总医院的患者病例记录。这些病例是临床医学中最具有诊断挑战性和智力要求的病例,通常需要多位专家和诊断测试才能确认诊断。

相关报道

专家绘制路径,将微生物组科学带入常规临床护理

ChatGPT-4通过英国医学执照考试,但在实际临床决策中表现不佳,研究揭示

RSV在老年人群中的低估掩盖了其真实影响

SDBench将2017年至2025年NEJM临床病理会议(CPC)中的304个病例重新构建为逐步诊断接触。医疗数据涵盖从临床表现到最终诊断的各种情况,从常见疾病(如肺炎)到罕见疾病(如新生儿低血糖)。使用交互平台,诊断代理决定提出哪些问题、订购哪些测试以及何时确认诊断。

信息守门人是一个语言模型,它仅在被明确查询时才选择性地披露完整病例文件中的临床细节。它还可以为原始CPC叙述中未描述的测试提供额外的、与病例一致的信息。在根据守门人的信息做出最终诊断后,临床评估的准确性被与真实诊断进行了对比。此外,还估计了在实际诊断中所有请求的诊断测试的累计成本。通过评估诊断准确性和成本,SDBench表明我们距离可持续成本的高质量护理有多近。

研究发现

本研究分析了SDBench上所有诊断代理的表现。AI代理在所有304个NEJM病例上进行了评估,而医生则在56个测试集子集上进行了评估。这项研究观察到AI代理在这一子集上的表现优于医生。

在美国和英国执业、平均有12年临床经验的医生在SDBench上的诊断准确率为20%,平均每例花费2963美元,突显了该基准的固有难度。医生每例平均花费11.8分钟,提出6.6个问题和7.2项测试。GPT-4在诊断准确性和成本方面都超过了医生。市面上现成的模型在诊断准确性和成本上表现出不同的水平。

本研究还介绍了MAI诊断协调器(MAI-DxO),这是一个与医生共同设计的平台,其诊断效率高于人类医生和商业语言模型。与商业LM相比,MAI-DxO显示出更高的诊断准确性和医疗成本显著降低超过一半。例如,现成的O3模型在7860美元的费用下实现了78.6%的诊断准确率,而MAI-DxO仅花费2397美元就达到了79.9%的准确率,或者花费7184美元达到85.5%的准确率。

MAI-DxO通过模拟一个虚拟的“医生代理”小组,其中每个代理有不同的角色,如假设生成、测试选择、成本意识和错误检查,从而实现这一点。与基线AI提示不同,这种结构化的协调使系统能够进行迭代和高效的推理。

MAI-DxO是一种模型无关的方法,在各种语言模型中都显示出了准确性的提升,而不仅仅是O3基础模型。

结论和未来展望

当前研究结果表明,当引导AI系统进行迭代思考并谨慎行动时,其诊断准确性和成本效益更高。SDBench和MAI-DxO为在现实约束下推进AI辅助诊断提供了实证基础。

未来,MAI-DxO必须在临床环境中进行验证,其中疾病的流行率和表现频率如同日常一样,而不是罕见的情况。此外,还需要涉及超过304个病例的大规模互动医学基准。结合视觉和其他感官模态,如影像学,也可以在不牺牲成本效率的情况下提高诊断准确性。

然而,作者指出了一些重要的限制。NEJM CPC病例因其难度而被选中,并不代表日常的临床表现。研究没有包括健康患者或测量假阳性率。此外,诊断成本估算基于美国的价格,可能在全球范围内有所不同。

这些模型还在一个保留的测试集(2024-2025年)上进行了测试,以评估泛化能力和避免过拟合,因为这些病例中的许多是在大多数模型的训练截止日期之后发布的。

该论文还提出了一个更广泛的问题:我们应该将AI系统与个别医生还是整个医疗团队进行比较?由于MAI-DxO模仿多专科协作,比较可能更接近团队护理而非个人实践。

尽管如此,研究结果表明,像MAI-DxO这样的结构化AI系统有一天可能会支持或增强临床医生,特别是在专科医生获取受限或昂贵的环境中。

该论文还提出了一个更广泛的问题:我们应该将AI系统与个别医生还是整个医疗团队进行比较?由于MAI-DxO模仿多专科协作,比较可能更接近团队护理而非个人实践。

立即下载您的PDF副本!

*重要声明:

arXiv发布的是未经同行评审的初步科学报告,因此不应被视为结论性的,不能作为指导临床实践/健康行为或视为已确立的信息。

参考文献:

初步科学报告。

Nori, H. 等 (2025) 使用语言模型进行连续诊断。

arXiv 。 https://arxiv.org/abs/2506.22405

https://arxiv.org/abs/2506.22405。 https://arxiv.org/abs/2506.22405

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日