AI诊断工具崛起:医生与患者如何安全利用
快速阅读: 医师兼《纽约客》撰稿人Dhruv Khullar指出,人工智能在医疗诊断中既具潜力也存风险,强调应将其视为辅助工具而非替代品,医生和患者需谨慎使用以避免技能退化和误诊。
Tradeoffs 是一家非营利新闻组织,专注于报道医疗保健领域最棘手的选择。订阅我们的每周通讯,每周四早晨在您的邮箱中获取 Tradeoffs 的最新故事。
医师兼《纽约客》撰稿人 Dhruv Khullar 认为,人工智能是实现更快、更准确诊断的强大工具,但也可能带来危险。
您可以在 Apple Podcasts、Spotify 和 NPR 上收听。
Dhruv Khullar 成为医生是为了破解医学谜团。“我喜欢这样的想法:你可以与某人交谈,了解他们的不适,然后将这些信息与实验室测试和影像学研究结合起来,在脑海中形成一个原因,一个诊断,这可能会让他们走上康复之路。”Khullar 在最近的一次采访中告诉我们。
Khullar 是纽约威尔康奈尔医学院的医师和教授,他最近注意到同事和患者开始在诊断过程中引入人工智能。一项调查发现,每六名美国成年人中就有一人每月至少使用一次 AI 聊天机器人来获取健康信息,而另一项调查显示,三分之二的医生在其工作中使用了人工智能。
Khullar — 同时也是《纽约客》的特约撰稿人 — 初时对人工智能作为诊断工具的有效性持怀疑态度。然而,他在为一篇文章进行的研究中改变了看法。
Khullar 分享了他认为每位医生、护士和患者都应了解以安全地从医疗保健中的人工智能获益的三个关键点:
一些人工智能诊断工具非常出色。哈佛医学院正在开发的一个模型能够在几分钟内准确诊断复杂病例,并详细解释其得出结论的过程,其方式和语气惊人地接近人类。“如果你只是在听演示,很难将其与我在医学培训期间听到的许多人类医生区分开来。”Khullar 观看了演示后说。
如果过度依赖人工智能,医生的技能可能会退化,患者可能会受到伤害。“现在有一种观念认为,医生只需要是一个有同情心的人,因为其他所有事情都可以查找或由人工智能提供。这根本不是真的。”Khullar 指出,一些广泛可用的人工智能工具,如 ChatGPT,经常提供不准确或不完整的医疗建议。
Khullar 建议临床医生和患者将人工智能视为指导而非神明。作为医生,他通常会在得出诊断后寻求人工智能的第二意见,检查是否有遗漏。他认为患者可以通过使用人工智能来准备就诊,例如让人工智能查看他们的病历并建议向临床医生提出的问题。
我们希望您能完整收听我们与 Khullar 的对话或阅读转录。我们还包含了那个听起来像人类的 AI “医生” Khullar 遇到的音频,以及它如何推理出一个诊断。您还将听到 Dhruv Khullar 回答 Tradeoffs 听众的问题。
节目转录和资源链接
Dan Gorenstein(DG):
我最喜欢的事情之一就是骑自行车。但我最近注意到,在长时间骑行后的几天里,我的腿部肌肉会变得非常僵硬。
所以我做了很多人现在会做的事情:向 ChatGPT 寻求帮助。
Dan 通过电脑询问:
为了防止长时间骑行后肌肉僵硬,我应该采取哪些步骤?
ChatGPT 回复:
为了防止长时间骑行后肌肉僵硬,您应该在骑行前后及过程中采取以下关键步骤。
DG:
它告诉我,骑行前要拉伸,多喝水,并在结束骑行后 30 至 60 分钟内吃一顿富含蛋白质和碳水化合物的餐食。
ChatGPT 还问:
您想要一个简单的骑行后拉伸程序吗?
DG:
我没有。但这次经历让我意识到,对于这种类型的健康咨询,求助于人工智能已经不再像一年前那样不可想象。
DG:
2024 年的一项调查发现,每六个美国成年人中就有一个每月至少使用一次 AI 聊天机器人来获取健康信息。医生也越来越频繁地使用人工智能。
但是,这两组人群仍然对这项技术的可靠性有很多疑问,尤其是在做出诊断方面。
DK:
这是最重要的挑战,因为一切都取决于正确的诊断。
DG:
今天,一位医师兼《纽约客》特约撰稿人将分享三个关键点,以帮助每个患者和医生安全地从人工智能中获得最大收益。
从宾夕法尼亚大学伦纳德·戴维斯研究所的工作室为您播出,我是 Dan Gorenstein。这里是 Tradeoffs。
如果人工智能能够诊断病人,医生的作用是什么?
我们的对话从我问Dhruv为何选择成为一名医生开始。
DK:
我的父亲是医生,这让我成为医生的风险大增。但更重要的是,我喜欢这样的想法:通过与人交谈,了解他们的不适,然后将这些信息与实验室检查和影像学研究结合起来,在脑海中形成原因,做出可能帮助他们康复的诊断。
DG:
Dhruv,你在文章开头提到的一句话深深触动了我。你说误诊每年导致数十万人残疾,尸检研究显示,误诊可能是美国每十人死亡中的一例——占所有死亡的10%。能否分享一个例子或轶事,帮助解释为什么在2025年,误诊仍然是个大问题?
DK:
诊断是一项极其复杂的挑战。其核心在于尝试将患者的感受与人体可能出现的数千种故障模式相匹配。有时,患者的症状与教科书上的疾病完全吻合,有时则不然。我想说的是,这是一个非常困难的挑战。几个月前,我接诊了一位呼吸困难的患者。我们起初认为可能是心力衰竭,于是开始给予利尿剂治疗以排除体内多余的水分。但这似乎没有效果。查看X光片后,发现心脏后面可能隐藏着肺炎。因此我们开始使用抗生素,但患者的症状仍然恶化。
在整个过程中,没有任何一项测试能给出正确答案。我们几乎将治疗作为一种诊断手段。如果患者在接受某些治疗后好转,那么就证明我们的诊断是正确的。
DG:
你之前跟我提到过这位患者的情况……你说花了五天时间才确定导致他呼吸问题的原因。
DK:
是的,最终诊断结果完全不同,是间质性肺病导致氧气难以进入血液。虽然经过几次误判,但我们最终还是得出了正确的诊断。这种现象在医院里其实相当普遍。
DG:
正如你关于这位呼吸困难患者的例子所展示的那样,诊断听起来简单,但实际上往往非常困难,是一个试错的过程。随着人工智能的到来,其中的一个承诺就是它可以帮助解决我们面临的误诊问题。在你为《纽约客》报道这个故事之前,你是如何看待人工智能作为诊断工具的?你有哪些假设?
DK:
最初我认为,人工智能会在生成潜在诊断列表方面表现出色。例如,如果患者出现呼吸困难,它可能会提供五六种潜在诊断,给出一些大致的可能性排序,但不会更多。
DG:
根据你的报道和临床经验,你总结了三个重要的观点,认为每个患者和医生都应该了解,以便安全地利用人工智能。请告诉我们第一个观点,Dhruv。
DK:
第一个重要观点是技术真的非常强大。特别是那些以特定方式训练的模型,能够在非常复杂的诊断挑战中提供正确的诊断。我希望人们理解这些技术的强大之处。它们将在未来的医疗护理中扮演更重要的角色。当前真正的挑战是如何将它们整合到临床实践中,医生和患者如何做到这一点。
DG:
听你这么说,我能感觉到你对人工智能作为诊断工具的印象非常深刻。这一点在你夏天去哈佛看到名为CaBot的人工智能模型与美国顶尖人类诊断专家之一Daniel Restrepo医生进行的一次诊断对决时表现得尤为明显。你还给我们发送了CaBot的演示录音。
CaBot:
大家早上好,感谢参加这次病例讨论。我是医生Cabot。
DG:
你描述了Restrepo和CaBot都被给予了41岁男性患者的一系列症状,然后被要求“展示他们的工作”,即解释他们是如何得出诊断的。Dhruv,观看CaBot的实际操作是什么感觉?
DK:
这次体验最令人称奇的是,卡波特不仅得出了正确的答案,还能够引用文献。它向听众详细解释了自己是如何得出诊断的。
特征明显指向淋巴液分布,这让我认为,实际上,这大大缩小了可能性清单。
它以人类医生可能采用的风格、节奏和幽默完成了这一切。
没有异国接触史,只是在新英格兰城市生活,六个月前被家里的猫抓伤过。这件事我一直记着,但并不完全依赖这个线索。
如果只听这段演讲,很难将其与我在医学培训期间听过的许多人类医生区分开来。我在文章中提到,我曾对人工智能能否复制医生的认知工作持怀疑态度。我一直想,它怎么可能做到我们正在做的事情?
但在听完这次演讲后,我转变了看法,提出了另一个问题:它怎么可能不这样做?鉴于其表现如此出色,它如何不能成为医疗保健中越来越重要的一部分?
谢谢大家的关注,愿意回答你们的问题。
当我读到你写的那句话时,不禁大笑起来——卡波特不仅出色地完成了所有这些任务,引用文献,听起来像在复制人类认知,而且它完成这些的时间只相当于泡一杯咖啡的时间。
确实如此。
你知道,当我在谈到之前诊疗中的一位呼吸困难患者时,如果当时有卡波特在场,它可能会发现CT扫描上一个非常细微的影像学特征,从而在早期诊断出间质性肺病。
卡波特听起来确实很厉害,但你在文章中也提到了很多关于用人工智能替代医生诊断的风险。你提出的第二个观点是关于这一负面影响的。那么,第二个问题是什么,德鲁夫?
第二个问题是,如果我们过度依赖人工智能,医生可能会失去自己的技能,患者也可能因此受到伤害。
对于医生来说,你将这种风险称为“认知退化”,即医生变得过于依赖人工智能,以至于忘记了如何独立做出复杂的诊断。或者他们从一开始就从未学会。我认为本杰明·波波克的故事很好地说明了这一点。你能给我们讲讲本杰明吗?
当然。本杰明是一名医学生,他告诉我,在这些模型问世后的一段时间里,每次离开患者的房间,他都会把患者的实验室检查结果和症状输入人工智能,后者会生成一个诊断结果。随着时间的推移,他开始担心自己不再思考如何独立处理病例。他开始觉得奇怪,因为他的想法实际上是人工智能的输出。
已经有证据表明,医生的技能可以很快退化。最终,我们需要成为为患者做出最重要决策的人。
亚当·罗德曼,卡波特人工智能诊断模型的共同创建者之一,曾对你说:“如果发生认知退化,我们就完了。”德鲁夫,你对医生可能失去职业能力有多担心?
我的希望是,这些工具能够负责任且逐步地融入医疗实践,这样我们就能在充分利用它们的同时,不会失去最终评估其输出所需的技能。
德鲁夫,你也知道,一些医疗机构仍然难以让医生和护士洗手。那么,你对我们能否正确实施这些最佳实践有多大的信心?
是的,这些工具的普及程度让我感到担忧。我认为,既会有使用不足的情况,也会有过度依赖的问题。但医学在过去经历过技术革命。解决这些问题和挑战需要时间。但我相信,经过这一过程,患者将获得更好的护理,医生的工作也将更加满意。
我们一直在讨论医生和临床医生,但对于患者来说,过度依赖人工智能的风险也很高。一项研究表明,ChatGPT对三分之二的开放式医学问题给出了错误答案。另一项研究显示,流行聊天机器人
误诊率超过80%的复杂儿科病例。
德鲁夫,人工智能仅仅是“谷歌医生”的新版本,还是这实际上是一个更为危险的工具?
DK:
主要区别在于,人工智能比“谷歌医生”更加流利、更有说服力、更加个性化。过去,如果你在谷歌上搜索,可以看到你的症状与网站上列出的一些疾病之间的匹配情况。
但现在,你可以输入你的医疗数据,它可以直接回应你,你可以与它对话。如果使用得当,这将非常强大;但如果使用不当,则更加危险。
在文章中,我提到了一位60岁男子的案例,他担心自己饮食中的盐分摄入过多,于是向ChatGPT询问替代品。AI建议了一种名为溴化物的物质,而溴化物是有毒的。这位男子最终出现了妄想症,开始产生幻觉,不得不入院治疗。这种情况下,如果是与真正的医生互动,是不会发生的。这反映了人工智能的局限性。
DG:
稍后,德鲁夫将解释他认为患者和医生目前如何最好地利用人工智能,并回答你们关于这一迅速发展的技术的问题。
广告插播
DG:
欢迎回来。我们正在与纽约威尔康奈尔医学院的医生兼研究员德鲁夫·库拉尔交谈,他也是《纽约客》的特约撰稿人。
根据他在《纽约客》最近的一篇文章,德鲁夫正在为我们讲解他认为可以帮助医生、护士和患者安全地从人工智能中获益的三个关键点。
德鲁夫,
你已经告诉我们,人工智能有潜力像世界级诊断专家一样在几分钟内完成工作,可能拯救生命。你也提到,过度依赖人工智能可能会使我们的医生能力下降,患者面临更大风险。对我来说,显而易见的下一个问题是,我们如何找到正确的平衡点?
DK:
我认为主要应该考虑将人工智能作为一种指导工具。它可以帮助医生和患者导航诊断过程或医疗系统,而不是仅仅期望它能神奇地得出最终结果。
这个概念来自加州大学旧金山分校的医生古普里特·达利瓦尔。他说,如果你让人工智能解决病例,就像是从终点开始,试图达到你要去的目的地。
对于医生和患者来说,更有帮助的是让它成为诊断旅程中的导航助手。例如,人工智能可以提醒我们最近的一项重要研究,或者提出下一步应该考虑的测试。
对于患者而言,这是一个很好的方式,可以通过询问人工智能审查自己的病历,详细了解自己的医疗护理情况,从而更好地准备与医生的互动,充分利用面对面的时间。
DG:
“指南而非神明”的理念非常吸引人。我知道达利瓦尔,我之前采访过他,非常尊敬他,认为他是一个智慧的人。但是,每个人最想知道的都是“我怎么了”,无论是医生还是患者,都希望尽快得到诊断。
DK:
当然,我们都想要最终的诊断结果。然而,目前阶段的人工智能还不足以可靠地每次提供这样的答案,以供大规模使用。因此,我们需要将其视为一种类似于实验室测试或CT扫描的数据输入。
将其作为整合到患者故事中的另一项数据,以得出最终答案,我认为这是当前最好的思考方式。
DG:
好的。在结束前,我们想快速回答一些听众的问题。第一个问题深入探讨了之前讨论的人工智能可能使医生变得更差的情况。
蒂芙尼·沃恩:
我是耶鲁大学的内科住院医师蒂芙尼·沃恩。我们应该如何将人工智能融入医学培训,以增强而不是削弱早期职业医生的临床知识和推理技能?谢谢。
DK:
这是一个非常好的问题。我认为这是医学教育者的基本问题。
我认为许多基础的东西需要保持不变。人们仍然需要在脑海中记住大量信息。现在有一种观点认为,医生只需要具备同理心,因为其他所有事情都可以查阅资料或由人工智能提供。但这完全不是真的。
我们需要培训的不仅是医学生和住院医师,还包括主治医生,让他们了解如何正确使用这些工具。
下个问题是关于医学中那些特别具有人性、难以被人工智能复制的部分。
我是Bhav Jain,斯坦福大学的医学生。我非常想从您的角度了解,患者是否能真正从人工智能那里感受到人与人之间的联系。我们如何实施人工智能,使其模仿人类主导的护理?
我认为,人工智能将在医疗保健的交易性质方面发挥越来越大的作用。比如,我只是需要这张处方。我想快速检查一下我的脚踝扭伤。
但在健康的重要方面,我认为人类始终将扮演核心角色,他们是管理不确定性的人,是做出判断的人,是整合价值观的人。最终,是为他人的护理承担责任的人。我不认为这些角色会被人工智能取代。
Eric Maurer在明尼苏达州的一家社区健康中心工作,他有一个问题,关于一种被称为大型语言模型(LLM)的人工智能,能否使护理更加普及。
去年,我们的诊所有超过50种语言和方言的患者。我对Dr. Khullar如何看待使用大型语言模型来减少书面和口语交流障碍的机会和潜在障碍很感兴趣。
我认为这是一个巨大的潜在进步。我们已经看到,在最新版本的AirPods中可以实现实时翻译。这只会变得越来越好。有大量证据表明,
不会说英语的人在获得医疗服务方面较差,他们不太可能理解治疗的细微差别。
在某些情况下,提供者可能会因为照顾他们需要更多时间而避免这样做,或者没有花足够的时间讨论诊断和治疗选项。因此,我认为这对英语水平不足的人来说是一个潜在的变革性进展。
最后一个问题来自您在康奈尔大学的同事,David Scales。
政策机制正在出台,以确保当人工智能严重失败时,例如导致精神病、自杀或其他有害行为时,能够追究其责任。
美国食品药品监督管理局和其他监管机构仍在努力弄清楚如何监管这些技术。因此,我认为我们正在讨论的许多关于责任的问题,至少会由法院来裁决。其中一些可能会通过公司的自我监管来实现。
例如,OpenAI最近推出了家长控制功能,因为在一些青少年经历了非常负面的经历之后。我认为这将是未来几年的一个热点领域,尝试找出如何在确保安全的同时,不削弱创新的潜力。
Dhruv,作为一名医生,您因报道人工智能而有何不同?
在某些方面,我变得更加谦逊。看到这些模型在执行我们花费数年,甚至数十年才能熟练掌握的工作时表现出的优秀能力,真是令人惊叹。但从战术上讲,我将人工智能用作第二意见,以测试我得出的结论,试图拓宽对可能情况的思考。
我一直在思考如何提示人工智能,给出正确的细节,以获得对试图理解的问题的最佳答案。因此,我认为我们都应该思考如何在自己的工作中使用这些技术,以增强我们的工作。
从某种意义上说,这让我觉得沟通变得更加重要,未来的最佳诊断者将是沟通高手。一方面,他们会非常仔细地倾听患者的意见;另一方面,能够将这些信息反馈给人工智能工具,以获取最佳信息。
您说得对。这里还有第三个层次的沟通,那就是与患者讨论人工智能的作用以及您如何使用人工智能支持您的工作。如果人工智能要在医疗保健中发挥越来越大的作用,我们需要做很多工作来增强对这些模型的信任。
Dhruv,感谢您抽出时间在《Tradeoffs》节目中与我们交谈。
很高兴来到这里,谢谢您的邀请。
我是Dan Gorenstein,这里是《Tradeoffs》。
节目资源
关于人工智能在医疗保健领域的补充报道及资源:
如果人工智能能够诊断患者,医生的作用是什么?
(Dhruv Khullar,《纽约客》,2025年9月22日)
2025年:医疗保健领域的人工智能现状
(Greg Yap,Derek Xiao,Johnny Hu博士,JP Sanday和Croom Beatty;Menlo Ventures;2025年10月21日)
具有详细诊断推理的AI系统为其应用提供依据
(Catherine Caruso,哈佛医学院,2025年10月8日)
OpenAI在加州青少年自杀事件后推出ChatGPT家长控制功能
(路透社,2025年9月29日)
AI工具是否让医生的工作能力下降?
(Teddy Rosenbluth,《纽约时报》,2025年8月28日)
临床监督中使用人工智能的教育策略
(Raja-Elie E. Abdulnour,Brian Gin和Christy K. Boscardin;《新英格兰医学杂志》;2025年8月20日)
许多医院正在使用AI,但很少测试其偏差
(Ryan Levi和Dan Gorenstein,《权衡》,2025年2月27日)
AI聊天机器人作为健康信息来源
(Irving Washington和Hagere Yilma,KFF,2024年8月22日)
根除医疗保健AI中的种族偏见
(Ryan Levi,《权衡》,2023年5月)
本期嘉宾:
Dhruv Khullar,威尔康奈尔医学院医师;《纽约客》特约撰稿人
本集由Ryan Levi制作,Dan Gorenstein和Deborah Franklin编辑,Andrew Parrella和Cedric Wilson混音。
《权衡》主题曲由Ty Citerman创作。本集额外音乐来自Blue Dot Sessions和Epidemic Sound。
《权衡》对此故事的报道部分得到了戈登和贝蒂·摩尔基金会的支持。
捐赠
支持《权衡》
报道复杂的健康政策问题并非易事。通过支持《权衡》,您帮助我们实现雄心勃勃的故事讲述、不懈的事实调查和严谨的研究。
今天就捐款
通讯
可信赖的健康政策新闻——每周四免费电子邮件。
每周,我们都会深入探讨一个关键的健康政策故事,超越头条新闻,分析其他媒体忽视的权衡、紧张关系和实际影响。
立即订阅
更多来自《权衡》的内容
(以上内容均由Ai生成)