详细研究将人工智能与医生进行了比较,它比医生可能喜欢的更接近
快速阅读: 据《Neowin.net》最新报道,大阪都立大学研究显示,生成式AI在医学诊断上与非专家医生相当,但逊于专家。AI在皮肤科表现较好,但在复杂病例中仍显不足。研究建议AI可用于医学教育和资源匮乏地区的辅助诊断,同时需解决透明度和偏见问题。
近期一项研究深入探讨了生成式人工智能(AI)在诊断医学状况方面与医生的表现对比。该研究由大阪都立大学医学院研究生院的广田浩教授和植田大副教授领导的研究团队完成。这项系统性回顾和荟萃分析梳理了海量研究,总计18,371篇,最终筛选出83篇进行详细分析。研究结果揭示了AI在医疗领域的优势与不足。研究涵盖了不同领域的生成式AI模型,如GPT-4、Llama3 70B、Gemini 1.5 Pro和Claude 3 Sonnet,在多个医学领域中得到检验。其中,GPT-4是研究最多的模型。
总体来看,这些AI模型的平均诊断准确率为52.1%(95%置信区间:47.0%-57.1%)。一些模型的准确性与非专家医生相当,无明显统计学差异(准确性差异:0.6% [95%置信区间:-14.5%至15.7%],p=0.93)。然而,专家医生的表现仍显著优于AI,准确率差距达15.8%(95%置信区间:4.4%-27.1%,p=0.007),即便如此,随着技术进步,这一差距或许只是时间问题。
此外,研究还发现,AI在大多数医学专科中的表现相似,但在皮肤科和泌尿科这两个领域除外。AI在皮肤科的表现更为突出,这可能是因为该领域涉及模式识别,而这是AI擅长的领域。然而,由于皮肤科还需要复杂的推理和针对患者的决策制定,因此这些结果并不能全面反映实际情况。至于泌尿科,研究结果基于一项大型研究,这使得结果更难以广泛应用。
“本研究表明,生成式AI的诊断能力与非专科医生相当。它可以在医学教育中用于辅助非专科医生,并在医疗资源匮乏地区协助诊断工作,”广田浩教授补充道。“为了验证AI的能力,还需要进一步研究,例如在更复杂的临床场景中进行评估、使用实际医疗记录进行性能评估、提高AI决策的透明度以及在多样化患者群体中进行验证。”
除了诊断之外,研究还强调了AI在医学教育中的潜在应用。研究人员指出,“当前生成式AI模型在非专业场景中的表现与医生相当,这为AI融入医学培训提供了契机。”AI可以用来模拟真实案例,助力医学生和住院医师学习并评估自身技能。然而,人们也对这些模型的透明性和偏见表示担忧。许多AI系统不公开其训练数据的细节,这引发其结果是否适用于所有人群的质疑。研究人员指出,“确保对模型知识、背景及局限性的透彻理解”至关重要,并强调需明确、合乎伦理且经过严格验证的AI应用。
尽管生成式AI前景可期,但其在涉及详细患者信息的复杂病例中往往表现不佳。医生是否会担忧失业?目前尚难下定论,但就诊断而言,这种可能性确实不容忽视。
**来源**:大阪都立大学,《自然》
**图片**:Depositphotos
(以上内容均由Ai生成)