研究发现，开源 AI 在诊断棘手的医疗病例方面击败了 GPT-4

快速阅读: 据《AZoAI》称，哈佛医学院研究发现，开源AI模型Llama 3.1在解决医学复杂诊断难题上表现优于GPT-4，这为医院提供了更灵活的个性化AI解决方案，有助于提升诊断准确性并降低医疗成本。

哈佛医学院在2025年3月16日发布了一项重要研究成果：在直接对比测试中，一款开源的人工智能模型在解决医学领域最具挑战性的诊断难题方面，表现优于GPT-4。这一突破对希望获得可定制、私有化人工智能解决方案的医院来说，具有深远的颠覆性意义。

**研究简讯：前沿开源与专有大型语言模型在复杂诊断任务中的对比研究**

图片来源：Innni/Shutterstock

人工智能正在医学的多个领域掀起变革浪潮，特别是在其作为忙碌临床医生信赖的诊断助手方面的应用。在过去两年中，所谓的闭源模型（即专有AI模型）在处理复杂的临床推理问题上表现出色。特别是这些闭源AI模型的表现超过了开源模型，而开源模型因其源代码公开且可自由调整和修改而受到关注。

**开源AI是否迎头赶上？**

根据哈佛医学院领导的一项由美国国立卫生研究院（NIH）资助的新研究结果，答案似乎是肯定的。这项研究还与哈佛附属的贝斯以色列女执事医疗中心和布里格姆妇女医院的临床医生合作完成。研究结果发表于3月14日的《JAMA健康论坛》，显示名为Llama 3.1 405B的开源AI工具表现与领先的闭源专有模型GPT-4相当。研究团队比较了这两个模型在《新英格兰医学杂志》每周公布的92个诊断困难临床场景中的表现。

研究结果表明，开源AI工具正变得越来越具有竞争力，并可能成为闭源模型的重要替代方案。

“据我们所知，这是首次有研究表明开源AI模型在医生评估的如此具有挑战性的病例中能够媲美GPT-4的表现，”该研究的资深作者、哈佛医学院布莱瓦特尼克研究所生物医学信息学助理教授阿尔俊·曼赖表示。“令人震惊的是，Llama模型如此迅速地赶上了领先的专有模型。患者、医疗服务提供者和医院都将从这种竞争中受益。”

**开源与闭源AI系统的优缺点**

开源AI和闭源AI在多个重要方面存在差异。首先，开源模型可以被下载并在医院的私有计算机上运行，从而确保患者数据留在内部。相比之下，闭源模型在外部服务器上运行，要求用户将私人数据传输到外部。“对于许多首席信息官、医院管理人员和医生来说，开源模型可能更具吸引力，因为它避免了数据离开医院进入其他实体的情况，即使这些实体是可信的，”该研究的主要作者、哈佛医学院生物医学信息学系新AI医学课程博士生托马斯·巴克利表示。

其次，医学和IT专业人士可以对开源模型进行微调以满足独特的临床和研究需求，而闭源工具通常更难进行定制。“这一点至关重要，”巴克利强调，“你可以使用本地数据对这些模型进行微调，无论是基础方式还是复杂方式，以便它们适应你自己的医生、研究人员和患者的需求。”

第三，像OpenAI和Google这样的闭源AI开发者在其自己的模型上进行托管并提供传统的客户服务，而开源模型则将模型设置和维护的责任放在用户身上。截至目前，闭源模型更容易整合到电子健康记录和医院IT基础设施中。

**开源AI与闭源AI：解决具有挑战性的临床病例的评分卡**

开源和闭源AI算法在海量数据集上进行训练，包括医学教科书、同行评审的研究、临床决策支持工具以及匿名化的患者数据，如案例研究、测试结果、扫描和确诊诊断。通过以超高速度审视这些庞大的材料，算法学习模式。例如，癌症和良性肿瘤在病理切片上的样子是什么？心力衰竭的最早征兆是什么？如何区分CT扫描中的正常结肠和发炎结肠？当面对新的临床情景时，AI模型会将传入的信息与训练期间吸收的内容进行比较，并提出可能的诊断。

在他们的分析中，研究人员测试了Llama在70个挑战性的临床NEJM案例上的表现，这些案例之前用于评估GPT-4的表现，并在由亚当·罗德曼领导的早期研究中描述。罗德曼是贝斯以色列女执事医疗中心的哈佛医学院医学助理教授，也是这项新研究的合著者。在新的研究中，研究人员增加了22个在Llama训练期结束后发布的案例，以防止Llama可能在基础训练期间无意中遇到其中一些已发表的案例。

开源模型展现了真正的深度：Llama在70%的案例中做出了正确的诊断，而GPT-4为64%。它还将正确选择作为其第一建议的次数提高到了41%，而GPT-4为37%。对于22个较新的案例子集，开源模型得分更高，在73%的情况下做出了正确的判断，并且有45%的时间将其最终诊断作为首选建议。

“作为一名医生，我看到很多关于强大大型语言模型的重点都集中在我们无法在本地运行的专有模型上，”罗德曼说。“我们的研究表明，开源模型可能同样强大，这给了医生和卫生系统对这些技术如何使用更多的控制权。”

根据2023年的报告，美国每年约有795,000名患者因诊断错误而死亡或永久残疾。除了对患者造成的直接伤害外，诊断错误和延迟还会给医疗系统带来严重的财务负担。不准确或延误的诊断可能会导致不必要的检查、不适当的治疗，甚至在某些情况下，随着时间推移变得更难且更昂贵的并发症。

“明智地使用并负责任地融入当前的健康基础设施，AI工具可能是忙碌临床医生宝贵的辅助工具，并作为值得信赖的诊断助手来提高诊断的准确性和速度，”曼赖说。“但关键仍然是医生帮助推动这些努力，以确保AI服务于他们。”

**作者、资金和披露**

其他作者包括拜伦·克劳与拉贾-埃利·阿卜杜勒努尔。

该项目得到了国家心脏、肺和血液研究所颁发的K01HL138259奖项和哈佛医学院院长创新奖的支持。

克劳报告称在提交的工作之外从Solera Health获得了个人费用。罗德曼报告称在提交的工作之外从戈登及贝蒂·摩尔基金会获得了拨款。

**来源：**

哈佛医学院

**参考文献：**

Buckley TA, Crowe B, Abdulnour RE, Rodman A, Manrai AK. 前沿开源与专有大型语言模型在复杂诊断任务中的对比研究。JAMA Health Forum. 2025;6(3):e250040. doi:10.1001/jamahealthforum.2025.0040

(以上内容均由Ai生成)