研究发现,开源 AI 在诊断棘手的医疗病例方面击败了 GPT-4

发布时间:2025年3月17日    来源:szf
研究发现,开源 AI 在诊断棘手的医疗病例方面击败了 GPT-4

快速阅读: 据《AZoAI》称,哈佛医学院研究发现,开源AI模型Llama 3.1在解决医学复杂诊断难题上表现优于GPT-4,这为医院提供了更灵活的个性化AI解决方案,有助于提升诊断准确性并降低医疗成本。

哈佛医学院在2025年3月16日发布了一项重要研究成果:在直接对比测试中,一款开源的人工智能模型在解决医学领域最具挑战性的诊断难题方面,表现优于GPT-4。这一突破对希望获得可定制、私有化人工智能解决方案的医院来说,具有深远的颠覆性意义。

**研究简讯:前沿开源与专有大型语言模型在复杂诊断任务中的对比研究**

图片来源:Innni/Shutterstock

人工智能正在医学的多个领域掀起变革浪潮,特别是在其作为忙碌临床医生信赖的诊断助手方面的应用。在过去两年中,所谓的闭源模型(即专有AI模型)在处理复杂的临床推理问题上表现出色。特别是这些闭源AI模型的表现超过了开源模型,而开源模型因其源代码公开且可自由调整和修改而受到关注。

**开源AI是否迎头赶上?**

根据哈佛医学院领导的一项由美国国立卫生研究院(NIH)资助的新研究结果,答案似乎是肯定的。这项研究还与哈佛附属的贝斯以色列女执事医疗中心和布里格姆妇女医院的临床医生合作完成。研究结果发表于3月14日的《JAMA健康论坛》,显示名为Llama 3.1 405B的开源AI工具表现与领先的闭源专有模型GPT-4相当。研究团队比较了这两个模型在《新英格兰医学杂志》每周公布的92个诊断困难临床场景中的表现。

研究结果表明,开源AI工具正变得越来越具有竞争力,并可能成为闭源模型的重要替代方案。

“据我们所知,这是首次有研究表明开源AI模型在医生评估的如此具有挑战性的病例中能够媲美GPT-4的表现,”该研究的资深作者、哈佛医学院布莱瓦特尼克研究所生物医学信息学助理教授阿尔俊·曼赖表示。“令人震惊的是,Llama模型如此迅速地赶上了领先的专有模型。患者、医疗服务提供者和医院都将从这种竞争中受益。”

**开源与闭源AI系统的优缺点**

开源AI和闭源AI在多个重要方面存在差异。首先,开源模型可以被下载并在医院的私有计算机上运行,从而确保患者数据留在内部。相比之下,闭源模型在外部服务器上运行,要求用户将私人数据传输到外部。“对于许多首席信息官、医院管理人员和医生来说,开源模型可能更具吸引力,因为它避免了数据离开医院进入其他实体的情况,即使这些实体是可信的,”该研究的主要作者、哈佛医学院生物医学信息学系新AI医学课程博士生托马斯·巴克利表示。

其次,医学和IT专业人士可以对开源模型进行微调以满足独特的临床和研究需求,而闭源工具通常更难进行定制。“这一点至关重要,”巴克利强调,“你可以使用本地数据对这些模型进行微调,无论是基础方式还是复杂方式,以便它们适应你自己的医生、研究人员和患者的需求。”

第三,像OpenAI和Google这样的闭源AI开发者在其自己的模型上进行托管并提供传统的客户服务,而开源模型则将模型设置和维护的责任放在用户身上。截至目前,闭源模型更容易整合到电子健康记录和医院IT基础设施中。

**开源AI与闭源AI:解决具有挑战性的临床病例的评分卡**

开源和闭源AI算法在海量数据集上进行训练,包括医学教科书、同行评审的研究、临床决策支持工具以及匿名化的患者数据,如案例研究、测试结果、扫描和确诊诊断。通过以超高速度审视这些庞大的材料,算法学习模式。例如,癌症和良性肿瘤在病理切片上的样子是什么?心力衰竭的最早征兆是什么?如何区分CT扫描中的正常结肠和发炎结肠?当面对新的临床情景时,AI模型会将传入的信息与训练期间吸收的内容进行比较,并提出可能的诊断。

在他们的分析中,研究人员测试了Llama在70个挑战性的临床NEJM案例上的表现,这些案例之前用于评估GPT-4的表现,并在由亚当·罗德曼领导的早期研究中描述。罗德曼是贝斯以色列女执事医疗中心的哈佛医学院医学助理教授,也是这项新研究的合著者。在新的研究中,研究人员增加了22个在Llama训练期结束后发布的案例,以防止Llama可能在基础训练期间无意中遇到其中一些已发表的案例。

开源模型展现了真正的深度:Llama在70%的案例中做出了正确的诊断,而GPT-4为64%。它还将正确选择作为其第一建议的次数提高到了41%,而GPT-4为37%。对于22个较新的案例子集,开源模型得分更高,在73%的情况下做出了正确的判断,并且有45%的时间将其最终诊断作为首选建议。

“作为一名医生,我看到很多关于强大大型语言模型的重点都集中在我们无法在本地运行的专有模型上,”罗德曼说。“我们的研究表明,开源模型可能同样强大,这给了医生和卫生系统对这些技术如何使用更多的控制权。”

根据2023年的报告,美国每年约有795,000名患者因诊断错误而死亡或永久残疾。除了对患者造成的直接伤害外,诊断错误和延迟还会给医疗系统带来严重的财务负担。不准确或延误的诊断可能会导致不必要的检查、不适当的治疗,甚至在某些情况下,随着时间推移变得更难且更昂贵的并发症。

“明智地使用并负责任地融入当前的健康基础设施,AI工具可能是忙碌临床医生宝贵的辅助工具,并作为值得信赖的诊断助手来提高诊断的准确性和速度,”曼赖说。“但关键仍然是医生帮助推动这些努力,以确保AI服务于他们。”

**作者、资金和披露**

其他作者包括拜伦·克劳与拉贾-埃利·阿卜杜勒努尔。

该项目得到了国家心脏、肺和血液研究所颁发的K01HL138259奖项和哈佛医学院院长创新奖的支持。

克劳报告称在提交的工作之外从Solera Health获得了个人费用。罗德曼报告称在提交的工作之外从戈登及贝蒂·摩尔基金会获得了拨款。

**来源:**

哈佛医学院

**参考文献:**

Buckley TA, Crowe B, Abdulnour RE, Rodman A, Manrai AK. 前沿开源与专有大型语言模型在复杂诊断任务中的对比研究。JAMA Health Forum. 2025;6(3):e250040. doi:10.1001/jamahealthforum.2025.0040

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日