大型语言模型时代的健康公平

快速阅读: 《美国管理式医疗杂志》消息，本文评论了八项影响美国医疗保健领域健康护理重点大型语言模型（LLMs）公平性的主要法规和指南，涵盖语言文化偏见、可访问性和信任、监督和质量控制三个方面。这些法规和指南提倡多样性、基于真实数据评估性能、无歧视及整合公平原则、确保语言障碍患者的访问、提高效率、人工监督及保障隐私等措施。

本文是一篇评论，总结了八项对美国医疗保健领域健康护理重点大型语言模型（LLMs）的公平设计、实施和维护有直接影响的重大法规和指南。我们将其关键公平问题分为三个领域：（一）语言和文化偏见；（二）可访问性和信任；以及（三）监督和质量控制。这些法规和指南共享的解决方案包括：（一）确保训练数据和开发人工智能（AI）工具的团队中有多样性表示；（二）开发技术以根据真实世界数据评估AI赋能的医疗保健工具性能；（三）确保用于医疗保健的人工智能无歧视并整合公平原则；（四）采取有意义的措施确保英语水平有限的患者的访问；（五）应用AI工具提高工作效率并减少行政负担；（六）要求对用于医疗保健的人工智能工具进行人工监督；以及（七）确保人工智能工具安全、可访问且有益的同时尊重隐私。

第三，公平性度量应包括衡量LLM在受保护的身份类别（如性别、语言）中的使用情况，并分析这些使用情况是否与患者健康和护理团队工作负担的下游结果差异相关。最后，潜在的偏见可能在LLM的发展和整个生命周期中不断被引入，因为随着新数据不断用于训练模型。目前尚无标准化的解决方案能够整合众多提出的人机策略来验证来自多个来源的数据，包括工具自身生成的内容（需要人工编辑LLM生成的笔记和摘要）、结果指标（如患者的健康结果和护理质量）以及护理团队和患者的质性反馈。

2019年;366(6464):447-453。doi：10.1126/science.aax234223. 吉乔亚 JW, 麦考伊 LG, 西利 LA, 格哈索米 M. 公平的本质：呼吁在医疗保健机器学习中实现公平性。BMJ 医疗信息学。2021年;28(1):e100289。doi：10.1136/bmjhci-2020-10028924. 丹什瓦尔 N, 潘德塔 D, 埃里克森 S, 斯奈德苏尔马西 L, 德坎普 M; 美国医师协会医学信息委员会和伦理、专业操守与人权委员会。人工智能在提供医疗服务中的应用：美国医师协会的政策立场文件。内科学年鉴。2024年;177(7):964-967。doi：10.7326/M24-014625. 关于安全、可靠和可信的人工智能开发和使用的行政命令。白宫。2023年10月30日发布。查询日期：2024年7月17日。https://web.archive.org/web/20240717103722/https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/

25. 关于安全、可靠和可信的人工智能开发和使用的行政命令。白宫。2023年10月30日发布。查询日期：2024年7月17日。26. 亚当斯 L, 方廷 E, 林 S, 克罗威尔 T, 陈 VCH, 格恩萨拉斯 AA. 在健康、医疗保健和生物医学科学中使用人工智能：关于人工智能行为准则原则和承诺的讨论草案。NAM 视角。2024年;2024:10.31478/202403a。doi：10.31478/202403a27. 科尔多瓦诺 G, 德布龙卡特 D, 唐宁 A, 等。《患者的AI权利》。光集体。2024年3月22日发布。查询日期：2024年7月17日。https://lightcollective.org/wp-content/uploads/2024/03/Collective-Digital-Rights-For-Patients_v1.0.pdf28. 运用人工智能促进健康。世界卫生组织。查询日期：2024年7月17日。https://www.who.int/teams/digital-health-and-innovation/harnessing-artificial-intelligence-for-health

29. CHAI 保障标准指南：服务于所有人的AI。健康AI联盟。查询日期：2024年7月17日。https://chai.org/wp-content/uploads/2024/06/CHAI_AssuranceGuide_062624.pdf30. 布雷迪 AP, 艾伦 B, 张 J, 等。在放射学中开发、购买、实施和监测AI工具：多学会声明，来自ACR、CAR、ESR、RANZCR和RSNA。美国放射学院杂志。2024年;21(8):1292-1310。doi：10.1016/j.jacr.2023.12.00531. 发言人办公室。联合国大会一致通过由美国提出的决议，抓住安全、可靠和可信的人工智能系统为可持续发展带来的机遇：事实表。美国国务院。查询日期：2024年10月18日。https://2021-2025.state.gov/united-nations-general-assembly-adopts-by-consensus-u-s-led-resolution-on-seizing-the-opportunities-of-safe-secure-and-trustworthy-artificial-intelligence-systems-for-sustainable-development/

31. 发言人办公室。联合国大会一致通过由美国提出的决议，抓住安全、可靠和可信的人工智能系统为可持续发展带来的机遇：事实表。美国国务院。查询日期：2024年10月18日。32. 斯蒂特森 PD, 巴肯 S, 温 JO, 塞格勒 EL. 使用医师文件质量仪器（PDQI-9）评估电子记录的质量。应用临床信息学。2012年;3(2):164-174。doi：10.4338/aci-2011-11-ra-007033. 戴耶 D, 威金斯 WF, 茹古纳 M, 等。在放射学中实施临床人工智能：谁来决定以及如何决定？放射学。2022年;305(3):555-563。doi：10.1148/radiol.21215134. 拉森 DB, 杜 FX, 艾伦 B 小, 蒙甘 J, 弗兰德斯 AE, 沃尔德 C. 2022年ACR-RSNA人工智能安全性、有效性、可靠性和透明度研讨会上的会议纪要。美国放射学院杂志。2024年;21(7):1119-1129。doi：10.1016/j.jacr.2024.01.024

(以上内容均由Ai生成)