妙佑医疗国际对抗 AI 幻觉的秘密武器:Reverse rag 在行动
快速阅读: 据《VentureBeat 公司》称,梅奥诊所采用反向RAG技术,结合CURE算法,有效减少了大型语言模型(LLM)在医疗场景中的幻觉问题。该技术通过链接数据来源,提高了模型的准确性。此外,梅奥还在探索AI在基因组学和图像分析等更复杂领域的应用,以简化医生工作并提升患者护理水平。
订阅我们的每日和每周通讯,获取最新行业领先的人工智能报道和独家内容。即使大型语言模型(LLM)变得越来越复杂和强大,它们仍然会遭受幻觉问题:提供不准确的信息,或者更严厉地说,提供虚假信息。这在医疗保健等领域尤其有害,错误信息可能导致严重后果。梅奥诊所,美国排名第一的医院之一,采用了一种新颖的技术来应对这一挑战。为了成功,医疗机构必须克服检索增强生成(RAG)的局限性。这是大型语言模型(LLM)从特定相关数据源拉取信息的过程。该医院采用了本质上是反向RAG的方法,即模型提取相关信息,然后将每个数据点链接回其原始来源内容。令人惊讶的是,这种方法几乎消除了非诊断使用场景中的所有基于数据检索的幻觉——允许梅奥将其模型应用于临床实践。“通过这种通过链接引用来源信息的方法,提取这些数据不再成为问题,”梅奥战略医学主任兼放射科主任马修·卡尔森告诉《VentureBeat》。
处理每一条数据点处理医疗保健数据是一项复杂的挑战——而且可能很耗时。尽管电子健康记录(EHR)中收集了大量数据,但数据很难找到并解析出来。梅奥的第一个AI使用案例是在整理所有这些数据时用于出院总结(包括出院后的护理建议),其模型使用传统的RAG方法。正如卡尔森解释的那样,这是一个自然的起点,因为它涉及简单的提取和总结,而这正是LLM通常擅长的。“在第一阶段,我们并不是试图提出诊断,你可能会问模型‘此刻这个病人下一步的最佳步骤是什么?’”,他说。幻觉的危险性也不像在医生辅助场景中那么大;但这并不意味着数据检索错误不令人头疼。“在最初的几次迭代中,我们有一些明显的幻觉,你显然不会容忍——例如病人的错误年龄,”卡尔森说。“所以你必须小心构建。”
虽然RAG一直是将LLM扎根的关键组成部分(提高了它们的能力),但该技术也有其局限性。模型可能会检索无关、不准确或低质量的数据;无法确定信息是否与人类请求相关;或创建的输出不符合所请求的格式(如返回简单文本而不是详细表格)。虽然有一些解决这些问题的方法——比如图RAG,它通过知识图谱提供上下文,或者校正RAG(CRAG),其中评估机制评估检索文档的质量——但幻觉并没有消失。引用每一条数据点
这就是反向RAG过程发挥作用的地方。具体来说,梅奥将所谓的聚类使用代表(CURE)算法与LLM和向量数据库结合使用,以双重检查数据检索。聚类对机器学习(ML)至关重要,因为它根据相似性或模式组织、分类和分组数据点。这有助于模型“理解”数据。CURE使用分层技术超越了典型的聚类,利用距离度量根据接近程度对数据进行分组(想想:数据点彼此更接近则更相关)。该算法能够检测“异常值”,即不匹配其他数据点的数据点。将CURE与反向RAG方法结合起来,梅奥的LLM将生成的摘要拆分成单独的事实,然后将这些事实与源文件匹配。第二个LLM随后评分这些事实与源文件的对齐程度,特别是两者之间是否存在因果关系。“任何数据点都追溯到原始实验室数据或影像报告,”卡尔森说。“系统确保引用真实且准确检索,有效解决了大多数与检索相关的幻觉问题。”
卡尔森的团队使用向量数据库首先摄入患者记录,以便模型可以快速检索信息。他们最初在一个本地数据库上进行了概念验证(POC);生产版本是一个通用数据库,并在CURE算法本身中加入了逻辑。“医生非常怀疑,他们希望确保他们不会被喂食不可信的信息,”卡尔森解释道。“因此对我们来说,信任意味着验证任何可能作为内容呈现的信息。”梅奥实践中的“巨大兴趣”
CURE技术也被证明对于合成新的患者记录很有用。卡尔森解释说,外部记录详细描述了患者的复杂问题,可能包含不同格式的大量数据内容。这些需要被审查和总结,以便临床医生在首次见到患者前熟悉情况。“我总是把外部医疗记录比作一个电子表格:你不知道每个单元格里有什么,你必须逐个查看才能提取内容,”他说。但现在,LLM负责提取、分类材料并创建患者概览。通常这项任务可能需要90分钟左右的时间,但人工智能只需大约10分钟即可完成,卡尔森说。他描述了在梅奥实践范围内扩展这一能力的巨大兴趣,以帮助减少行政负担和挫败感。“我们的目标是简化内容处理方式——如何增强医生的能力并简化他们的工作?”他说。
用AI解决更复杂的问题当然,卡尔森和他的团队看到了AI在更高级领域的巨大潜力。例如,他们与Cerebras Systems合作,建立了一个基因模型,预测哪种治疗方案对患者是最好的关节炎疗法,还与微软合作开发图像编码器和图像基础模型。他们与微软的第一个图像项目是胸部X光片。迄今为止,他们已经转换了150万张X光片,并计划在下一轮再转换1100万张。卡尔森解释说,建立图像编码器并不特别困难;难点在于使结果图像真正有用。理想情况下,目标是简化梅奥医生审查胸部X光片的方式并增强他们的分析。人工智能可能会识别他们应该在哪里插入气管插管或中心静脉导管以帮助患者呼吸。“但这可以更广泛,”卡尔森说。例如,医生可以解锁其他内容和数据,如从胸部X光片中简单预测射血分数——即心脏泵出的血液量。“现在你可以开始思考更广泛的治疗反应预测,”他说。
梅奥还看到了基因组学(DNA研究)以及其他“组学”领域,如蛋白质组学(蛋白质研究)的巨大机遇。人工智能可以支持基因转录,即复制DNA序列的过程,以创建与其他患者的参考点,帮助建立复杂疾病的患病风险概况或治疗路径。“基本上,你是在将患者与其他人进行映射,围绕一个群体构建每个患者,”卡尔森解释说。“这才是个性化医疗真正提供的东西:‘你看起来像这些其他患者,这是我们应该这样治疗你以达到预期效果。’我们的目标是真正通过这些工具将人性带回医疗保健。”
但卡尔森强调,在诊断方面还有很多工作要做。展示一个基因组学的基础模型对类风湿性关节炎有效是一回事;而在临床环境中实际验证这一点则是另一回事。研究人员必须从小数据集开始测试,然后逐步扩大测试组并与传统或标准疗法进行比较。“你不能立即跳到‘嘿,让我们跳过甲氨蝶呤’,”他指出。最终:“我们认识到这些模型具有不可思议的能力,可以真正改变我们如何有意义地照顾患者并进行诊断,提供以患者为中心或患者特定的护理,而不是标准疗法,”卡尔森说。“我们在患者护理中处理的复杂数据是我们关注的重点。”
(以上内容均由Ai生成)