使用离线强化学习进行冠状动脉疾病治疗的个性化决策
快速阅读: 据《Nature.com》最新报道,本研究展示了强化学习(RL)和Q学习(QL)在优化冠状动脉疾病(CAD)血运重建决策方面的潜力。RL算法推荐的政策在患者结果上优于医生的行为政策,特别是优先选择冠状动脉旁路移植术(CABG)。保守的Q学习(CQL)政策则平衡了临床结果和现有行为的变化。尽管研究存在局限性,如离线方法和奖励函数的关注点,但RL和QL为CAD治疗提供了新的优化途径。
在这项研究中,我们展示了强化学习(RL)和Q学习(QL)在使用离线人群数据优化冠状动脉疾病(CAD)血运重建决策方面的潜力。我们训练的RL算法推荐的政策在患者结果方面比医生的行为政策表现出显著改善,表明个性化临床决策在这个患者群体中具有巨大潜力。我们观察到大多数最优的RL政策优先选择冠状动脉旁路移植术(CABG)而非其他治疗策略,以实现无心肌梗死复合终点(MACE)的目标。这些基于RL的建议与之前的临床试验和观察性研究一致,同样证明了CABG在改善阻塞性CAD患者的长期临床结果方面具有优越能力。
然而,我们认识到由于系统固有限制或患者倾向于微创方法,增加手术血运重建的采用可能不可行或不被期望。为了解决这个问题,我们训练了保守的Q学习(CQL)政策,特别适合于缓解当前临床行为的重大变化。即使是最保守的这些政策(α=0.5)也在保持侵入性血运重建策略类似参与率的同时实现了临床结果的改善。通过这种方法,保守程度可以微调,以使最终治疗分布与每个医疗系统的稀缺但最优资源相匹配。
传统的QL模型由于其有限的状态数量仍然是我们RL4CAD模型中最易解释的。如图5所示,每个特征对政策建议的影响在每个独特的患者状态下都可以观察到。例如,治疗地点(卡尔加里对比埃德蒙顿)强烈影响定义患者状态。在不同城市中,医生政策下经皮冠状动脉介入治疗(PCI)和药物治疗(MT)的概率存在显著差异(双尾t检验P<0.05),而在我们的RL政策下,当在两个地点建模时没有观察到差异。这表明临床决策受到当地实践文化的影响,但这种影响被跨两个环境训练的RL政策有效地平衡了。因此,RL政策有可能在卫生系统之间协调决策,促进平等和公平。 患有阻塞性CAD患者的内在复杂性和为该患者群体捕获的高维度数据使得治疗决策成为机器学习应用的一个合适问题。现在,机器学习技术已被有效用于诊断CAD并预测包括未来死亡率和MACE在内的临床CAD相关结果,使用诸如血管造影、人口统计学、症状和检查、心电图、实验室结果和超声心动图等多种类型的数据。所有这些研究中训练的机器学习算法采用了监督学习方法,并且不是直接针对为个别患者推荐治疗策略。此外,没有任何研究评估使用反事实评价的AI驱动政策的表现。据我们所知,这项研究是首次利用RL和QL方法结合反事实评价来优化CAD治疗。 Bertsimas等人开发了一种名为ML4CAD的基于监督结果预测模型的机器学习算法,旨在推荐CABG、PCI以及三种类型的药物策略(他汀类和/或β阻滞剂组合)的最佳CAD治疗策略。他们模拟了其政策(结果预测模型)的性能,并指出他们的政策相对于传统医生指导政策能够提供显著优势。重要的是,他们的分析将每次心脏导管插入术独立处理,而不考虑CAD治疗的顺序和多步骤性质(即在第一次治疗失败后选择不同的治疗)。他们观察到他们的政策与医生的政策只有28.2%的时间一致,同样指出了需要提高CABG的采用率以实现MACE的最佳减少。相比之下,我们引入了CQL,这允许一定程度上的调整一致性,达到了超过50%的一致性,同时仍然推荐更好的政策。相反,他们的医生政策包含更多的CABG治疗,而我们的政策主要推荐PCI和MT。这种差异可能归因于医疗系统的差异。 传统上,RL算法是在在线环境中通过与目标环境的广泛互动进行训练的。由于安全和伦理问题,这在实时医疗环境中很大程度上不可行。然而,训练客观且持续地模仿或超越医生行为的离线RL模型可能提供一个可行的选择,以安全地将RL模型引入决策过程。选择哪些RL算法应部署到临床环境中取决于所有利益相关者(临床医生、患者和提供者)及其使用条件的偏好。 本研究中使用的优化奖励函数主要关注重大临床结果,这不是患者、医疗服务提供者或支付者做出决定时唯一考虑的因素。CAD治疗经常受患者偏好(例如对手术的抵触)、当地资源获取(例如手术室时间)和经济可行性(例如支付者能力)的影响,这些因素并未反映在我们的奖励函数中。鉴于考虑所有这些因素的挑战,那些强烈倾向于实现最大临床回报(例如DQN模型)的模型可能并不总是现实或可行的临床实施。在这种情况下,CQL模型提供了一个独特解决方案,以改善与现实世界的实践对齐,当预测治疗决策将导致预期结果时,最大程度地与当地实践对齐,仅在未满足此条件时偏离。 另一方面,传统的QL为医生提供了一个有价值的工具,用于解读和评估推荐的最优政策。这个算法的离散和有限状态空间使得在每个患者群组内具有更大的可解释性,帮助用户理解特定治疗最优性的原因。我们展示了这种方法训练的最佳模型之一的这些解释。这种类型的模型可能适用于临床医生积极参与决策流程(即人类在环内)以根据他们的知识和经验细化推荐的设置。此外,这种方法提供的聚类中心可以作为未来研究中每个聚类患者代表,探索RL与其他政策之间的差异。 总的来说,虽然在线RL可能不适合或不适用于临床护理模型的训练,但最初使用离线数据训练的模型一旦被认为在临床上可接受,可以通过未来的在线优化进行改进。这种方法对于CAD治疗尤其有前景,因为数据变化可以改变政策的最优性。 尽管本研究有其优点,但也存在一些局限性。首先,本研究的主要局限在于采用了回顾性(离线)的方法来建模和评估RL策略。尽管WIS是一种广泛使用的技术,用于从行为策略估计新策略的预期奖励,但它不能保证在现实世界环境中估计的准确性。许多因素,如校准随机行为策略的选择和行为策略(医生的行为轨迹)未充分探索的问题复杂性,都可能影响准确性。因此,我们认为那些与行为策略显著不同的策略(如本研究中的DQN策略)应进一步分析,并谨慎实施。未来的研究,包括随机临床试验,将需要测试RL策略改善临床结果的能力,以及评估其对医疗资源使用的影响。 其次,将临床问题表述为马尔可夫决策过程(MDP)增加了模型的复杂性。这一决策基于冠状动脉疾病(CAD)治疗是一个包含多步骤交互的临床护理过程(例如,多次导管插入和干预)。本研究中使用的大多数轨迹仍然是一步完成的,这使得这些情况类似于多臂上下文老虎机问题。然而,我们没有使用这种表述方式,因为我们对估计所有患者的累积和长期结果更感兴趣。未来的研究可能会探索这一选项,并与MDP假设进行比较。多臂上下文老虎机是一个更简单的实现模型,在线应用中(在实际部署离线训练的策略后),它可以更容易地更新和解释。 第三,我们选择三年的时间范围来评估未来的结果是一个限制。这一选择是基于数据可用性,因为三年的临床随访是所有受试者一致可获得的最短随访时间。我们根据事件发生的时间对奖励进行了归一化处理,这为较早发生的事件提供了相对的重要性。在事后评估中,我们构建了一个五年随访期的MDP情景,每个情景的平均转换次数没有显著差异。然而,平均奖励下降到0.65,这是预料之中的,因为在更长的随访期间,更多的不良结果被预期,导致净收益降低。奖励的整体分布与三年随访观察到的分布相似。这表明后者是一个很好的折衷方案,在我们的案例中提供了超过20%的数据来训练模型。然而,未来的研究可以调查更长的窗口以了解治疗效果在更长时间内的影响。 第四,我们设计的奖励函数仅关注临床结果。在现实世界的实践中,CAD治疗,尤其是再血管化选择(即PCI与CABG),取决于许多复杂的因素,如成本、患者偏好以及对健康相关生活质量的预期影响。在未来的研究中,使用适当的权重将这些因素纳入奖励函数是一个极好的研究方向。 第五,本研究中使用的动作空间较为简单。CAD治疗是复杂的,且因每个个体患者的条件而异,这些条件由当代临床实践指南所定义。多种类型的PCI(例如药物洗脱支架与裸金属支架或分数血流储备的使用)和CABG技术(例如动脉与静脉导管)都是可用的,并伴随着过去十年内医疗疗法可用性和采纳率的动态变化。我们的简化模型,即三种治疗方法的训练,必须承认这是一个部分但务实的临床判断表示。然而,未来的研究可以更详细地探讨治疗方法。一种可能解决此复杂性的方法是通过首先确定主要治疗水平(使用一般模型,如我们的模型)来修剪动作空间,然后使用额外的模型来决定更详细的行动。 第六,RL4CAD模型在不同地点的通用性需要进一步研究。尽管我们使用了保留的测试集来评估模型,但患者差异、医疗系统和当地临床实践等因素可能会影响不同群体中政策的表现。这些差异引发了关于同一模型是否可以直接应用于不同临床环境的问题。未来的研究可以通过使用反向策略评估在不同数据集(例如不同地点或患者群体)上验证基于RL的政策。
(以上内容均由Ai生成)