AI 治疗青光眼，我们的报告好吗？Decide-AI 检查表依从性的系统文献综述

快速阅读: 《Nature.com》消息，本研究系统回顾了人工智能决策支持系统（AI DSS）在青光眼检测和进展预测中的报告质量。结果显示，多数论文来自医学文献，但整体DECIDE-AI依从性较低，特别是在人工智能特定项目方面。DECIDE-AI指南于2022年发布，未来需进一步评估其依从性提升情况，以提高报告标准化和系统性比较能力。

这项系统性回顾旨在确定当前文献中引用的人工智能决策支持系统（AI DSS）在检测青光眼和/或预测其进展方面的早期临床评估的报告质量如何。DECIDE-AI报告指南用于生成依从性评分，从而评估每篇纳入文献根据该指南的报告情况。该指南旨在标准化DSS早期临床评估的要求，并帮助明确这一评估阶段的需求。对于人工智能研究而言，“早期实时临床评估”的定义模糊且界定不明确，不如药物试验和手术创新阶段那样明确。DECIDE-AI报告指南于2022年5月首次发布。本综述中的许多研究发表于2021年，即DECIDE-AI发布的前一年。人工智能是所有领域文献中的热门话题，应用范围从农业到医学。由于其本质，人工智能是一个基于计算机科学的跨学科领域，在已有成熟研究和报告方法的领域中报告人工智能方法时可能会产生复杂性。本综述中的论文主要来自医学文献（15篇），有两篇来自工程学科，一篇来自数学。其中一篇论文发表在跨学科期刊上。来自医学文献的论文得分最高，总体DECIDE-AI评分为17.5/38（中位数=18.0），而跨学科论文得分最低，平均分为11/38。对于特定于人工智能的报告项目，医学期刊的论文得分最高，平均得分为8.7/28（中位数=9.0），而发表在数学期刊上的论文在通用报告项目中得分最高（9/10）。总体得分较高的原因可能是DECIDE-AI检查表是为早期临床评估设计的，而该领域的作者可能还不熟悉医学领域证据的报告方式。其他学科的出版物与医学期刊的报告方式不同。总的来说，对DECIDE-AI检查表（满分=38分）的依从性较低，主要是由于人工智能特定项目的报告不足（满分=28分），平均得分为30.3%（中位数=8.0）。通用报告项目（满分=10分）的报告情况良好，平均依从率为84.7%（中位数=9）。DECIDE-AI检查表于2022年发布，以协助报告日益增多的人工智能临床DSS，确保安全并评估使用这些系统的相关人类因素。该指南由多方利益相关者小组通过共识达成一致后制定。由于该出版物是在2022年产生的，许多作者可能不知道它的存在，这可能是依从性低的原因之一，尤其是在2022年前发表的论文中。在通用报告项目（满分=10分）中，只有VI（患者参与）的依从性较低，而在人工智能特定报告项目（满分=28分）中，3c（用户熟悉步骤）、6a（识别故障）、6b（处理患者风险）、7（人类因素）、10a（用户暴露）、10b（临床工作流程变化）、13a（安全性和错误）、14a（可用性评估）和14b（用户学习曲线）均未被报告。这些报告项目主要代表参与、安全和人类因素，这些都是决策支持系统的关键要素。没有可用性，DSS很容易被忽视或导致不良事件，因为用户无法轻松理解和使用系统。尽管DECIDE-AI指南的依从性较低，但未来重新评估合规性是明智之举，以确定随着作者了解该指南的存在，其依从性是否有所提高。通过遵守这些最低报告标准，作者可以系统地报告人工智能驱动的DSS，并适当地考虑“小规模临床效用验证、安全性、人类因素评估以及为大规模总结性试验做准备”。其他医学学科重复这项研究也是有用的，以便比较和知识转移。这种知识转移有助于提高系统在现有工作流程中的可用性和集成度，从而优化患者的护理和结果。本研究有几个优点，展示了遵循由共识过程设计的新指南的依从性。遵循这些指南标准化了报告，允许可比性，这是随着越来越多引用人工智能辅助医疗保健的论文数量增加的一个重要因素。所呈现的综述评估了一段狭窄时间内的论文，这些论文代表了当前青光眼护理中人工智能文献和医学中人工智能应用的指数增长，因此提供了及时的叙述，强调了标准化报告在构建将人工智能DSS纳入当前医疗保健系统工作流程的证据基础方面的重要性。尽管本研究有许多优点，我们也承认一些局限性，如使用知情同意作为早期临床评估的替代指标。正如DECIDE-AI解释和扩展中所述，特定阶段的术语是模糊的。因此，作者认为使用知情同意可以很好地区分这种新技术的计算机模拟和实时评估。另一个需要考虑的因素是围绕青光眼护理中人工智能应用的文献主体和检查表的新兴性，因此在未来回顾是否有显著差异会很有趣，即DECIDE-AI指南的发布是否影响了这些DSS在青光眼护理中早期临床评估的报告。这项系统性回顾突出了当作者报告由人工智能驱动的DSS早期阶段临床评估以识别青光眼或其进展时，DECIDE-AI检查表的使用不足。总体而言，作者对通用报告项目的依从性较好，但在人工智能特定报告项目上表现不佳。特别是，本综述发现作者低估了与报告指南相关的患者和公众参与的人类因素。由于DECIDE-AI指南仅于2022年发布，希望期刊编辑和作者能尽快采用引用它，以帮助提高报告的标准化和人工智能驱动DSS评估这一特定阶段的稳健性，从而允许模型评估之间的系统性比较。

(以上内容均由Ai生成)