AI安全支持出错，关键场景下引发问题

快速阅读: 俄亥俄州立大学研究团队发现，AI在高风险环境如医院和飞机的应用中，需同时评估算法与使用者，以确保系统顺畅运行和安全。研究显示，更准确的AI预测能提高人类表现50%-60%，但错误预测会显著降低决策质量。

俄亥俄州立大学的研究人员指出，在医院和飞机等高风险环境中采用人工智能时，良好的AI性能和简短的员工培训不足以确保系统顺畅运行和患者及乘客的安全。研究团队认为，必须同时评估算法和使用它们的人，以准确了解AI对人类决策的影响。

研究团队还表示，这些评估应涵盖人们如何应对技术表现优秀、一般和较差的情况，以真正测试AI与人的互动，并揭示错误带来的风险水平。参与这项研究的有450名俄亥俄州立大学的护理学生，其中大多数是本科生，具有不同程度的临床培训经验，以及12名注册护士。他们在远程患者监测场景中使用AI辅助技术，判断患者是否需要紧急护理。

结果显示，更准确的AI预测提高了参与者的表现，改善幅度在50%至60%之间。然而，当算法产生错误预测时，即使有解释数据不支持该结果，人类的表现也会大幅下降，当算法最不准确时，正确决策的能力下降超过100%。

“AI算法永远不会完美。因此，如果希望AI算法用于关键安全系统，那么团队和人与AI的配合必须能够应对表现不佳的AI算法。”第一作者Dane Morey说，他是俄亥俄州立大学集成系统工程系的研究科学家。“重点不是制造非常优秀的安全关键系统技术，而是人机联合能力在安全关键系统中的重要性。”

Morey与俄亥俄州立大学集成系统工程系的副教授Mike Rayo和名誉教授David Woods共同完成了这项研究。该研究最近发表在《npj数字医学》上。研究团队均来自Rayo领导的认知系统工程实验室，他们于2020年开发了“联合活动测试”研究计划，旨在解决高风险环境中负责任的AI部署问题，特别是在医疗和国防领域。

研究团队还在完善一套基于证据的机器设计指导原则，以促进人机性能评估过程，并最终改善系统结果。根据初步清单，机器首先应向人们传达其与现实世界的不一致之处，即使它不知道自己与现实世界不一致。

“即使技术在这些建议上表现出色，可能仍然不够。”Rayo说，“我们需要进行某种形式的经验评估，因为这些是风险管理步骤，我们的关键安全行业至少需要这两个步骤来衡量人与AI的综合表现，并检验一系列具有挑战性的案例。”

认知系统工程实验室在过去五年中一直在对实际技术进行研究，以确定最佳实践评估方法，主要项目涉及20至30名参与者。此次项目共有462名参与者，特别是那些与课程相关的教育活动相关的目标人群，这使研究人员对其发现和建议充满信心。每位参与者分析了10个不同实验条件下的患者案例：没有AI帮助、AI预测紧急护理需求的概率、AI标注与患者状况相关的数据，以及同时提供AI预测和标注。

所有示例都包括一个数据可视化图表，显示人口统计学、生命体征和实验室结果，旨在帮助用户预测或稳定患者的状况。参与者被要求对每个患者的紧急程度进行0到10的评分。较高的紧急评分和较低的非紧急评分被视为表现更好的指标。

“我们发现，无论是护士还是AI算法，在所有情况下都没有绝对的优势。”作者写道。分析考虑了参与者临床经验的差异。

研究结果显示，这种评估方式有必要，但研究人员惊讶地发现，在某些实验条件下，解释对参与者的担忧影响甚微。相反，算法推荐以一条红色实线呈现，压倒了其他所有因素。

“无论这些注释产生了什么效果，都被那个指示器完全掩盖了。”雷欧说。

研究团队使用了代表当前医疗应用的技术，作为建议实施的模板，解释了为何需要这些建议以及行业如何采用这些建议。实验技术的编码数据已公开，莫雷、雷欧和伍兹在AI前沿网站上进一步阐述了他们的工作。

“我们倡导一种帮助人们更好地理解技术可能带来的各种影响的方法，”莫雷说，“目标不是实现最佳的AI性能，而是实现最佳的团队表现。”

这项研究由美国护士基金会的“重塑护理计划”资助。

联系方式：

丹·莫雷，morey.38@osu.edu

迈克·雷欧，rayo.3@osu.edu

艾米丽·卡尔德维尔撰写，caldwell.151@osu.edu；电话：614-292-8152

(以上内容均由Ai生成)