AI委员会通过美国医师执照考试,表现超人类平均水平
快速阅读: 人工智能委员会在325个美国医学执照考试问题测试中,准确率达97%、93%和94%,超越单独GPT-4及人类平均水平。研究表明,AI通过结构化对话自我纠正,集体表现更优,未来有望应用于教育和临床护理。
在对325个公开的美国医学执照考试问题进行测试时,人工智能委员会分别达到了97%、93%和94%的准确率。这些成绩不仅超过了任何单独GPT-4实例的表现,也超越了人类通过相同测试的平均及格线。“我们的研究首次明确证明,人工智能系统可以通过结构化的对话自我纠正,集体表现优于任何单个AI。”Shaikh表示。
这一方法的有效性得到了验证,当模型最初意见不一时,讨论过程修正了超过一半的早期错误。总体而言,在没有一致初始答案的情况下,委员会最终有83%的时间得出了正确的结论。
该研究的共同作者Zishan Siddiqui指出:“这项研究并不是为了评估人工智能在美国医学执照考试中的答题能力。”他来自约翰霍普金斯大学,在新闻发布会上说,“我们描述了一种方法,通过将AI的自然反应差异视为优势来提高准确性。这种方法允许系统多次尝试,对比结果,自我纠正,应该被整合到未来的教育工具中,以及在适当的情况下用于临床护理。”
团队指出,他们的结果来自受控测试,而非实际临床环境,因此在人工智能委员会能够实际部署之前还有很长的路要走。但他们认为,这种方法也可能在其他领域发挥作用。
看来,古老的谚语“两人智慧胜一人”即使在非人类的‘头脑’之间也依然成立。
(以上内容均由Ai生成)