AI 有问题
快速阅读: 《财经快报》消息,研究发现,领先的AI模型和聊天机器人在认知能力上表现出类似人类老化的迹象,部分模型在蒙特利尔认知评估测试中显示出轻度认知障碍。尽管AI在医疗领域的应用广泛,但这一发现可能影响其可靠性和患者信心。不过,AI投资持续增加,改进工作也在推进,未来有望提升其性能。
长期以来,关于人工智能(AI)使办公室工作过时的担忧一直存在,与此同时,关于AI局限性的讨论也一直在进行。但这里有一个新发现,它将同时加剧和缓解你对AI的担忧——领先的AI模型和聊天机器人正表现出认知能力下降的迹象,类似于人类的老化现象。2024年12月发表在《英国医学杂志》上的一项研究通过蒙特利尔认知评估(MoCA)测试,检查了用于医疗诊断的聊天机器人和大型语言模型(LLM)。该研究评估了ChatGPT 4、ChatGPT 4o、Claude 3.5、Gemini 1和Gemini 1.5。MoCA实际上是一种帮助评估老年人早期痴呆症状的测试。研究人员将其改编为数字模型,并用于测试注意力、记忆力、空间技能和执行功能等参数。该研究指出,“除了ChatGPT 4o外,几乎所有接受MoCA测试的大型语言模型都显示出轻度认知障碍和早期痴呆的迹象。此外,就像人类一样,年龄是认知能力下降的关键决定因素:较旧的聊天机器人,如同较老的患者,往往在MoCA测试中表现更差。”
研究还表示,“这些发现挑战了人工智能将很快取代人类医生的假设,因为领先聊天机器人的认知障碍可能会影响它们在医疗诊断中的可靠性,从而削弱患者的信心。”这些发现表明,虽然它们已被用作医疗工具,但现在其可靠性可能受到质疑。然而,这并非首次发生这种情况。AI模型的可靠性一直以来都是一个问号。去年十月,另一项研究报告称,OpenAI的AI驱动转录工具——已经在许多全球医院用于转录患者记录——出现了“捏造”的情况。该工具基本上是在“捏造”患者从未说过的内容,包括种族歧视言论、暴力情节以及医生从未建议过的医疗治疗。同期,美国南卡罗来纳大学(USC)的研究人员也对AI的认知能力进行了测试,通过IQ测试和视觉问题评估AI模型的能力。研究团队发现,无论是开源还是闭源的AI模型,在认知能力方面都存在问题,而前者在抽象视觉推理难题上也遇到了困难。
AI在医学领域的应用是的,全球范围内,AI已用于简化患者记录、提供个性化医疗治疗计划,并分析CT扫描、X光片甚至MRI等测试。AI在医学领域的应用它也被用来提高临床试验和药物开发的效率,降低成本。此外,AI还在治疗癌症等严重疾病方面提供支持。通过AI分析测试可以帮助早期检测、预后和诊断。不仅如此,AI工具还能帮助预测疾病的发展,并根据需要监测病情以改变治疗方案。这项研究是否令人担忧?是的。如果AI被用于高风险领域,如医疗领域,那么错误率必须极低。正如研究所说,这样的发现可能会让患者怀疑AI在医疗中的必要性。
有趣的是,最近发表在《JAMA网络开放》上的研究表明,当涉及到任何形式的医疗保健中AI的使用时,大多数美国人不相信它会被负责任地使用,也不相信他们的健康相关数据会得到保护。据该研究显示,65.8%的美国成年人不相信AI能在医疗保健中被负责任地使用,57.7%的美国成年人不信任医疗系统能确保AI不会对患者造成伤害。去年十二月,《柳叶刀》的一项研究也提到,虽然用于精神病学的AI工具显示出前景,但在确保AI在其他医学领域的透明性和标准化以获得更好结果方面仍需努力。
然而,积极的一面是,许多工作正在致力于改进AI。根据数据分析公司Crunchbase的数据,2024年,对AI的投资超过了1000亿美元。《自然》杂志最近一篇文章指出,“显然,AI公司专注于赋予其系统人类所享有的全部认知能力。开发AI模型的公司有强烈的动机保持AGI(通用人工智能)水平高的想法,以吸引兴趣和投资。”不仅如此,USC的研究人员还发现,当AI模型被“提示逐步通过推理任务”时,它们的表现显著提高,显示出很大的进步。当时一位研究作者指出,“通过提示,我们看到了性能提升了100%。”正如谚语所说,“有志者事竟成。”
(以上内容均由Ai生成)