聊天机器人已通过类人智能的关键测试。现在怎么办？

快速阅读: 《科学警报》消息，近日，一项研究称OpenAI的GPT-4.5在图灵测试中被认为与人类无异。然而，图灵测试有效性存疑，因其更多反映模仿能力而非真正智能。该测试未获普遍认可，且研究条件如时间限制等有待商榷。虽然GPT-4.5表现突出，但它并不具备人类智慧。

最近一周内，关于一款人工智能聊天机器人正式通过图灵测试的消息频繁登上头条。这些新闻报道基于加州大学圣地亚哥分校两位研究人员的一项近期预印本研究。在这项研究中，四个大型语言模型（LLMs）接受了图灵测试。其中一个模型——OpenAI的GPT-4.5——有超过70%的时间被认为与人类无异。图灵测试常被视为衡量机器智能的终极标准。然而，对于这一测试的有效性存在争议。事实上，它有着颇具争议的历史，这让人们对它衡量机器智能的能力产生了怀疑。那么，这对这项新研究的意义意味着什么呢？

这项由认知科学家卡梅隆·琼斯和本杰明·伯根完成的预印本研究于三月份发布，但尚未经过同行评议。他们测试了四个LLMs：ELIZA、GPT-4o、LLaMa-3.1-405B和GPT-4.5。测试包括参与者完成八轮对话，他们扮演审问者，同时与两名证人通过文字交流。一名证人为人类，另一名则为LLM。共有284名参与者被随机分配为审问者或证人角色。参与者需要在五分钟内同时在分屏上与两名证人互动，测试界面模拟普通消息界面。然后，他们判断哪位是人类，哪位是AI聊天机器人。结果显示，参与者中有73%认为GPT-4.5是人类，56%认为LLaMa-3.1-405B是人类。另外两个模型（ELIZA和GPT-4o）分别只有23%和21%的参与者认为它们是人类。

图灵测试的首个版本由英国数学家兼计算机科学家艾伦·图灵于1948年在他的论文《智能机器》中提出。最初，它是一个三人下国际象棋的实验，其中提到一个理论上的纸制机器作为一方，两人是玩家，一人是操作员。1950年出版的《计算机器与智能》一书中，图灵重新提出了这个实验，称为“模仿游戏”。它涉及三位参与者：A是女性，B是男性，C可以是任意性别。通过一系列问题，C需要判断“X是A且Y是B”还是“X是B且Y是A”。这些问题旨在取代含糊的问题“机器能思考吗？”图灵认为这个问题含糊不清，因为它需要理解“机器”和“思考”这两个概念的含义。

多年以来，这个实验被称为图灵测试。虽然测试的具体内容有所变化，但其核心仍是判断“X是A且Y是B”还是“X是B且Y是A”。尽管图灵测试常被用来测试机器智能，但它并未被普遍认可为准确的测试方法。事实上，这个测试经常遭到质疑。一些研究人员认为，通过测试的能力是一种行为表现，而非智能。因此，说一台机器可以通过模仿游戏但不能思考并不矛盾。大脑并非机器。图灵宣称大脑是一种机器，可以完全用机械方式解释。许多学者反驳这一观点，并据此质疑测试的有效性。由于计算机不是人类，它们得出结论的过程可能与人类不同。这使得测试不够全面，因为直接对比不可行。一些研究人员认为仅测试一种行为不足以判断智能。聊天机器人可能越来越难与人类区分，但这并不意味着它们以同样的方式思考。

虽然预印本文章称GPT-4.5通过了图灵测试，但它也指出：这表明研究人员并不认为图灵测试是判断人类智能的可靠指标。相反，它只是对人类智能模仿的一种体现——是对测试起源的一种致敬。需要注意的是，研究条件存在一定问题。例如，五分钟的测试时间相对较短。此外，每个LLM都被要求采用特定的人格特征，但具体细节及其对测试的影响尚不清楚。

目前可以肯定地说，GPT-4.5并不具备人类那样的智慧——尽管它可能会让一些人误以为它具备。

泽娜·阿萨德（Zena Assaad），澳大利亚国立大学工程学院高级讲师。

这篇文章根据知识共享许可从《对话》杂志重新发布。阅读原文。

(以上内容均由Ai生成)