用聊天机器人取代联邦工作人员将是一场反乌托邦的噩梦
快速阅读: 《科学美国人》消息,本文批评了生成式AI系统存在的“幻觉”问题,指出像Whisper这样的语音识别系统因架构缺陷容易编造内容,且不可靠。作者质疑用此类AI替代联邦雇员的可行性,并呼吁挑战相关计划,以防对美国人造成伤害。
想象一下,当你拨通社会保障署的电话,询问“我的四月份付款在哪里?”时,本以为会听到一个熟悉的声音回答,结果却传来一个冰冷的机械音:“取消所有未来的付款。”你的支票就这样成了“幻觉”的受害者。“幻觉”是一种现象,指自动语音识别系统输出的文本与输入的内容几乎没有或完全没有关系。这种“幻觉”是困扰生成式人工智能系统的众多问题之一,比如OpenAI的ChatGPT、xAI的Grok、Anthropic的Claude以及Meta的Llama。这些问题源于系统架构的设计缺陷,使得这些系统变得不可靠。
然而,正是这些类型的生成式AI工具,不仅得到了拜登政府的支持,也受到了特朗普政府的青睐。一位官员曾表示,希望用它们替代“人力劳动力与机器”。这无疑令人感到恐惧。没有任何所谓的“奇怪小技巧”能够消除专家并创造出超越人类能力的奇迹机器。将处理关键任务的联邦雇员——这些任务可能对数亿人的生死产生影响——替换为即使在进行基本语音转文字时也会编造大量文本的自动系统,无疑是灾难性的。如果这些自动化系统甚至无法可靠地重复给出的信息,那么其输出将充满错误,导致不适当甚至危险的行为。自动系统无法像联邦雇员——真正的人类——那样做出决策。
支持科学新闻报道
如果你喜欢这篇文章,可以考虑通过订阅来支持我们的获奖新闻报道。购买订阅不仅是对你阅读体验的一种投资,也是在帮助确保关于今天塑造我们世界的发现和想法的有影响力故事的未来。
历史上,“幻觉”并不是语音识别的主要问题。也就是说,尽管早期的系统可能会在特定短语中出现转录错误或拼写错误,但它们不会产生大量流畅且语法正确的文本,而这些文本并未出现在相应的音频输入中。但研究人员已经表明,最近的语音识别系统,如OpenAI的Whisper,可以完全伪造转录内容。Whisper是一个已被集成到某些版本的ChatGPT中的模型。例如,来自四所大学的研究人员分析了由Whisper转录的音频片段,并发现了完全虚构的句子,有些转录内容甚至编造了被提及的人的种族,还有些甚至指控他们犯下谋杀罪。在一个案例中,一段说“他,那个男孩,打算,我不太确定,拿伞”的录音被转录为包括以下内容:“他拿了一大块十字架,一小块……我确定他没有恐怖刀,所以他杀害了好多人。”在另一个例子中,“另外两个女孩和一个女士”被转录为“另外两个女孩和一个女士,嗯,她们是黑人。”
在毫无节制的人工智能炒作时代,埃隆·马斯克声称要建造一个“最大程度追求真相的人工智能”,我们是如何得到比以前更不可靠的语音识别系统的?答案是,虽然致力于改进语音识别系统的研究人员利用他们的背景知识创建了专门针对特定任务的模型,但像OpenAI和xAI这样的公司声称它们在构建类似“一个模型解决一切”的东西,可以执行许多任务,包括,根据OpenAI的说法,“解决科学、编码、数学和类似领域的复杂问题”。
为了做到这一点,这些公司使用它们认为可以用于多种不同任务的模型架构,并在大量嘈杂、未经筛选的数据上训练这些模型,而不是使用最适合当前特定任务的系统架构和训练及评估数据集。一个号称能做一切的工具不可能做好每件事。目前构建工具如ChatGPT或Grok的主要方法,广告宣传为“一个模型解决一切”,使用了一些大型语言模型(LLMs)的变化形式,这些模型经过训练以预测最有可能的单词序列。Whisper同时将输入的语音映射为文本并预测接下来的内容,作为输出的“标记”。标记是文本的基本单位,如单词、数字、标点符号或单词片段,用于分析文本数据。因此,给系统两项不同的任务——语音转文字和下一个标记预测——再加上用于训练它的庞大混乱的数据集,使得幻觉更容易发生。
像OpenAI的许多项目一样,Whisper的发展受到其前首席科学家总结的观点的影响:“如果你有一个大的数据集并训练一个非常大的神经网络”,它会工作得更好。但可以说,Whisper并不更好。考虑到其解码器的任务是既进行转录又进行标记预测,在训练过程中如果没有精确的音频与文本对齐,模型可能会优先生成流畅的文本而不是准确地转录输入。而且,不像拼写错误或其他错误,大量的连贯文本不会给读者任何线索表明转录可能是不准确的,可能导致用户在重要场合中使用它们而从未发现它们的失败。直到为时已晚。
OpenAI的研究人员声称Whisper达到了人类的“准确性和鲁棒性”,这是一个明显错误的声明。大多数人类不会通过编造大量从未存在于他们听到的语音中的文本来转录语音。在过去,从事自动语音识别工作的人员使用精心策划的数据集来训练他们的系统,其中文本准确地反映了语音。相比之下,OpenAI试图使用“通用”模型架构而不是专门为语音转文字设计的模型——规避了整理数据和充分补偿数据工作者和创作者所需的时间和资源——导致了一个危险的不可靠的语音识别系统。
像OpenAI的许多项目一样,Whisper的发展受到其前首席科学家总结的观点的影响:“如果你有一个大的数据集并训练一个非常大的神经网络”,它会工作得更好。但可以说,Whisper并不更好。考虑到其解码器的任务是既进行转录又进行标记预测,在训练过程中如果没有精确的音频与文本对齐,模型可能会优先生成流畅的文本而不是准确地转录输入。而且,不像拼写错误或其他错误,大量的连贯文本不会给读者任何线索表明转录可能是不准确的,可能导致用户在重要场合中使用它们而从未发现它们的失败。直到为时已晚。
如果当前的“一个模型解决一切”范式在大多数英语使用者无需进一步教育就能完美完成的英语语音转文字中失败了,那么如果我们成功地用生成式AI系统取代了拜登政府的服务中的专业联邦雇员,我们将如何应对?与联邦雇员被告知使用的生成式AI系统不同,后者用于从起草讲话要点到编写代码的各种任务,自动系统受限于转录音频这一更为明确的设置。我们不能用完全编造内容的模型来替代联邦雇员的关键任务。没有联邦雇员处理敏感信息并在从医疗保健到移民等生命攸关的领域工作的专业知识可以替代。因此,我们需要及时挑战,如果合适的话,在法庭上挑战拜登政府用机器取代“人力劳动力”的计划,以免这一行动给美国人带来巨大伤害。
这是一篇观点和分析文章,作者或作者的观点不一定反映《科学美国人》杂志的观点。
(以上内容均由Ai生成)