谷歌翻译告诉我们 AI 的下一步发展方向
快速阅读: 据《奇点枢纽》称,计算机科学家理查德·萨顿和安德鲁·巴尔托因在人工智能领域的贡献获颁图灵奖。萨顿主张依赖大量计算以提升AI的有效性。早期的人工智能聊天机器人基于大型语言模型(LLM),通过训练海量数据进行推理。1970至1980年代,此类模型应用于计算机翻译和语音识别。首个类似LLM的模型出现于2007年的谷歌翻译中,采用Transformer架构提升了翻译质量。尽管机器翻译取得显著进展,但仍存在不足,尤其在高风险场景中需谨慎使用。
计算机科学家理查德·萨顿和安德鲁·巴尔托因长期具有影响力的创新思想而获得今年的图灵奖,这是该领域的最高荣誉。例如,萨顿在2019年的文章《苦涩的教训》为当今人工智能(AI)领域的狂热提供了理论基础。他主张,依赖大量计算而非人类知识来提升AI的方法“最终是最有效的,并且差距巨大”。这一观点在AI历史上多次得到验证。然而,在大约20年前的历史中,还有一个重要的教训值得我们注意。如今的AI聊天机器人建立在大型语言模型(LLM)之上,这些模型通过训练海量数据使机器能够通过预测句子中的下一个词来“推理”。美国博学家克劳德·香农在1948年正式提出了有用的统计语言模型,引用了1910年代和1920年代的先例。这种形式的语言模型随后在1970年代和1980年代被广泛用于计算机翻译和语音识别领域,即将口语转换为文本。首个与现代LLM规模相当的语言模型发表于2007年,是谷歌翻译的一部分,谷歌翻译已于一年前推出。该模型使用超过一千台计算机训练了数万亿词汇,是今日LLM的直接前身,尽管技术上有所不同。它依靠基于词频的概率计算,而如今的LLM则基于所谓的Transformer架构。Transformer首次在2017年开发——最初也是为了翻译——这些人工神经网络使得机器能够更好地利用每个词的上下文。谷歌翻译的优缺点在过去二十年里,机器翻译(MT)不断进步,不仅得益于技术的发展,还受益于训练数据集的规模和多样性。谷歌翻译在2006年刚开始时仅提供三种语言(英语、中文和阿拉伯语)之间的翻译,如今已支持249种语言。然而,尽管这听起来令人印象深刻,但仍然只占世界估计7000种语言的不到4%。在一些如英语和西班牙语等少数语言之间,翻译通常是完美的。但在这些语言中,翻译在习语、地名、法律和技术术语等方面也常出错。在许多其他语言之间,服务可以帮助你理解文本大意,但通常存在严重错误。最大的年度机器翻译系统评估现在包括由LLM完成的翻译,这些翻译可与专门设计的翻译系统相媲美。2024年的评估报告直言不讳地指出:“机器翻译尚未完全解决。”尽管存在这些不足,机器翻译仍被广泛使用:早在2021年,谷歌翻译应用的下载量就达到了十亿次。然而用户似乎仍然明白应该谨慎使用此类服务。2022年对1200人的调查显示,他们主要在低风险场景下使用机器翻译,比如理解工作或学习之外的在线内容。只有约2%的受访者表示他们的翻译涉及高风险场景,包括与医疗工作者或警察互动。确实,在这些场景中使用机器翻译存在高风险。研究表明,医疗领域中的机器翻译错误可能会造成严重伤害,还有报道称它损害了可信的庇护案件。更糟糕的是,用户倾向于信任那些容易理解的机器翻译,即使它们可能是误导性的。了解这些风险后,翻译行业在国际法律和商业等高风险场景中几乎完全依赖人工翻译。然而,由于机器现在可以做很多他们的工作,这些工作者的市场价值已经下降,迫使他们更多地关注质量保证。
(以上内容均由Ai生成)