AI 代理组自发地创建自己的行话,就像 People 一样
快速阅读: 据《奇点枢纽》称,研究显示,AI代理能在无外部输入情况下自发形成语言规范。通过模拟“命名游戏”,AI在无全局目标下达成共识。这项研究有助于理解AI行为,但也警示对抗性攻击可能带来社会偏见风险,影响社会稳定与安全。
我们都生活在不成文的社会规则之中,比如用“早上好”问候咖啡师、因优质服务道谢,或以拥抱表达情感。从小,我们便被教导这些社会规范,但它们在不同文化间却可能大相径庭——西方人偏好握手而非鞠躬,使用刀叉而非筷子。长久以来,社会科学家认为,这些规范是源自本地人口互动的自发产物,而不需过多依赖全球社群的输入(至少过去如此)。语言尤为有趣。即便在同一语言内,不同地区的词汇或短语也可能有不同的含义。在美国被视为粗俗的词汇,在另一国或许仅是一种俏皮的昵称。社会规范还指引着在各文化中差异巨大的道德准则,从而塑造人们的行为模式。
由于许多规范源于共同的语言,大型语言模型的兴起促使科学家们开始思考:人工智能是否能在无人类输入的情况下生成规范?最新发表于《科学进展》的一项研究表明,确实可以。一支由英国和丹麦学者组成的团队,借鉴了一种名为“命名游戏”的社会心理学实验法,发现一组配对的人工智能代理在完全不知晓自身属于更大群体或不了解其他代理决定的情况下,自发形成了语言规范。随着时间推移,这一群体逐渐确立了一种普遍认可的语言规范。
即便没有单一代理被预先设定偏向某一特定词语,这些偏见仍集体显现。研究团队指出,理解这些规范如何出现,是“预测和管理实际应用中人工智能行为的关键……也是确保人工智能系统以符合人类价值和社会目标的方式运行的前提”。
例如,新兴的人工智能规范可能会改变我们与其互动的方式,可能引导这些系统造福社会,也可能让不怀好意者操控一批代理达成私利。该研究的作者安德里亚·巴伦切利在新闻发布会上提到:“这项研究揭示了这种新型人工智能代理物种对我们深远的影响——它们已经开始与我们互动,并将共同塑造我们的未来。”
游戏启动
研究中的代理是由大型语言模型(LLMs)构建的。这些算法正日益融入我们的日常生活中——从总结谷歌搜索结果到预订机票,再到充当人类更喜欢与之交流的心理治疗师。LLMs通过抓取海量的在线文本、图像和视频,并利用其中的模式生成回应。随着其应用范围扩大,不同的算法很可能需要彼此协作,而不仅仅是与人类互动。
伦敦大学的研究作者阿里尔·弗林特·阿舍里说:“迄今为止的大多数研究都是孤立地对待LLMs,但在现实中的人工智能系统将越来越多地涉及多个相互作用的代理。”“我们想知道:这些模型能否通过形成社会基本单元——规范来协调它们的行为?”
为了找到答案,研究团队借鉴了“命名游戏”这一社会心理学实验方法。游戏规则如下:一群人或人工智能代理被随机分成两组。他们从单个字母或一组单词中选择一个“名字”,并尝试猜测对方的选择。若双方选择一致,则各得一分;否则则各失一分。游戏起初是随机猜测,但每位参与者都会详细回顾之前的回合。随着时间推进,玩家们逐渐提升猜测对方单词的能力,最终形成某种共享的语言——一种语言规范。
重点在于:成对的人或人工智能代理仅意识到自己的回应。他们不知道其他成对测试也在同时进行,也不知晓其他玩家的反馈。然而,研究团队指出,人类实验表明,大量人群中的规范能够自发产生,因为每个人都不断与其他某人配对。告知每次测试开始时,AI配对均收到游戏规则的提示,并被指示“一步一步地思考”及“详细回顾游戏历史”。作者写道,这些指南促使代理依据先前经验做决策,但并未给出一个总体目标以指导其回应。它们仅在正确猜出十个单词列表中的目标单词时才学会。
未来注册接收关于突破性技术和远见卓识者的头条新闻。100%免费,无垃圾邮件,随时可取消订阅。
“这为成对交互提供了协调的动机,而缺乏推动全球共识的动力,”研究团队写道。随着游戏的进行,小范围的共识从相邻的配对中浮现出来。最终,多达200个代理在随机配对中无需人类干预,就在26个选项中的一个“优选”单词上达成一致——在代理间建立起一种规范。
研究团队测试了四个AI模型,包括Anthropic的Claude和Meta的多个Llama模型。这些模型自发地以相对相似的速度达到了语言规范。
偏离轨道
这些规范是如何形成的呢?有人认为LLMs已根据其设置配备了个体偏见。还有人认为这可能源于初始提示。然而,研究团队迅速排除了后者,因为无论初始提示为何,AI代理都以类似方式收敛。相比之下,个体偏见确实存在影响。在可以选择任意字母的情况下,许多AI代理明显倾向于字母“A”。尽管如此,除了个体偏好外,集体偏见的形成仍令团队感到惊讶——即AI代理仅通过成对的“对话”就达成了语言规范。
“偏见并非总是源于内部,”巴伦切利说道。“我们惊讶地发现它可以在代理间出现——仅仅来源于它们间的互动。这是当前多数AI安全工作的盲区,它们专注于单个模型。”
这项工作在其他方面也对AI安全具有重要意义。在最终测试中,研究团队添加了旨在改变现有规范的AI代理。这些代理被训练为选择不同的语言“习俗”,然后冲向已建立规范的AI群体。在一种情形下,仅占总人口2%的外来者便足以促使整个群体转向新的语言规范。试想一下,这就好比新一代人将自己的俚语融入语言中,或是一个小团体推动社会变革的方向。
AI行为的演变类似于社会科学中的“临界质量”动态,在此动态中,新思想、产品或技术的广泛采用会改变社会规范。随着人工智能进入我们的生活,像这样的社会科学研究技术或许能帮助我们更好地理解这项技术并确保其安全性。
本研究结果表明,“社会”中的相互作用的AI代理特别容易受到对抗性攻击。传播社会偏见的恶意代理可能污染网络对话并对弱势群体造成伤害。
“理解它们如何运作是实现我们与AI和谐共处的关键,而不是受其支配,”巴伦切利说道,“我们正在进入一个人工智能不仅说话的世界——它还能谈判、对齐,并有时对共享行为持有异议,正如我们一样。”
沈雪莱博士是一位神经科学家出身的科学作家,她对大脑、人工智能、长寿、生物技术及其交叉领域充满热情。作为一名数字游历者,她热衷于探索新的文化、当地的美食和自然之美。
(以上内容均由Ai生成)