AI 语言模型像一群人一样发展社会规范

发布时间：2025年5月15日来源：szf

快速阅读: 据《Nature.com》最新报道，研究显示，大型语言模型组成的群体在互动游戏中能发展出社会规范。通过命名游戏，多个Claude和Llama模型逐渐偏好某些字母，体现集体偏向。这提示需在群体环境中测试优化模型行为，以减少潜在偏见。

本周《科学进展》发表的一项研究表明，由大型语言模型组成的群体在玩简单的互动游戏时能够发展出社会规范，比如采用自己的规则来使用语言。伦敦大学城市学院的共同作者安德里亚·巴伦切利表示，像握手或鞠躬这样的社会惯例，是“任何协调社会的基本构建模块”。巴伦切利想要探究当大型语言模型（LLMs）在群体中互动时会发生什么。

在首次实验中，他的团队使用了由旧金山创业公司Anthropic创建的LLM Claude，玩一种类似于人类群体动态研究中使用的命名游戏。这个游戏涉及随机配对群体成员，并让他们为物品命名，若他们的答案与搭档一致，则获得奖励；若不一致，则受到惩罚。经过几轮游戏后，每次更换新搭档，配对逐渐开始选择相同的字母。这种命名的一致性体现了社会规范的形成。

在研究中，研究团队设置了24个Claude副本，并随机配对其中两个，指示每对中的每个成员从10个选项中选择一个字母。如果他们的答案与搭档一致，则获得奖励；如果不一致，则受到惩罚。经过几轮游戏后，每次更换新搭档，配对逐渐开始选择相同的字母。当游戏重复进行时，在200个Claude副本和最多26个字母的选项池中观察到了这种现象。当在Meta公司位于加州门洛帕克开发的Llama三个版本上重复实验时，也出现了类似的结果。尽管这些模型在单独运行时随机选择字母，但在分组时，它们更倾向于选择某些字母而非其他字母，这表明它们已经形成了集体偏向。

在人类中，集体偏向指的是人们在互动过程中形成的信念或假设。巴伦切利对此感到意外。“此前在AI系统中从未有过此类现象的记录，”他补充道。巴伦切利指出，集体偏向的形成可能带来有害偏见，即使个体代理看似无偏见。他和他的同事建议应在群体环境中测试LLMs，以优化其行为表现，这将与其他研究者减少单一模型偏差的工作相辅相成。

(以上内容均由Ai生成)