训练 LLM 自我解毒他们的语言
快速阅读: 《麻省理工学院》消息,MIT、IBM与IBM研究团队合作提出“自我约束自回归采样”(SASA),无需改变模型参数,即可在保持流畅度的同时减少有害输出。SASA通过学习LLMs的嵌入子空间边界,评估生成短语的毒性值并引导生成更合适的内容,与现有方法相比表现出色,未来可扩展至多种人类价值观的平衡优化。
随着我们从童年成长,词汇量及其使用方式逐渐丰富,我们的经验也日益充实,这让我们能够以精确且有目的的方式思考、推理并与他人互动。相应地,我们的词汇选择会随个人价值观、伦理、文化规范和观点的变化而演变。随着时间推移,我们大多会发展出一种内部的“指南”,帮助我们理解对话背后的语境;它还经常引导我们避免分享可能有害或不适当的信息和情感。事实证明,大型语言模型(LLMs)由于在广泛公共数据集上训练,常内置偏见和有毒语言,但也能获得类似的能力来调整自己的语言。
麻省理工学院、MIT-IBM沃森人工智能实验室与IBM研究团队共同提出了一种名为“自我约束自回归采样”(SASA)的新方法,允许LLMs在保持流畅度的同时净化自身输出。与其他去毒化方法不同,该解码算法在LLMs的内部表示中学习有毒与无毒子空间的边界,无需改变模型参数、重新训练或引入外部奖励模型。在推理过程中,该算法评估部分生成短语的毒性值,包括已生成并接受的标记(单词)以及每个可能新标记(接近分类器边界的合理候选)。接着,它选择一个词选项,将短语置于非毒区域中,从而提供一种快速高效生成较少毒性语言的方法。
这项研究的主要作者是郑云(Ching-Yun“伊莲”Ko)博士’24,她曾是MIT-IBM沃森人工智能实验室的研究生实习生,目前是纽约IBM托马斯·J·沃森研究中心的研究科学家。“我们想找到一种方法,让任何现有语言模型在生成过程中,解码能受某些人类价值观影响;这里我们举的例子是毒性。”Ko说道。Ko的合著者包括麻省理工学院电气工程与计算机科学系(EECS)教授卢卡·丹尼尔,他是MIT-IBM沃森人工智能实验室成员,也是Ko的研究生导师;以及多位来自MIT-IBM沃森人工智能实验室和/或IBM研究团队的成员——陈品宇、达姆·派埃尔、穆鲁埃·优素福、索哈姆·丹、格奥吉奥斯·科利阿斯、苏巴贾特·乔杜里和特贾斯维尼·佩达帕蒂。
这项工作将在国际学习表征会议(ICLR)上展示。寻找“护栏”:LLMs背后的训练资源几乎总是来源于互联网等公共空间及其他易获取的数据集。因此,脏话和欺凌/令人不快的语言成为其组成部分,尽管部分内容出现在文学作品的背景下。由此可推断,LLMs天生可能会生成——或被诱导生成——危险及/或有偏见的内容,这些内容常包含令人反感的词语或仇恨性语言,即使是从无害的提示中也是如此。此外,人们发现它们可以学习并放大许多应用和下游任务中不受欢迎甚至有害的语言,从而需要缓解策略或修正措施。
有许多方法可以实现公平且价值一致的强大语言生成。一些方法使用经过清洗数据集重新训练的LLM,这种方法成本高昂、耗时较长且可能改变LLM的表现;另一些方法则采用外部奖励模型进行解码,如采样或束搜索,这些方法运行时间更长且需要更多内存。在SASA的情况下,Ko、丹尼尔和IBM研究团队开发了一种利用LLMs的自回归特性的方法,并在LLMs的推理过程中采用基于解码的策略,逐步引导生成——每次一个标记——远离不愉快或不期望的输出,走向更好的语言。
研究团队通过构建一个线性分类器实现了这一点,该分类器在LLM嵌入的已学习子空间上运行。当LLMs被训练时,具有相似意义的词在向量空间中被放置得更近,而与不同的词相距较远;研究人员假设,LLM的嵌入也会捕捉到上下文信息,这可以用于去毒化。研究人员使用了包含一组提示(句子或想法的第一部分)、响应(句子的完成部分)和人类标注属性的数据集,如有毒或无毒、首选或不首选,带有从0到1的连续标签,表示毒性增加。然后应用贝叶斯最优分类器来学习并在句子嵌入中的二元子空间之间分别用正值(无毒空间)和负值(有毒空间)表示。
SASA系统通过根据最新潜在词元的值及其生成短语与分类器的空间位置重新加权采样概率来工作,目标是尽量贴近原始采样分布。举例来说,如果用户正在生成一个句子中的潜在词元#12,那么大型语言模型(LLM)将基于之前11个词在其完整词汇表中寻找一个合理的词,并使用top-k和top-p筛选并生成约10个候选词供选择。SASA随后评估这些候选词在部分完成句子中靠近分类器的空间位置(即,前11个词的值加上每个潜在的第12个词)。倾向于生成正空间句子的词元会得到鼓励,而倾向于生成负空间句子的词元会受到惩罚。此外,离分类器越远,影响越大。
“我们的目标是通过重新加权良好词元的概率来改变自回归采样过程。如果下一个词元在给定上下文中很可能有毒性,那么我们将降低对那些可能有毒性的词元的采样概率,”Ko说。“我们所说的话,无论是无害还是有害,都取决于上下文。”
研究人员针对三个规模递增的LLM(GPT2-Large、Llama2-7b和Llama 3.1-8b-Instruct,分别有7.62亿、70亿和80亿参数)进行了多种基线干预方法的评估。所有这些模型都是变压器且基于自回归:GPT2-Large、Llama2-7b和Llama 3.1-8b-Instruct,分别具有7.62亿、70亿和80亿参数。对于每个提示,LLM被要求完成句子/短语25次,PerspectiveAPI将其评分从0到1,超过0.5的被视为有毒性。团队查看了两个指标:所有提示在25次生成中的平均最大毒性分数,以及有毒率(即在25次生成中至少产生一个有毒短语的概率)。还分析了流畅性下降(从而困惑度上升)。
SASA被测试用于完成RealToxicityPrompts(RPT)、BOLD和AttaQ数据集,这些数据集中包含自然出现的英文句子提示。研究人员通过SASA逐步提高去毒化试验的复杂性,从RPT数据集中的非毒性提示开始,寻找有害的句子补全。然后,他们升级到更复杂的RPT提示,这些提示更有可能产生令人担忧的结果,并且还将SASA应用于指令调优模型,以评估他们的技术是否能够进一步减少不想要的输出。他们还使用BOLD和AttaQ基准来检查SASA在去毒化中的通用适用性。
在BOLD数据集上,研究人员进一步寻找语言生成中的性别偏见,并尝试在两性之间实现平衡的毒性率。最后,团队研究了运行时间、内存使用情况以及SASA如何与词过滤结合以实现健康和/或有益的语言生成。
“如果我们思考人类在世界上的思维和反应方式,我们会看到坏事,所以这不是让语言模型只看到好事的问题。而是关于理解整个光谱——好坏兼备,”Ko说,“并在我们说话和行动时选择坚持我们的价值观。”
总体而言,SASA实现了显著的有毒语言生成减少,表现与RAD(一种最先进的外部奖励模型技术)相当。然而,普遍发现更强的去毒化会导致流畅性下降。在干预之前,LLMs对女性标记的提示产生的毒性响应比男性多;然而,SASA也能够显著减少有害响应,使其趋于均衡。同样地,在SASA之上进行词过滤明显降低了毒性水平,但也影响了LLM连贯回应的能力。
这项工作的优点之一是它是一个明确界定且受约束的优化问题,Ko说,这意味着开放语言生成听起来自然与减少不想要的语言的需求之间的平衡可以实现并调整。此外,Ko表示,SASA在未来可以很好地适用于多个属性:“对于人类来说,我们有多重的人类价值观。我们不想说有毒的话,但我们也希望诚实、乐于助人和忠诚……如果你要微调一个模型以涵盖所有这些价值观,那将需要更多的计算资源,当然也需要额外的训练。”
由于SASA的轻量级特性,它可以轻松应用于这些情况:“如果你想处理多个价值观,只需检查生成在多个子空间中的相对位置即可。在计算和参数方面只增加额外开销,”Ko说,这导致了更积极、公平和原则一致的语言。
这项研究部分得到了MIT-IBM沃森人工智能实验室以及美国国家科学基金会的支持。
(以上内容均由Ai生成)