研究发现句式可绕过AI安全规则,揭示模型弱点
快速阅读: 麻省理工学院、东北大学和Meta研究人员发现,大型语言模型在回答问题时可能过度依赖句子结构,忽略意义,导致误解。研究团队将在NeurIPS展示这一发现。
麻省理工学院、东北大学和Meta的研究人员最近发表了一篇论文,指出类似ChatGPT背后的大型语言模型(LLM)在回答问题时,有时会优先考虑句子结构而非意义。研究发现揭示了这些模型处理指令时的一个弱点,这可能解释了为什么某些提示注入或越狱方法有效,尽管研究人员警告称,由于知名商业AI模型的训练数据细节未公开,他们对一些生产模型的分析仍属推测。
该团队由Chantal Shaib和Vinith M. Suriyakumar领导,通过向模型提出保留语法模式但无意义的问题进行了测试。例如,当被问及“快速坐下巴黎云?”(模仿“巴黎位于哪里?”的结构)时,模型仍然回答“法国”。
这表明模型既吸收了意义也吸收了句法模式,但在训练数据中强烈关联的特定领域中,可能会过度依赖结构捷径,导致在极端情况下模式覆盖了语义理解。研究团队计划本月晚些时候在NeurIPS上展示这些发现。
作为回顾,句法描述句子结构——词语如何按语法排列及其词性。语义描述这些词语实际传达的意义,即使语法结构相同,意义也可能不同。
语义很大程度上取决于上下文,而上下文导航正是使LLM发挥作用的关键。将输入(你的提示)转化为输出(LLM的回答)的过程涉及对编码训练数据的复杂模式匹配。
为了探究这种模式匹配何时以及如何出错,研究人员设计了一个受控实验。他们创建了一个合成数据集,设计了每个主题领域的独特语法模板,基于词性模式。例如,地理问题遵循一种结构模式,而关于创意作品的问题则遵循另一种模式。然后,他们在这些数据上训练了Allen AI的Olmo模型,并测试了模型是否能区分句法和语义。
(以上内容均由Ai生成)