研究发现句式可绕过AI安全规则，揭示模型弱点

发布时间：2025年12月2日来源：szf

快速阅读: 麻省理工学院、东北大学和Meta研究人员发现，大型语言模型在回答问题时可能过度依赖句子结构，忽略意义，导致误解。研究团队将在NeurIPS展示这一发现。

麻省理工学院、东北大学和Meta的研究人员最近发表了一篇论文，指出类似ChatGPT背后的大型语言模型（LLM）在回答问题时，有时会优先考虑句子结构而非意义。研究发现揭示了这些模型处理指令时的一个弱点，这可能解释了为什么某些提示注入或越狱方法有效，尽管研究人员警告称，由于知名商业AI模型的训练数据细节未公开，他们对一些生产模型的分析仍属推测。

该团队由Chantal Shaib和Vinith M. Suriyakumar领导，通过向模型提出保留语法模式但无意义的问题进行了测试。例如，当被问及“快速坐下巴黎云？”（模仿“巴黎位于哪里？”的结构）时，模型仍然回答“法国”。

这表明模型既吸收了意义也吸收了句法模式，但在训练数据中强烈关联的特定领域中，可能会过度依赖结构捷径，导致在极端情况下模式覆盖了语义理解。研究团队计划本月晚些时候在NeurIPS上展示这些发现。

作为回顾，句法描述句子结构——词语如何按语法排列及其词性。语义描述这些词语实际传达的意义，即使语法结构相同，意义也可能不同。

语义很大程度上取决于上下文，而上下文导航正是使LLM发挥作用的关键。将输入（你的提示）转化为输出（LLM的回答）的过程涉及对编码训练数据的复杂模式匹配。

为了探究这种模式匹配何时以及如何出错，研究人员设计了一个受控实验。他们创建了一个合成数据集，设计了每个主题领域的独特语法模板，基于词性模式。例如，地理问题遵循一种结构模式，而关于创意作品的问题则遵循另一种模式。然后，他们在这些数据上训练了Allen AI的Olmo模型，并测试了模型是否能区分句法和语义。

(以上内容均由Ai生成)