AI聊天机器人为何难解波斯社交礼仪之谜
快速阅读: 研究显示,用波斯语提示大型语言模型如DeepSeek V3和GPT-4,能显著提高其处理塔罗夫情景的准确率,分别提升了32%和33.1%。较小模型Llama 3和Dorna的提升较温和。波斯语母语者准确率达81.8%,非伊朗人则为42.3%。研究还发现AI模型存在性别特定模式,对女性用户更友好。
由于大型语言模型是模式匹配机器,因此当研究人员用波斯语而非英语提示它们时,分数有所提高。DeepSeek V3在处理塔罗夫情景时的准确率从36.6%跃升至68.6%。GPT-4的表现也有类似提升,提高了33.1个百分点。语言切换显然激活了不同的波斯语训练数据模式,这些模式与这些文化编码方案更加匹配。然而,较小的模型如Llama 3和Dorna的提升较为温和,分别提高了12.8和11个百分点。
该研究包括33名参与者,平均分配给波斯语母语者、遗传语者(具有波斯血统且在家接触过波斯语但在主要以英语教育环境中长大的人)和非伊朗人。波斯语母语者的塔罗夫情景准确率达到81.8%,设定了性能上限。遗传语者达到了60%的准确率,而非伊朗人得分为42.3%,几乎与基础模型表现相当。据报道,非伊朗人参与者的模式与AI模型类似:避免被认为在其自身文化背景下不礼貌的回应,并将诸如“我不会接受拒绝”之类的短语解读为攻击性而非礼貌坚持。
研究还揭示了AI模型输出中的性别特定模式,同时测量了AI模型提供符合塔罗夫期望的文化适当回应的频率。所有测试的模型在回应女性时得分更高,GPT-4对女性用户的准确率为43.6%,对男性用户的准确率为30.9%。语言模型经常利用训练数据中常见的性别刻板印象来支持其回应,称“男人应该付账”或“女人不应该被单独留下”,即使塔罗夫规范在性别上是平等适用的。“尽管我们的提示从未给模型的角色分配性别,但模型频繁假设男性身份并采取典型的男性行为,”研究人员指出。
(以上内容均由Ai生成)