AI社交回复易被识破,情感表达成最大破绽
快速阅读: 研究人员发现AI模型在社交媒体上通过过于友好的情感语气易被识破,测试显示AI回复的识别准确率达70%-80%,即使优化后情感表达仍与人类有别。
下次在社交媒体上遇到异常礼貌的回复时,不妨多留意一下。这可能是某个AI模型试图(但未能成功)融入人群的表现。本周三,来自苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究人员发布了一项研究,揭示了AI模型在社交媒体对话中仍容易被区分出来,其中过于友好的情感语气是最明显的线索。该研究测试了九个开放权重模型在Twitter/X、Bluesky和Reddit上的表现,发现研究人员开发的分类器能够以70%到80%的准确率识别出AI生成的回复。
这项研究引入了作者所称的“计算图灵测试”,用于评估AI模型如何接近人类语言。与依赖于人类主观判断文本是否真实不同,这一框架利用自动化分类器和语言分析来识别机器生成内容与人类创作内容之间的特定特征差异。“即使经过校准,大型语言模型的输出仍然明显不同于人类文本,特别是在情感语气和情感表达方面。”研究人员写道。由苏黎世大学的尼科洛·帕甘领导的团队测试了各种优化策略,从简单的提示到微调,但发现深层的情感线索依然可靠地表明在线文本互动是由AI聊天机器人而非人类撰写。
研究中的毒性特征
在这项研究中,研究人员测试了九个大型语言模型:Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B、Mistral 7B v0.1、Mistral 7B Instruct v0.2、Qwen 2.5 7B Instruct、Gemma 3 4B Instruct、DeepSeek-R1-Distill-Llama-8B 和 Apertus-8B-2509。当这些模型被要求对实际用户的社交媒体帖子生成回复时,它们难以匹配人类社交媒体帖子中常见的随意负面情绪和自发情感表达,其毒性评分在所有三个平台上均低于真实的人类回复。
为了应对这一不足,研究人员尝试了包括提供写作样本和上下文检索在内的优化策略,这些策略减少了句子长度或词汇量等结构性差异,但情感语气的变化仍然存在。“我们的全面校准测试挑战了更加复杂的优化必然产生更像人类输出的假设。”研究人员总结道。
(以上内容均由Ai生成)