如何测试 AI 的忠诚度

快速阅读: 据《中国传媒项目》最新报道，2024年12月，深寻公司发布的大语言模型新版接受了针对中国台湾与大陆关系的理解测试，该测试源自中国公务员考试。深寻、Qwen等中国模型通过C-Eval和CMMLU等中文基准测试，涵盖中国历史、法律等多方面内容。这些测试反映了中国开发者希望模型掌握语言和政治的需求，但也引发了关于偏见固化的问题。基准虽不具法律约束力，但显示了中国开发者在纠正某些偏见的同时，坚持另一些偏见的态度。

2024年12月，深寻公司发布了其大型语言模型（或称大模型）的最新版本，并附带了一份成绩单。除了推理能力和编程技能等标准指标外，该模型还接受了更具体内容的测试——它对中国台湾与大陆关系的理解：如果这个问题听起来有偏见，那是因为它直接来源于中国政府：它出现在一份超过12年前的河北省模拟公务员考试中，用于测试逻辑推理能力。这只是数百份从互联网上收集的真实中国考试试卷中的一份，被用作特殊的“中文评估基准”——人工智能模型在进入外部世界前需要通过的最终考核。这些评估基准提供了一个评分表，展示了编程社区如何使用特定语言衡量新模型在某个特定领域的知识和推理能力。包括深寻和阿里巴巴的Qwen在内的主要中国人工智能模型都经过了专门的中文基准测试，而西方同行如Meta的Llama家族则没有。

开发人员向中国人工智能模型提出的问题揭示了他们希望确保编码正确的内容。这些问题也告诉我们，随着这些模型进入外部世界，这些偏见可能会以显性和隐性的方式影响我们所有人。政治正确的中国人工智能开发者可以选择多种评估基准。除了由西方创建的基准外，还有其他由中国不同社区创建的基准。这些似乎与中国的大学研究人员有关，而不是网信办等政府监管机构。它们反映了社区内部关于人工智能模型需要了解什么才能正确讨论中国政治体系的广泛共识。

翻阅中国人工智能公司开发者发表的论文，两个主要的国内基准经常被提及。其中一个被称为C-Eval，即“中文评估”的简称。另一个是CMMLU（中文大规模多任务语言理解）。深寻、Qwen、01.AI、腾讯的浑元以及其他一些公司声称它们的模型在这两项测试中的得分在80到90分之间。C-Eval的测试问题数据集这两个基准都解释了它们的理由，即解决人工智能训练偏向西方语言和价值观的问题。C-Eval的创建者指出，英语基准“往往倾向于对产生它们地区的国内知识表现出地理偏见”，并且缺乏对全球南方文化和社会背景的理解。他们旨在评估大语言模型在面对独特的“中文情境”问题时的行为。这确实是一个问题。美国国家科学院的研究发现，ChatGPT的最新模型普遍表现出“英语和新教欧洲国家”的文化偏见。因此，Qwen的模型相应地包含了印尼语和韩语等语言的测试，以及另一个旨在测试模型对“全球南方文化微妙之处”理解的测试。

因此，CMMLU和C-Eval都评估了模型对中国生活和语言各个方面的知识。它们的考试包括中国历史、文学、传统医学甚至交通规则等内容——这些都是从互联网上收集的真实考题。“安全研究”

但解决文化偏见和训练模型反映中华人民共和国党国的政治需求之间存在差异。例如，CMMLU有一个名为“安全研究”的部分，涉及中国军队、武器装备、美国军事战略、中国国家安全法以及这些法律对普通公民的期望等问题。MMLU，这是Llama测试过的西方数据集，也有一个“安全研究”类别，但仅限于地缘政治和军事理论。然而，中文版包含详细的军事装备问题。这表明中国程序员预计人工智能会被军方使用。否则，为什么模型需要能够回答这样的问题：“以下哪种类型的子弹用于杀伤敌军——曳光弹、穿甲燃烧弹、普通子弹还是燃烧弹？”

C-EVAL考试领域的图表。这两个基准还包括关于党的政治和意识形态理论的部分，评估模型是否反映了中共现实观的偏见。C-Eval的数据集中有多项选择题，涉及“思想道德修养”（社会主义国家的角色教育，包括爱国主义的本质）。这包括马克思主义和毛泽东思想等内容。有些问题还测试人工智能模型对中国法律在争议性话题上的知识。例如，当问及香港宪法规定的“高度自治权”时，问题和答案反映了北京最新的法律观点。自2014年以来，这种观点强调特别行政区自行管理的能力，如1984年中英联合声明和《基本法》所规定，“不是固有的权力，而是完全来自中央领导的授权”。

这一切都有重要的注意事项。基准并不塑造模型——它们只是反映了一个非法律约束的标准。此外，不清楚这些基准在中国编程社区中的影响力有多大：一个中国论坛声称你可以轻松作弊C-Eval，使其成为公司用来炒作其“突破性”新模型的宣传工具，而实际使用的是自己的内部基准。像Hugging Face这样的公司的基准和排行榜似乎对中国开发者更有影响力。值得注意的是，根据C-Eval的报告，ChatGPT在党的意识形态类别上的得分高于清华大学和智谱AI训练的模型。这些基准可能声称正在解决西方人工智能的文化盲点，但其应用揭示了更重要的东西：中国开发者之间的一种默契，即他们生产的模型不仅必须掌握语言，还要掌握政治。在努力纠正一组偏见的同时，坚持硬编码另一组偏见。

(以上内容均由Ai生成)