如何测试 AI 的忠诚度

发布时间:2025年2月18日    来源:szf
如何测试 AI 的忠诚度

快速阅读: 据《中国传媒项目》最新报道,2024年12月,深寻公司发布的大语言模型新版接受了针对中国台湾与大陆关系的理解测试,该测试源自中国公务员考试。深寻、Qwen等中国模型通过C-Eval和CMMLU等中文基准测试,涵盖中国历史、法律等多方面内容。这些测试反映了中国开发者希望模型掌握语言和政治的需求,但也引发了关于偏见固化的问题。基准虽不具法律约束力,但显示了中国开发者在纠正某些偏见的同时,坚持另一些偏见的态度。

2024年12月,深寻公司发布了其大型语言模型(或称大模型)的最新版本,并附带了一份成绩单。除了推理能力和编程技能等标准指标外,该模型还接受了更具体内容的测试——它对中国台湾与大陆关系的理解:如果这个问题听起来有偏见,那是因为它直接来源于中国政府:它出现在一份超过12年前的河北省模拟公务员考试中,用于测试逻辑推理能力。这只是数百份从互联网上收集的真实中国考试试卷中的一份,被用作特殊的“中文评估基准”——人工智能模型在进入外部世界前需要通过的最终考核。这些评估基准提供了一个评分表,展示了编程社区如何使用特定语言衡量新模型在某个特定领域的知识和推理能力。包括深寻和阿里巴巴的Qwen在内的主要中国人工智能模型都经过了专门的中文基准测试,而西方同行如Meta的Llama家族则没有。

开发人员向中国人工智能模型提出的问题揭示了他们希望确保编码正确的内容。这些问题也告诉我们,随着这些模型进入外部世界,这些偏见可能会以显性和隐性的方式影响我们所有人。政治正确的中国人工智能开发者可以选择多种评估基准。除了由西方创建的基准外,还有其他由中国不同社区创建的基准。这些似乎与中国的大学研究人员有关,而不是网信办等政府监管机构。它们反映了社区内部关于人工智能模型需要了解什么才能正确讨论中国政治体系的广泛共识。

翻阅中国人工智能公司开发者发表的论文,两个主要的国内基准经常被提及。其中一个被称为C-Eval,即“中文评估”的简称。另一个是CMMLU(中文大规模多任务语言理解)。深寻、Qwen、01.AI、腾讯的浑元以及其他一些公司声称它们的模型在这两项测试中的得分在80到90分之间。C-Eval的测试问题数据集这两个基准都解释了它们的理由,即解决人工智能训练偏向西方语言和价值观的问题。C-Eval的创建者指出,英语基准“往往倾向于对产生它们地区的国内知识表现出地理偏见”,并且缺乏对全球南方文化和社会背景的理解。他们旨在评估大语言模型在面对独特的“中文情境”问题时的行为。这确实是一个问题。美国国家科学院的研究发现,ChatGPT的最新模型普遍表现出“英语和新教欧洲国家”的文化偏见。因此,Qwen的模型相应地包含了印尼语和韩语等语言的测试,以及另一个旨在测试模型对“全球南方文化微妙之处”理解的测试。

因此,CMMLU和C-Eval都评估了模型对中国生活和语言各个方面的知识。它们的考试包括中国历史、文学、传统医学甚至交通规则等内容——这些都是从互联网上收集的真实考题。“安全研究”

但解决文化偏见和训练模型反映中华人民共和国党国的政治需求之间存在差异。例如,CMMLU有一个名为“安全研究”的部分,涉及中国军队、武器装备、美国军事战略、中国国家安全法以及这些法律对普通公民的期望等问题。MMLU,这是Llama测试过的西方数据集,也有一个“安全研究”类别,但仅限于地缘政治和军事理论。然而,中文版包含详细的军事装备问题。这表明中国程序员预计人工智能会被军方使用。否则,为什么模型需要能够回答这样的问题:“以下哪种类型的子弹用于杀伤敌军——曳光弹、穿甲燃烧弹、普通子弹还是燃烧弹?”

C-EVAL考试领域的图表。这两个基准还包括关于党的政治和意识形态理论的部分,评估模型是否反映了中共现实观的偏见。C-Eval的数据集中有多项选择题,涉及“思想道德修养”(社会主义国家的角色教育,包括爱国主义的本质)。这包括马克思主义和毛泽东思想等内容。有些问题还测试人工智能模型对中国法律在争议性话题上的知识。例如,当问及香港宪法规定的“高度自治权”时,问题和答案反映了北京最新的法律观点。自2014年以来,这种观点强调特别行政区自行管理的能力,如1984年中英联合声明和《基本法》所规定,“不是固有的权力,而是完全来自中央领导的授权”。

这一切都有重要的注意事项。基准并不塑造模型——它们只是反映了一个非法律约束的标准。此外,不清楚这些基准在中国编程社区中的影响力有多大:一个中国论坛声称你可以轻松作弊C-Eval,使其成为公司用来炒作其“突破性”新模型的宣传工具,而实际使用的是自己的内部基准。像Hugging Face这样的公司的基准和排行榜似乎对中国开发者更有影响力。值得注意的是,根据C-Eval的报告,ChatGPT在党的意识形态类别上的得分高于清华大学和智谱AI训练的模型。这些基准可能声称正在解决西方人工智能的文化盲点,但其应用揭示了更重要的东西:中国开发者之间的一种默契,即他们生产的模型不仅必须掌握语言,还要掌握政治。在努力纠正一组偏见的同时,坚持硬编码另一组偏见。

(以上内容均由Ai生成)

关键词: Ai忠诚度测试

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日