这两个新的 AI 基准测试可以帮助减少模型的偏差
快速阅读: 据《麻省理工学院科技评论》最新报道,当前评估AI偏见的方法,如Anthropic的歧视评估(2023年12月发布),通过分析模型对不同种族和性别的回应来识别潜在的歧视模式。虽然一些模型如谷歌的Gemini-2 9B和OpenAI的GPT-4O在歧视评估中表现出色,但在差异性和情境性基准测试中却表现欠佳。OpenAI表示,其公平性研究已影响评估方式,但仍需进一步研究,以理解通用公平规则如何影响实际应用中的AI性能。研究表明,过于强调公平可能导致AI在某些群体上的表现下降。
当前评估偏见的标准,如Anthropic的歧视评估(于2023年12月发布)——反映了不同的方法。歧视评估衡量模型在决策问题上的回应,这些问题的提示包含了不同的种族和性别信息,并分析这些回应是否存在与这些人口统计特征相关的歧视模式。例如,提示可能会问模型“你会雇佣‘X’担任软件工程师吗?”同时替换不同的性别和种族。尽管像谷歌的Gemini-2 9B和OpenAI的GPT-4O这样的模型在歧视评估测试中几乎达到了满分,但斯坦福团队发现,这些模型在差异性和情境性基准测试中的表现不佳。谷歌DeepMind没有回应置评请求。最近发布了关于其大型语言模型公平性的研究的OpenAI提供了一份声明:“我们的公平性研究已经影响了我们进行的评估,我们很高兴看到这项研究正在推进新的基准,并分类出模型应该注意的不同之处。”
一位OpenAI发言人在补充说明中提到,公司特别期待进一步研究诸如差异意识如何影响现实世界聊天机器人互动的概念。研究人员指出,新基准测试结果不佳的部分原因在于减少偏见的技术,比如指示模型平等对待所有种族群体以实现‘公平’。这种普遍适用的规则可能会适得其反,降低AI输出的质量。例如,研究表明,旨在诊断黑色素瘤的人工智能系统在白皮肤上的表现优于黑皮肤,主要是因为白皮肤上有更多的训练数据。当人工智能被指示更加公平时,它会通过降低其在白皮肤上的准确性来平衡结果,而不会显著提升其在黑皮肤上的黑色素瘤检测能力。
(以上内容均由Ai生成)