场景识别中的数字鸿沟:揭示深度学习系统中的社会经济偏见
快速阅读: 据《Nature.com》称,研究发现,计算机视觉模型对低社会经济地位家庭图像的分类准确率低、置信度低且易贴冒犯性标签,此现象在国际及美国国内均存在。需更具包容性的训练数据来反映社会经济多样性,以避免AI系统放大偏见,影响公平决策。
利用来自三个数据集的近百万张家庭图像,我们发现计算机视觉模型(深度卷积神经网络和多模态大型语言模型)对低社会经济地位家庭的图像表现出较低的分类准确率、较低的分类置信度,以及赋予冒犯性标签的可能性更高。尽管这种效应在国际图像集对比中最明显,但我们还发现美国各郡的经济和种族多样性同样能够预测分类表现。此外,另一个多模态模型在所有三个数据集中均表现出显著的隐性偏见,一致地将积极概念与富裕地区的图像联系得更加紧密。这些发现揭示了影响计算机视觉性能的关键社会经济与发展因素,并引发了对自动化图像分类系统中潜在无意偏见的考虑。这项研究为关于人工智能中存在偏见的文献增添了内容。
词嵌入模型在基于如维基百科等大规模文本语料库训练时,常强化对不同群体的刻板印象。例如,这些模型更可能将女性与秘书工作而非计算机编程联系起来,将同性恋男性与理发师而非科学研究联系起来(Bolukbasi等人,2016;Garg等人,2018;Papakyriakopoulos等人,2020)。此外,视觉场景数据可预测犯罪率和投票模式(Fan等人,2023;Gebru等人,2017)。图像描述模型更准确且多样地描述白人男性而非其他群体(Papakyriakopoulos和Mboya,2023)。它们还表现出偏见,例如不管实际运动项目,一律将黑人运动员的图像归类为篮球运动员(Stock和Cisse,2018),以及将女性更多地与婚纱店而非修车铺联系起来(Barlas等人,2021;Zhao等人,2017)。类似的偏见也在视觉问答系统中被观察到(Hirota等人,2022)。令人担忧的是,图像分类系统在检测深色皮肤人群或女性和儿童作为人类方面效果较差(Buolamwini和Gebru,2018;Brandao,2019)。生成式图像模型,例如稳定扩散(Rombach等人,2022),生成的图像符合常见的性别和种族刻板印象(Bianchi等人,2023)。例如,“有吸引力的人”的提示产生了所有浅肤色人的图像,“空乘人员”的提示只产生了女性的图像。
相比之下,我们的研究考察了这些偏见是否延伸到人们居住的家庭环境中。一项相关研究分析了Dollar Street数据集,发现低收入家庭的物体分类率较低(De Vries等人,2019)。我们的研究证实并扩展了这些发现。首先,它通过拟合专为根据人口统计数据预测模型分类表现而设计的模型,进一步解释这些失败。其次,它包括更强大的基于变压器架构的模型。第三,它使用一种受社会心理学启发的工具评估这些模型的隐性偏见。
现有的训练集显示过度代表北美和欧洲的图像(De Vries等人,2019;Shankar等人,2017)。虽然这些结果预示了我们在国际图像集中的发现,但它们并未完全解释在美国国内观察到的性能模式。相反,我们的结果表明,需要更具包容性的训练数据集,以更好地反映国家内部的全球和社会经济多样性。即使考虑最先进的MLLMs(如GPT-4V),这些偏见也不会消失,因为该模型在所有三个数据集中均显示出显著的社会经济偏见。此外,另一个多模态模型CLIP通过更强烈地将积极概念(如“快乐”和“自由”)与更富裕的地点对齐,并将消极概念(如“疾病”和“悲伤”)与较低社会经济地位(SES)地点对齐,显示出显著的隐性偏见。虽然深度卷积神经网络从固定的类别标签集合中进行分类,但MLLMs没有这个限制。有趣的是,GPT-4V倾向于对低SES地点使用非常模糊的术语,如“室内”或“房间”。不论起因如何,这里报告的效果大小低估了MLLMs的实际偏见。隐性偏见分析支持这一点。计算机视觉模型像人类观察者一样可能具有隐性偏见可能是值得注意的。即使在美国县的有限范围内,我们也观察到强烈的隐性偏见,将富裕和受教育程度高的地点与积极概念更紧密地联系在一起。
数据集中弱相关性的放大是算法偏见的一个不幸后果(Bianchi等人,2023;Papakyriakopoulos和Mboya,2023;Wang等人,2019),并且这些偏见正在增加(Zhao等人,2017)。此外,AI系统的表面客观性常常掩盖了其内在偏见(Crawford,2021;O’Neil,2016)。我们预计计算机视觉系统中不平等的分类性能会导致几个负面后果。首先,随着图像数据开始自动用于评估房价,我们观察到的基于种族的偏见可能导致非白人社区的“数字红线”。其他研究指出,视觉场景数据可预测犯罪率和投票模式(Fan等人,2023;Gebru等人,2017)。当基于住宅区的AI驱动分析用于自动化警务或城市规划时,偏见的场景分类可能导致误判政策或举措,无法充分满足多样化社区的需求。
如果AI系统基于偏见的场景分类,不公平地将某些社区判定为“破败”或“不安全”,它可能会不公平地影响住房贷款、资金分配、维护和开发决策。最后,家庭识别中的不平等也可能导致智能家庭技术使用机会的不平等。对欠发达国家或种族多样性较低的美国郡的图像赋予冒犯性标签的可能性增大,可能反映出AI系统内嵌的文化偏见,这需要重新评估训练和开发过程以确保公平性和包容性。
近期多项研究在这一开发流程的多个环节发现了问题。大型数据集中经常发现冒犯性材料(Birhane等人,2021;Crawford和Paglen,n.d.;Prabhu和Birhane,2020)。人类观察者提供真实标签,因此这些人类偏见被嵌入AI系统中(Fan等人,2022)。此外,由于在线文化霸权(Mayer,2009),图像数据集是便利样本,因此过度代表北美和欧洲(Shankar等人,2017)。因为刻板印象可能源于搜索结果本身(Kay等人,2015;Otterbacher等人,2017),通过网络爬虫创建数据集会放大偏见。最后,由于人工智能领域缺乏足够的多样性(Chan等人,2021),以及那些带有社会偏见的人不会注意到它们(Greenwald和Banaji,1995;Otterbacher等人,2018),这些地理和经济偏见可能未被察觉。
总之,我们在三个多样化图像数据集上的分析突显了用于图像分类的计算机视觉模型中存在的普遍社会经济偏见问题。这些偏见明确表现为对低社会经济背景图像的较低准确性、较低置信度以及更高的冒犯性标签赋值可能性,隐性表现为积极概念与富裕地点之间的更高对齐度。这个问题不仅限于国际比较,在美国国内也显而易见,强调了需要更具包容性和代表性训练数据集以捕捉全球和国家内部的社会经济多样性。AI系统延续和放大现有社会偏见的趋势是一个重要问题。基于偏见的AI评估对住宅区的数字红线、误导的城市规划和资源不公平分配的风险严重且迫在眉睫。这些发现呼吁对AI开发过程进行批判性重新评估,从数据集创建到算法训练,以确保公平性和包容性。这种重新评估必须解决AI开发各个阶段的问题,包括大型数据集中的内在偏见、真实标签中的文化偏见、训练数据中某些地理区域的过度代表以及AI领域的多样性不足。解决这些问题对于开发公平的AI系统至关重要,这些系统不会无意间延续系统性不平等。
(以上内容均由Ai生成)