AI 中的估值管道

快速阅读: 据《APA 的博客》最新报道，人工智能领域的公平性标准存在分歧，不同指标背后蕴含着不同的公平哲学。研究显示，人工智能伦理讨论被有限指标主导，这限制了真正道德探讨的空间。文章呼吁在人工智能政策制定初期就重视伦理考量，以实现更公平的技术发展。

人工智能领域的公平性标准存在分歧，不同指标蕴含不同公平哲学。研究指出，伦理讨论受有限指标主导，限制了道德探讨空间。文章呼吁在政策制定初期重视伦理考量，推动更公平的技术发展。

真实地说，你参加的上一场人工智能会议可能充满了各种伦理术语（公平、隐私、问责制、透明度、安全……），然而这些术语的实际含义模糊且充满争议。当然，我们都认为公平至关重要——问题是，大家对公平的具体含义难以达成一致！让我们以公平为例。它通常与某种无偏见的概念相关联，尽管具体的细节有所不同。例如，拜登的人工智能权利法案蓝图设想了“算法歧视保护”，并详细说明了至少九个自那时起实际上已被禁用的词汇，包括歧视、公平、种族、民族、性别、性别认同和双性人。以一种愤世嫉俗的观点来看，你可能会认为一个没有这些具体参考概念的公平观念几乎没有实际意义。但特朗普关于人工智能的行政命令依然专注于消除至少一种偏见：“我们必须开发不受意识形态偏见或人为社会议程影响的人工智能系统。”他在强调人工智能在促进“人类繁荣、经济竞争力和国家安全”方面的价值之前如此说道。这里没有提到任何意识形态！在我的研究中，我研究了人工智能研究人员如何将公平等概念转化为他们能够在工作中计算和优化的指标。这让我感到好奇，他们在日常工作中花在决定使用哪些指标上的时间是多么少。

但在我们讨论伦理概念之前，让我们先思考一下如何将因果推理等实用概念付诸实施。你会如何证明一个人工智能模型是一个有能力的因果推理者？也许你可以让它尝试……物理考试得满分？还是化学考试？还是情商测试？也许你可以训练一个模型来扩展物理系统的视频片段？或者读取人们的面部表情来评估他们的心理倾向？或者驾驶机器人身体去解开一个逃脱室的谜题？

哇，原来我们对因果推理有着许多不同的理解！但在这种情况下，要做的事情很简单：我们应该创建一系列基准，并开始弄清楚我们的当前模型能做什么和不能做什么。为了确保我们达成共识，一个基准由三部分组成：一部分是训练数据集，一部分是评估指标，还有一部分是社区挑战。例如，“我们训练了一个模型，使其正确回答了这些物理问题中的94%。你能构建一个表现更好的模型吗？”

一些基准吸引了大量竞争注意力。另一些则没有。如果技术论文引入的新基准其数据集有趣且易于获取，评估指标简单易算且易于解释，技术方法新颖且引人注目，性能良好且仍可进一步改进，那么这篇论文可能会被引用更多。但当然，这些与该基准指标的规范价值没有强相关关系——该指标是否充分衡量了所涉及的构造？

物理考试得满分是一项令人印象深刻的技能，至少在抽象层面上表明了模型对物理学的理解，我们已经用类似的方法评估人类很长时间了。但公平测试意味着什么？这些测试会是什么样的？我们又该如何理解它们的局限性？

目前的情况是：文献中不同公平指标家族各自推崇的不同公平概念。我们关心机会平等、结果平等还是其他？我们将如何衡量这些？通过只计某些事情而不计其他事情，每个指标以自己的方式回答这些问题，嵌入了一种独特的公平哲学。

当人工智能研究人员优化这些指标时，他们会愿意将未被计数的一切视为仅仅是为被计数的东西服务。当然，这些相互竞争的公平指标并不能构成一个连贯的公平哲学观点。更糟糕的是，它们常常似乎充当了想象中的道德共识场所，阻止真正的道德讨论发生。毕竟，看看吧——我们在这些数字上达成了共识，而且它们还在改善！

鉴于每天都有大量的人工智能论文发表，大多数研究人员只进行粗略搜索以找到最受欢迎的论文，旨在复制和扩展其方法，同时在相关可测量方面超过其结果。这意味着某些指标由于（本质上）随机的社会因素取得了成功。由此产生了一个估值管道，其中人工智能研究人员始终使用少数相对标准化的指标来衡量公平，并将其视为优化的另一个约束条件。

在人工智能伦理学家或监管机构出现之前，关于价值的讨论已经被框定好了。与此同时，基于证据的决策者正在稳步前进，使用我们拥有的数字，无论它们具体衡量的是什么。这真是可惜，因为当不同的公平指标在什么是公平以及如何衡量公平的问题上存在深刻分歧时，它们迫使我们做出我称之为“公平权衡”的选择。由于每个指标都对什么是公平施加了实际立场，你的指标选择已经预先决定了我们的道德权衡。这一选择本质上是随机的社会因素决定的，应该让我们停下来反思。

此外，由于公平似乎并不是某种隐藏的预先存在的量，这种方法似乎适于掩盖它声称要“客观”代表的道德关切。

那么，如何解决这个问题呢？答案似乎比起草更好的自上而下的人工智能政策更具结构性挑战。我希望通过深入挖掘问题的动态，我们可以更好地认识到在估值管道早期需要多么认真地对待伦理考虑。

**瑞奇·穆瑟尔**
瑞奇·穆瑟尔是约翰·霍普金斯大学贝曼生物伦理研究所的海特-莱维研究员，他通过尝试重构我们的价值观和实践的来源以及它们如何随着时间推移相互塑造来研究人工智能和生物伦理中的道德权衡。他还从事社会和政治哲学、哲学推广、美学以及游戏和体育哲学的研究。

**推文**
将文中的英文单词都翻译成中文，最终的内容只输出中文，装备名称、人名地名、公司名称都翻译成中文，最后将语句再润色一下，使得前后文更加通顺，让语句更加生动，将最后的输出文本的格式看起来更美观，除此之外，不要提供任何解释文字。

(以上内容均由Ai生成)