为什么 AI 基准测试很糟糕

快速阅读: 据《The Register》最新报道，AI模型的基准分数备受追捧，但这些数字的可靠性存疑。研究表明，现有基准测试存在偏见、缺乏文档、数据污染等问题。基准测试不仅影响政策制定，还面临被操纵的风险。因此，AI基准需接受透明度、公平性和可解释性的严格审查。

AI模型制作者喜欢炫耀他们的基准分数。但这些数字有多可靠？如果测试本身就被操纵、有偏见或根本毫无意义呢？OpenAI的O3首次亮相时声称，经过在公开可用的ARC-AGI数据集上训练后，该大语言模型在ARC-AGI的半私有评估数据集上的10K计算限制下获得了“突破性的75.7%”得分。ARC-AGI是一组类似谜题的输入，AI模型尝试解决这些问题以衡量其智能水平。谷歌最近推出的Gemini 2.0，据网络巨头称，在MMLU-Pro——一个增强版的原始MMLU测试上获得了79.1%的得分，旨在测试自然语言理解能力。与此同时，Meta的Llama-3 70B声称在2024年4月的MMLU 5-shot测试中获得了82%的得分。“5-shot”指的是在测试阶段提供给AI模型的例子（shot）数量。

这些基准本身值得像模型一样受到严格审查，正如欧洲委员会联合研究中心的七位研究员在其论文《我们能信任AI基准吗？当前AI评估中的跨学科问题综述》中所指出的那样。他们的答案是否定的。作者们回顾了过去十年中100项研究，考察了定量基准实践的问题。他们发现，基准测试的设计和应用存在许多问题，包括相关评估数据集创建中的偏见、缺乏文档记录、数据污染以及未能将信号与噪声分开。

这使我们想起了硬件制造商自己测试设备并将结果放入新闻声明和市场推广中的情况；我们也不信任任何那些内容。此外，欧洲团队发现一次性测试逻辑无法涵盖涉及与人和技术系统连续互动的多模态模型使用。“我们的回顾还突显了当前基准实践中的系统性缺陷，如激励机制不一致、结构有效性问题、未知的未知因素以及基准结果被操纵的问题，”作者在论文中表示。“此外，它强调了基准实践如何从根本上受到文化、商业和竞争动态的影响，这些动态通常优先考虑最先进的性能，而牺牲了更广泛的社会关切。”

作者观察到，这些分数之所以重要，是因为它们往往是监管的基础。例如，《欧盟人工智能法案》就包含了各种基准。AI模型的基准分数也预计对《英国在线安全法案》相关。在美国，最近发布的《人工智能扩散框架》也概述了基准在模型评估和分类中的作用。他们认为，AI基准既没有标准化也没有统一，但已成为政策制定的核心，尽管不同学科的学者越来越关注基准的变异性及其有效性。

AI项目的回报率“惨淡”，企业领导者抱怨。没有哪个主要AI模型是安全的，但有些表现得比其他模型更好。AI智能手机必须平衡承诺、炒作和隐私问题。希望有一个机器学习安全基准？让我们来为您揭示……

为了支持这一观点，他们引用了来自网络安全、语言学、计算机科学、社会学和经济学等多个领域的批评，讨论了基准测试的风险和局限性。他们确定了基准测试存在的九个一般问题：

1. 不知道基准数据集是如何制作的、何时制作的以及由谁制作的。
2. 没有测量声称要测量的内容。
3. 未能澄清测试是在何种社会、经济和文化背景下进行的。
4. 未能在多样化的数据集上进行测试。
5. 设计为展示效果的测试，为了吸引投资者而夸大AI。
6. 可以被操纵、被操控或其他方式被利用的测试。
7. 测试“强化了某些方法论和研究目标”，而忽视了其他目标。
8. 未能跟上快速发展的最先进技术。
9. 评估变得越来越复杂的模型。

对于每个问题，作者引用了其他相关的研究探讨基准测试的关注点。例如，关于在多样化数据集上进行测试，作者指出大多数基准测试成功时才进行测试，而专注于失败的基准测试可能更有用。正如格赫曼等人所说，“根据单一质量数排名模型很容易且可操作——我们只需选择列表顶部的模型——[然而]更重要的是理解模型何时以及为何会失败。”

至于操纵基准测试结果，他们提到了所谓的“藏拙”，即模型被编程在某些测试中表现不佳（例如，在有关制造神经毒剂的提示上），引发了关于操纵的担忧。当大众汽车进行类似的测试操纵，编程汽车仅在主动测试期间激活排放控制系统时，人们因此入狱。AI公司中未发生类似事件的事实表明科技行业监管之轻。

总之，联合研究中心的科学家得出结论，我们衡量AI模型安全性、道德性、真实性和毒性的方式已经成为广泛的学术关注点。“简而言之，AI基准需要像算法系统和AI模型一样接受透明度、公平性和可解释性的相同要求，”他们总结道。

(以上内容均由Ai生成)