为什么 AI 基准测试很糟糕

发布时间:2025年2月17日    来源:szf
为什么 AI 基准测试很糟糕

快速阅读: 据《The Register》最新报道,AI模型的基准分数备受追捧,但这些数字的可靠性存疑。研究表明,现有基准测试存在偏见、缺乏文档、数据污染等问题。基准测试不仅影响政策制定,还面临被操纵的风险。因此,AI基准需接受透明度、公平性和可解释性的严格审查。

AI模型制作者喜欢炫耀他们的基准分数。但这些数字有多可靠?如果测试本身就被操纵、有偏见或根本毫无意义呢?OpenAI的O3首次亮相时声称,经过在公开可用的ARC-AGI数据集上训练后,该大语言模型在ARC-AGI的半私有评估数据集上的10K计算限制下获得了“突破性的75.7%”得分。ARC-AGI是一组类似谜题的输入,AI模型尝试解决这些问题以衡量其智能水平。谷歌最近推出的Gemini 2.0,据网络巨头称,在MMLU-Pro——一个增强版的原始MMLU测试上获得了79.1%的得分,旨在测试自然语言理解能力。与此同时,Meta的Llama-3 70B声称在2024年4月的MMLU 5-shot测试中获得了82%的得分。“5-shot”指的是在测试阶段提供给AI模型的例子(shot)数量。

这些基准本身值得像模型一样受到严格审查,正如欧洲委员会联合研究中心的七位研究员在其论文《我们能信任AI基准吗?当前AI评估中的跨学科问题综述》中所指出的那样。他们的答案是否定的。作者们回顾了过去十年中100项研究,考察了定量基准实践的问题。他们发现,基准测试的设计和应用存在许多问题,包括相关评估数据集创建中的偏见、缺乏文档记录、数据污染以及未能将信号与噪声分开。

这使我们想起了硬件制造商自己测试设备并将结果放入新闻声明和市场推广中的情况;我们也不信任任何那些内容。此外,欧洲团队发现一次性测试逻辑无法涵盖涉及与人和技术系统连续互动的多模态模型使用。“我们的回顾还突显了当前基准实践中的系统性缺陷,如激励机制不一致、结构有效性问题、未知的未知因素以及基准结果被操纵的问题,”作者在论文中表示。“此外,它强调了基准实践如何从根本上受到文化、商业和竞争动态的影响,这些动态通常优先考虑最先进的性能,而牺牲了更广泛的社会关切。”

作者观察到,这些分数之所以重要,是因为它们往往是监管的基础。例如,《欧盟人工智能法案》就包含了各种基准。AI模型的基准分数也预计对《英国在线安全法案》相关。在美国,最近发布的《人工智能扩散框架》也概述了基准在模型评估和分类中的作用。他们认为,AI基准既没有标准化也没有统一,但已成为政策制定的核心,尽管不同学科的学者越来越关注基准的变异性及其有效性。

AI项目的回报率“惨淡”,企业领导者抱怨。没有哪个主要AI模型是安全的,但有些表现得比其他模型更好。AI智能手机必须平衡承诺、炒作和隐私问题。希望有一个机器学习安全基准?让我们来为您揭示……

为了支持这一观点,他们引用了来自网络安全、语言学、计算机科学、社会学和经济学等多个领域的批评,讨论了基准测试的风险和局限性。他们确定了基准测试存在的九个一般问题:

1. 不知道基准数据集是如何制作的、何时制作的以及由谁制作的。
2. 没有测量声称要测量的内容。
3. 未能澄清测试是在何种社会、经济和文化背景下进行的。
4. 未能在多样化的数据集上进行测试。
5. 设计为展示效果的测试,为了吸引投资者而夸大AI。
6. 可以被操纵、被操控或其他方式被利用的测试。
7. 测试“强化了某些方法论和研究目标”,而忽视了其他目标。
8. 未能跟上快速发展的最先进技术。
9. 评估变得越来越复杂的模型。

对于每个问题,作者引用了其他相关的研究探讨基准测试的关注点。例如,关于在多样化数据集上进行测试,作者指出大多数基准测试成功时才进行测试,而专注于失败的基准测试可能更有用。正如格赫曼等人所说,“根据单一质量数排名模型很容易且可操作——我们只需选择列表顶部的模型——[然而]更重要的是理解模型何时以及为何会失败。”

至于操纵基准测试结果,他们提到了所谓的“藏拙”,即模型被编程在某些测试中表现不佳(例如,在有关制造神经毒剂的提示上),引发了关于操纵的担忧。当大众汽车进行类似的测试操纵,编程汽车仅在主动测试期间激活排放控制系统时,人们因此入狱。AI公司中未发生类似事件的事实表明科技行业监管之轻。

总之,联合研究中心的科学家得出结论,我们衡量AI模型安全性、道德性、真实性和毒性的方式已经成为广泛的学术关注点。“简而言之,AI基准需要像算法系统和AI模型一样接受透明度、公平性和可解释性的相同要求,”他们总结道。

(以上内容均由Ai生成)

关键词: Ai基准测试糟糕

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日