该工具探测前沿 AI 模型是否存在智能失误

发布时间：2025年4月3日来源：szf

快速阅读: 据《有线》称，Scale AI推出新工具Scale Evaluation，能自动测试AI模型性能，找出弱点并标记需要额外训练的数据，尤其在多语言推理能力上表现突出。工具助模型优化，推动AI发展，同时为标准化测试和模型安全提供支持。

人工智能公司的高管们或许会向我们宣称，通用人工智能（AGI）已经触手可及，但当前的模型仍需一些额外指导才能尽可能聪慧。Scale AI 是一家在帮助前沿人工智能公司构建先进模型方面发挥关键作用的公司，它开发了一款平台，能够自动测试模型在数千个基准和任务上的表现，找出弱点，并标记有助于提升其技能的额外训练数据。自然，Scale 也会提供所需的训练数据。Scale 通过为前沿人工智能模型的训练和测试提供人工劳动而闻名。大型语言模型（LLMs）是在从书籍、网络和其他来源抓取的大量文本上进行训练的。要将这些模型转化为有用的、连贯的、有礼貌的聊天机器人，还需要额外的“后训练”，即人类提供对模型输出的反馈。Scale 提供擅长检测模型问题和局限性的专业工人。这款名为 Scale Evaluation 的新工具使用 Scale 自己的机器学习算法自动化部分这项工作。

Scale Evaluation 的产品负责人丹尼尔·贝里奥斯说：“在大型实验室里，有很多零散的方法来追踪模型的一些弱点。”这种新工具“是模型制造者通过结果进行筛选和分析以了解模型哪些地方表现不佳的一种方式，”贝里奥斯说，“然后利用这一点来针对数据集进行优化以改进模型。”

贝里奥斯表示，多家前沿的人工智能模型公司已经在使用这个工具。他说大多数公司都在用它来提高他们最佳模型的推理能力。AI 推理涉及模型试图将问题分解为各个组成部分以便更有效地解决它。这种方法严重依赖于用户的后训练来确定模型是否正确解决了问题。贝里奥斯提到，在一个实例中，Scale Evaluation 显示当模型接收到非英语提示时，其推理能力下降。“虽然[模型]的一般推理能力相当好，并且在基准测试中表现良好，但当提示不是英文时，它们往往会大幅下降，”他说。Scale Evaluation 指出了这一问题，并允许公司收集额外的训练数据来解决它。

Databricks 公司的首席 AI 科学家乔纳森·弗兰克勒说，能够测试一个基础模型与另一个基础模型听起来在原则上是有用的。“任何推动评估方法进步的人都是在帮助我们构建更好的人工智能，”弗兰克勒说。近几个月来，Scale 为开发几个新的基准做出了贡献，这些基准旨在推动人工智能模型变得更聪明，并更仔细地审视它们可能如何误入歧途。其中包括 EnigmaEval、MultiChallenge、MASK 以及 Humanity’s Last Exam。Scale 表示，随着模型在通过现有测试方面变得更好，衡量模型改进变得更加困难，因为它们在通过现有测试方面变得更好。该公司表示，其新工具通过结合许多不同的基准提供了更全面的画面，并可用于设计定制的模型能力测试，例如探测其推理能力在不同语言中的表现。Scale 自己的 AI 可以接受给定的问题并生成更多例子，从而更全面地测试模型的技能。该公司的新工具也可能为标准化测试 AI 模型的不当行为提供信息。一些研究人员表示，缺乏标准化意味着某些模型越狱行为未被公开。今年 2 月，美国国家标准与技术研究院宣布，Scale 将帮助其开发测试模型的方法，以确保模型安全可信。

你发现生成式人工智能工具的输出存在哪些错误？你认为模型最大的不足之处是什么？请通过电子邮件 hello@wired.com 或在下方评论告诉我们。

(以上内容均由Ai生成)