想要正确使用 AI 代理？首先获取实时评估指标

快速阅读: 《Diginomica （数码化）》消息，伽利略CTO阿廷·萨尼尔强调，AI代理评估不仅是技术问题，更是心态转变。他呼吁透明度和反馈以提升信任，主张优化工具选择和路径评估，同时警惕炒作，推动多供应商间的互操作性。他认为当前模型已足够用于实际应用，真正的突破需时间积累。

（伽利略首席技术官阿廷·萨尼尔）

我指出人工智能代理炒作的不合理之处，并不是因为我看不到其中的潜力。但我对成功项目需要的坦诚交流的缺乏感到惊讶。负责任的人工智能不仅涉及伦理，也关乎准确性。正如一位AI专家最近跟我所说：

“你有没有听到任何人工智能供应商提到这一点——并告诉你他们正在做什么来缓解这个问题？”

我发现大多数供应商在内部讨论这些问题。通常，他们对如何解决这些问题有新的想法——但为什么不向客户开放这样的讨论呢？有人愿意进行共同创新吗？

这种情况正在逐渐改变。麦肯锡2024年发布的生成式人工智能研究报告发现，不准确现在已经成为企业领导者最关心的问题。

准确性始终是概率性大语言模型系统的局限。我已敦促企业领导者关注未来更好的人工智能前景。但这对我们目前没有帮助。

这种情况正在逐渐改变。麦肯锡2024年发布的生成式人工智能研究报告发现，不准确现在已经成为企业领导者最关心的问题。

目前，我们面临经济上的紧迫需求。大多数行业无法获得足够的人类人才或自动化——他们会尽可能多地获取两者。

正确使用人工智能代理——十个步骤以获得更好的结果

我对此没有任何幻想：

公司将继续推进现有这种虽不完美但功能强大的人工智能。那么我们如何才能做到这一点呢？从这里开始：

将可以实现的人工智能准确性与那些准确性水平可行的应用场景相匹配。

通过最新方法最大化大型语言模型的准确性，例如RAG、作为审核员的LLMs、任务特定代理、较小的模型和工具验证器。

根据客户需求、合规要求等设计应用场景，适当的人类监督和升级。

对比概率性（LLM）和确定性（RPA）自动化的强度。确定性交易系统不一定过时，可以作为符合要求的工具，由代理系统调用。

使人工智能项目对业务指标负责，就像其他任何技术一样，由供应商、合作伙伴和客户共同确定。随着人工智能定价变化调整这些投资回报率指标。

追踪这些技术的责任和知识产权问题，在数据中的偏见导致法律风险之前防范。人工智能也可能能够检测组织偏见，但这是一个激烈争论且不同的对话。您经过道德筛选、自愿参与的数据可能是您最大的人工智能优势——或者，如果滥用，可能是最大的责任。

让用户/员工参与到激发活力并赢得信任的人工智能叙事中，而不是通过“数字劳动力”和“遇见你的新数字队友”的热情来引发对失业的担忧。让利益相关者参与应用场景设计后的反馈，或许通过强化学习。

为管理人工智能代理建立治理/协调框架，并开始思考跨供应商的代理间交互。

利用人工智能评估工具来衡量和提升代理、RAG、上下文窗口及提示工程的准确性。这是此列表中最未被充分利用/低估的一点——也是本文的主题。

哦，还有一点：

不要等待下一个令人惊叹的大规模人工智能模型来解决这些问题。如今的模型已足够用于许多有价值的应用场景。真正的突破需要时间，不会仅靠所谓的推理技巧或规模操作来实现。

研究是对亮丽幻灯片的绝佳防御。正如3月25日白皮书中所引用的这句话：

为什么多代理LLM系统失败？

评估代理人工智能性能——我们从哪里开始？

在我上一篇关于RAG的文章中，我向供应商施压，要求他们回答LLM忽略上下文窗口的问题：

想要更好的LLM结果？那么是时候使用人工智能评估工具了——从伽利略的RAG和代理指标中学习。

但我的深入研究并未止步于此。他们也将坦诚交流和评估框架应用于代理人工智能（伽利略的YouTube频道充斥着这些代理人工智能相关内容）。

显然，代理评估过程比单一的RAG更加复杂。但它也更具吸引力，为实时修正代理工作流提供了可能。简而言之，伽利略将人工智能代理评估归纳为以下几点：

工具选择质量（TSQ）

工具错误率

任务完成/任务成功

当然，还有更多内容，几乎每天都涌现出新的验证器和模型，例如

MCP（模型上下文协议），它在数据源和人工智能工具之间提供双向数据交互。现在我们可以基于伽利略的RAG评估指标进行扩展。在这种情况下，RAG，例如具有自定义数据检索的上下文窗口，可能是代理可以调用的众多工具之一。这是一个伽利略屏幕截图，显示了一个经典的LLM问题，不仅限于RAG——当LLM选择自己的内部数据而非所需的外部验证器，并发出错误结果时：

（伽利略标记了一个RAG‘上下文一致性’问题 → LLM幻觉）

问题是伽利略的RAG‘完整性’评分为100%。因此，检索到的数据是完整的，正是我们所需要的，但不幸的是，LLM忽略了它，导致‘上下文一致性’得分变为0，并基于LLM自身数据产生幻觉，而在这次案例中该数据是不准确的。

（伽利略标记了一个RAG‘上下文一致性’问题 → LLM幻觉）

就准确性而言，我认为代理工具选择方法很有前景：专用工具可能在特定任务、计算或自动化流程方面优于LLM规划代理。但我们仍需追踪这些指标，包括RAG——并寻找优化它们的方式。

目前存在大量‘代理漂洗’现象。

存在比当下常见炒作市场更多的AI代理类型。我不想在这里纠结于语义，但我喜欢来自伽利略产品主管奎克·洛雷斯对LLM规划代理的定义：

洛雷斯解释说：

这是一份不错的概述，尽管我认为代理不善于承认自己无法完成任务。然而，如果我们打算推出代理，也应该推出一个评估框架。为什么？洛雷斯：

代理遵循非确定性路径，这是代理的一个核心方面。洛雷斯提出了评估挑战：

这是一份不错的概述，尽管我认为代理不善于承认自己无法完成任务。然而，如果我们打算推出代理，也应该推出一个评估框架。为什么？洛雷斯：

理解代理所走过的路径。

评估这条路径是否正确。

代理带来延迟与成本权衡。洛雷斯：

有多少供应商曾在主题演讲台上说过这种直白的话？但一旦我们正视现实，就能改进事情。目标不仅是更高的准确性，更是更多的AI系统信任。

通过评估改进代理人工智能——伽利略的方法

完整的代理评估过程超出了我们的讨论范围。但如果你按顺序观看这三个视频，你将大有收获：

如何评估代理：伽利略的代理评估实践

（2025年1月）——上述与洛雷斯的会议是一个简洁且有图解的代理评估起点。这包括宣布四项新的代理评估指标：工具选择质量、工具错误、行动进展和行动完成。

评估智能最新创新揭幕

（2025年2月）——洛雷斯和伽利略产品负责人索米亚·莫汉的三十分钟会议介绍了伽利略正在使用的最新方法，包括“带有人类反馈的持续学习”（我在上次RAG部分中写到了CHLF）。伽利略展示了用户如何定义规则以实时识别提示注入和幻觉，以及RAG上下文一致性和PII（个人可识别信息）的规则。

评估代理：探索生成式AI评估的下一前沿

（2025年3月）- 这一个小时的网络研讨会回放展示了伽利略首席技术官（联合创始人）阿廷·萨尼尔。本节深入探讨了“自适应评估”是如何运作的。伽利略团队探索了最流行的评估技术，并展望了未来的发展方向。本节还涉及评估将大规模语言模型作为裁判（审计其他大规模语言模型）、以及MCP和“自我增强型代理”。扩展的问答环节提出了重要问题，并提供了使用开源工具（如Hugging Face）的技巧。以下是一张伽利略持续反馈与学习（CHLF）的截图——我将在用户反馈和提升用户信任的分析中再次提到这张图：

（伽利略持续反馈与学习 – CHLF）

以下是一张伽利略持续反馈与学习（CHLF）的截图——我将在用户反馈和提升用户信任的分析中再次提到这张图：

关于代理工作流复合错误问题的炙手可热的AI评估问题#1

在采访萨尼尔之后，我从伽利略和其他供应商那里吸收了大量的内容。我把所有这些内容提炼成了两个亟待解决的电子邮件问题。我的第一个问题是：代理炒作大军中的显而易见的问题——代理工作流中的复合错误问题在多大程度上对你们的客户构成了挑战？在LLM/RAG环境下达到95%的准确性对于许多应用场景来说已经相当不错了，但如果要串联起3到5个代理来完成一个目标或一系列任务，每个代理的准确率都达到95%，即使在这个水平上，误差累积也令人担忧。显然，引入人工干预可以帮助，但这也会限制投资回报率和易用性。我想知道你们的客户对此有何看法，以及如何设计和优化以充分利用代理并避免这个复合问题。显然，如果设计得当，一些特定任务的代理可能会超过95%的准确率，这也有助于解决问题……

萨尼尔的回答是：完整性等指标在这里至关重要：

关于代理评估的炙手可热的AI评估问题#2——早期客户在AI代理评估中的成功案例

在我们上次关于RAG评估的对话中，我们讨论了完整性是一个在输出准确性/改进等方面取得成果的强项领域。代理评估仍处于早期阶段，但在代理评估方面是否有一个领域也能快速取得成果，从而推动评估工具能力的势头？我首先想到的是工具选择错误可能是一个方向，因为为特定提示/查询/操作选择正确的工具非常重要，这样个体工具就可以被优化，但……

期待你的结果。

萨尼尔建议采取“宏观”和“微观”两种视角：

以下是一些伽利略核心代理评估指标的屏幕截图，包括工具错误率和行动进展：

（伽利略 – 核心AI代理指标截图）

以下是一些伽利略核心代理评估指标的屏幕截图，包括工具错误率和行动进展：

我的观点——关于AI信任的机制

对于那些关注这些问题的客户，伽利略提到了一些相当令人印象深刻的准确性数字，有些情况下甚至达到了99%。在高容量、多代理的工作流程中，即使达到99%也可能存在问题。但毫无疑问：如果/当达到99%的范围时，这将开启更多企业应用场景。

伽利略当然不是唯一一家致力于解决这些问题的供应商。公司还可以采用开源工具。例如，Model Context Protocol就是一个开源工具。

代理评估更多的是一种心态，而不是任何一家供应商可以（或应该）拥有的东西。代理评估只是我“正确使用代理”的十个要点之一。第八点关于治理/协调代理系统的努力是一个大问题，AI供应商正在努力解决这个问题。

考虑来自不同供应商的代理完成相同工作流的情况——我们仍然不知道客户会采用哪些协议和平台来应对这些挑战。如果跨供应商的代理不具有互操作性，那么所谓的“代理企业”将会更快地陷入一堆被玷污的流行语之中。

优化单个代理的性能只能让你走这么远。成本、准确性和响应时间之间的平衡提醒我们：这些努力实际上是在挑战大规模语言模型的能力极限。

这就是为什么我所关注的许多尖端AI人才并不局限于将大规模语言模型硬塞进确定性情境的原因。有些人正在完全不同的方向上寻找解决方案。