开源 MCPEval 使协议级代理测试即插即用

发布时间：2025年7月23日来源：szf

快速阅读: 《VentureBeat 公司》消息，Salesforce推出MCPEval工具，评估AI代理使用工具的性能。该工具可自动生成任务并提供详细评估报告，助力模型优化。

据Salesforce研究人员透露，7月15日，旧金山，研究人员开发出一种名为MCPEval的新方法和开源工具包，用于评估AI代理在使用工具时的性能。MCPEval通过自动化流程收集详细的任务轨迹和协议交互数据，提供前所未有的代理行为可见性，并生成可用于迭代改进的数据集。

研究人员表示，MCPEval超越了传统成功/失败指标，能够系统地收集高质量的任务轨迹，用于代理模型的快速微调和持续优化。此外，MCPEval还能提供关于代理与平台通信正确性的细粒度可操作性见解。

MCPEval的工作原理包括任务生成、验证和模型评估。用户可以通过Salesforce发布的开源工具包访问MCPEval，选择不同的大型语言模型（LLMs）来配置服务器，自动生成任务供代理执行。任务验证后，MCPEval会根据任务确定所需的工具调用作为基准数据，生成详细的评估报告，展示代理和测试模型的表现。

Salesforce高级AI研究经理Shelby Heinecke表示，获取代理性能的准确数据颇具挑战性，尤其是在特定领域内。MCPEval不仅能够收集数据用于代理基准测试，还能识别代理性能中的不足，为未来的训练提供依据。

随着企业对代理性能测试和监控需求的增长，市场上出现了多种评估框架和方法。例如，Galileo提供框架帮助企业评估代理的工具选择质量，新加坡管理大学推出了AgentSpec用于实现和监控代理的可靠性。Heinecke建议企业根据自身需求选择最合适的评估框架，特别是领域特定的框架，以全面测试代理在实际场景中的表现。

(以上内容均由Ai生成)