开源 MCPEval 使协议级代理测试即插即用
快速阅读: 《VentureBeat 公司》消息,Salesforce推出MCPEval工具,评估AI代理使用工具的性能。该工具可自动生成任务并提供详细评估报告,助力模型优化。
据Salesforce研究人员透露,7月15日,旧金山,研究人员开发出一种名为MCPEval的新方法和开源工具包,用于评估AI代理在使用工具时的性能。MCPEval通过自动化流程收集详细的任务轨迹和协议交互数据,提供前所未有的代理行为可见性,并生成可用于迭代改进的数据集。
研究人员表示,MCPEval超越了传统成功/失败指标,能够系统地收集高质量的任务轨迹,用于代理模型的快速微调和持续优化。此外,MCPEval还能提供关于代理与平台通信正确性的细粒度可操作性见解。
MCPEval的工作原理包括任务生成、验证和模型评估。用户可以通过Salesforce发布的开源工具包访问MCPEval,选择不同的大型语言模型(LLMs)来配置服务器,自动生成任务供代理执行。任务验证后,MCPEval会根据任务确定所需的工具调用作为基准数据,生成详细的评估报告,展示代理和测试模型的表现。
Salesforce高级AI研究经理Shelby Heinecke表示,获取代理性能的准确数据颇具挑战性,尤其是在特定领域内。MCPEval不仅能够收集数据用于代理基准测试,还能识别代理性能中的不足,为未来的训练提供依据。
随着企业对代理性能测试和监控需求的增长,市场上出现了多种评估框架和方法。例如,Galileo提供框架帮助企业评估代理的工具选择质量,新加坡管理大学推出了AgentSpec用于实现和监控代理的可靠性。Heinecke建议企业根据自身需求选择最合适的评估框架,特别是领域特定的框架,以全面测试代理在实际场景中的表现。
(以上内容均由Ai生成)