亚马逊Bedrock AgentCore新增质量评估与策略控制功能

快速阅读: 亚马逊Bedrock AgentCore发布新功能，增强AI代理的安全性、扩展性和用户体验，包括AgentCore策略、评估、记忆和双向流技术，助力各行业构建高效、可靠的代理系统。

今日宣布，亚马逊Bedrock AgentCore推出新功能，进一步降低AI代理投入生产所面临的障碍。各行各业的组织正在利用AgentCore这一最先进平台构建、部署和运营具备高度能力的代理，确保安全性和大规模扩展性。自预览版发布以来的短短5个月内，AgentCore SDK下载量已超过200万次。例如：

美巡赛（PGA TOUR）作为体育领域的创新先锋，已构建一个多代理内容生成系统，用于其数字平台的文章创作。基于AgentCore的新解决方案使得美巡赛能够为所有参赛选手提供全面报道，内容写作速度提高了1000%，同时成本降低了95%。

独立软件供应商（ISV）如Workday也在AgentCore上构建未来软件。AgentCore代码解释器为Workday规划代理提供了安全的数据保护和财务数据分析的关键功能。用户可以通过自然语言查询分析财务和运营数据，使财务规划变得直观且自主。这将常规规划分析所需时间减少了30%，每月节省约100小时。

巴西分销和零售商Grupo Elfa依靠AgentCore可观测性实现代理决策的完整审计追踪和实时指标，将其反应过程转变为预防操作。通过这一统一平台，销售团队可以每天处理数千个价格报价，而组织能够全面了解代理决策，帮助实现代理决策和互动的100%可追溯性，并将问题解决时间缩短50%。

随着组织扩大代理部署规模，他们在实施正确的边界和质量检查以放心部署代理方面面临挑战。虽然代理的自主性使其强大，但也导致难以大规模放心部署，因为它们可能不当访问敏感数据、做出未经授权的决定或采取意外行动。开发团队必须在赋予代理自主权的同时，确保它们在可接受的界限内运行，并达到所需的高质量标准，以便将其应用于客户和员工面前。

今天推出的新功能简化了这一过程，帮助您自信地构建和部署值得信赖的AI代理：

– **AgentCore策略**（预览版）——通过在工具调用运行前使用具有细粒度权限的策略拦截AgentCore网关调用，定义明确的代理行为边界。

– **AgentCore评估**（预览版）——基于实际行为监控代理质量，内置评估维度包括正确性和帮助性，以及针对特定业务需求的自定义评估器。

我们还引入了扩展代理功能的特性：

– **AgentCore内存中的情节功能**——一种新的长期策略，帮助代理从经历中学习，并在类似情况下适应解决方案，提高在类似任务中的表现一致性。

– **AgentCore运行时中的双向流**——部署语音代理，实现用户和代理之间的自然对话流，双方可以同时说话。

**AgentCore策略**赋予您对代理行为的控制权，这些策略在代理的推理循环之外应用，将代理视为需要在到达工具、系统或数据之前验证决策的自主角色。它与AgentCore网关集成，实现实时拦截工具调用，同时保持操作速度，确保工作流程快速响应。

您可以使用自然语言或直接使用开源策略语言Cedar创建策略，简化设置、理解和审计规则的过程，无需编写自定义代码。这种方法使得政策创建对开发、安全和合规团队来说更加容易，他们可以在没有专门编码知识的情况下创建、理解并审计规则。

策略独立于代理的构建方式或使用的模型，您可以定义代理可以访问的工具和数据（无论是API、AWS Lambda函数、模型上下文协议（MCP）服务器还是第三方服务），以及它们可以执行的操作和条件。

团队可以一次性定义明确的策略，并在整个组织中一致应用。有了这些策略，开发人员获得了创造创新代理体验的自由，而组织则可以在确保代理保持在定义边界内的同时，放心地让它们自主行动，满足合规要求。

使用**AgentCore策略**，您可以在新的AgentCore控制台的**策略**部分开始创建策略引擎。

将策略引擎与一个或多个AgentCore网关关联。策略引擎是一组在网关端点评估的策略。当将网关与策略引擎关联时，可以选择是否强制执行策略结果——实际上是允许或拒绝访问工具调用——或者仅记录日志。使用日志有助于在生产环境中启用策略之前进行测试和验证。

然后，可以定义应用于关联AgentCore网关提供的工具的策略，以实现对这些工具访问的精细控制。创建策略时，可以从自然语言描述开始（应包括要使用的认证声明信息）或直接编辑Cedar代码。基于自然语言的策略创作提供了一种更易访问的方式，用于创建细粒度的策略。无需编写正式的策略代码，而是可以用普通英语描述规则。系统会解读您的意图，生成候选策略，根据工具模式验证这些策略，并使用自动化推理检查安全条件——识别过于宽松、过于严格或包含无法满足条件的提示。

与通用的大语言模型（LLM）翻译不同，此功能理解您的工具结构，生成既在语法上正确又在语义上与您的意图一致的策略，同时标记无法执行的规则。它还可用作Model Context Protocol（MCP）服务器，因此您可以在首选的人工智能辅助编码环境中直接创作和验证策略，作为正常开发工作流程的一部分。这种方法减少了入职时间，帮助您在无需Cedar专业知识的情况下编写高质量的授权规则。

以下示例策略使用JWT令牌中用于认证到AgentCore网关的信息（角色）以及传递给工具调用的参数（`context.input`）来验证对处理退款工具的访问。只有具有`refund-agent`角色的认证用户才能访问该工具，但仅限于金额（`context.input.amount`）低于200美元的情况。

“`cedar

permit(principal is AgentCore::OAuthUser, action == AgentCore::Action::”RefundTool__process_refund”, resource == AgentCore::Gateway::”“) when {

principal.hasTag(“role”) && principal.getTag(“role”) == “refund-agent” && context.input.amount < 200;

};

“`

AgentCore评估服务提供持续、实时的质量情报。AgentCore评估是一个完全托管的服务，帮助您基于真实行为持续监控和分析代理性能。通过AgentCore评估，您可以使用内置评估器来评估常见的质量维度，如准确性、帮助性、工具选择准确性、安全性、目标成功率和上下文相关性。您还可以创建自定义模型评分系统，配置您选择的提示和模型，以实现业务定制评分，同时服务会持续采样并评分现场代理交互。

所有来自AgentCore评估的结果都将在Amazon CloudWatch中可视化，与AgentCore可观察性见解一起提供统一监控的位置。您还可以设置评估分数的警报和报警，以主动监控代理质量并在指标超出可接受阈值时作出响应。您可以在测试阶段使用AgentCore评估，以在部署前检查代理是否符合基线，防止有缺陷的版本到达用户手中；在生产环境中，则用于持续改进您的代理。当质量指标降至定义的阈值之下——例如客户服务代理满意度下降或礼貌得分在8小时内下降超过10%——系统将触发即时警报，帮助更快地检测和解决质量问题。

使用AgentCore评估

您可以在新的“评估”部分的AgentCore控制台中创建在线评估。可以使用AgentCore代理端点或外部代理使用的CloudWatch日志组作为数据源。例如，这里我使用了我们在预览版介绍AgentCore时共享的相同示例客户服务代理。

然后，您可以选择要使用的评估器，包括从现有模板定义或从头构建的自定义评估器。例如，对于客户服务代理，您可以选择如下指标：

– 准确性：评估代理响应中的信息是否事实准确

– 一致性：评估响应中的信息是否由提供的上下文/来源支持

– 有用性：从用户的角度评估代理响应的实用性和价值

– 危害性：评估响应是否包含有害内容

– 刻板印象：检测内容是否对个人或群体做出概括

工具选择和参数准确性评估器可以帮助您了解代理是否选择了正确的工具来完成任务，并从用户查询中提取了正确的参数。为了完成评估的创建，您可以选择采样率和可选过滤器。在权限方面，您可以创建新的AWS身份和访问管理（IAM）服务角色，或者传递现有的角色。评估结果会实时发布到Amazon CloudWatch的AgentCore可观测性仪表板上。您可以选择任意柱状图部分查看相应的跟踪记录，以深入了解该特定评估背后的请求和响应。由于结果存储在CloudWatch中，您可以利用其所有功能，例如创建警报和自动化操作。

在AgentCore评估中创建自定义评估器允许您定义针对代理独特需求量身定制的业务特定质量指标。要创建自定义评估器，您需要提供用作评判者的模型，包括推理参数（如温度和最大输出令牌数），以及带有评判指示的定制提示。您可以从内置评估器之一使用的提示开始，或者输入一个新的提示。然后，定义输出的评分标准，可以是数字值或自定义文本标签。最后，配置评估是由模型对单个跟踪、完整会话还是每次工具调用进行计算。

AgentCore记忆的新长期记忆策略使AI代理能够从过去的互动中学习，并将这些经验应用于未来的交互中，提供更有帮助的支持。考虑通过代理预订旅行的情况：随着时间的推移，代理会从您的预订模式中学习——例如，您在工作旅行时经常因客户会议而需要将航班改签至较晚时间。当您开始下一次涉及客户会议的预订时，代理会主动建议灵活的返程选项。就像一位经验丰富的助手一样，具有情景记忆的代理现在可以识别并适应您的个人需求。

启用新的情景功能后，AgentCore记忆会捕捉记录代理互动背景、推理过程、采取行动及结果的结构化事件，而反思代理会分析这些事件以提取更广泛的见解和模式。面对类似任务时，代理可以检索这些学习成果，提高决策的一致性并减少处理时间。这减少了对自定义指令的需求，因为只需在代理上下文中包含完成任务所需的特定学习，而不是一长串所有可能的建议。

借助AgentCore运行时，您可以使用少量代码部署代理应用程序。为了简化部署自然且响应迅速的对话体验，AgentCore运行时现在支持双向流技术。这项能力使语音代理能够在用户说话时聆听并适应，让用户可以在代理回应中途打断，代理立即调整以适应新的上下文，无需等待代理完成当前输出。与传统的轮流交互模式不同，用户不必等待完整的回应，双向流技术创造了一种流畅、自然的对话体验，其中代理能够根据用户的发言动态改变回应。构建这种对话体验通常需要大量的工程努力来处理复杂的同步通信流程。双向流技术通过管理代理在生成输出的同时处理输入所需的基础设施，优雅地处理中断，并在整个动态对话转变过程中保持上下文，简化了这一过程。现在，您可以部署能够自然适应人类对话流动性的代理——支持中途打断、上下文切换和澄清，而不会失去对话的主线。

需要注意的是，Amazon Bedrock AgentCore（包括政策预览版）在美国东部（俄亥俄州、北弗吉尼亚）、美国西部（俄勒冈州）、亚太地区（孟买、新加坡、悉尼、东京）和欧洲（法兰克福、爱尔兰）区域可用。AgentCore评估预览版在美国东部（俄亥俄州、北弗吉尼亚）、美国西部（俄勒冈州）、亚太地区（悉尼）和欧洲（法兰克福）区域可用。有关区域可用性和未来路线图，请访问AWS按区域功能页面。使用AgentCore时，您只需为您实际使用的资源付费，无需预先承诺。详细的定价信息，请访问Amazon Bedrock定价页面。

AgentCore 也是 AWS 免费套餐的一部分，新 AWS 用户可以免费使用它来开始体验并探索主要的 AWS 服务。这些新功能支持任何开源框架，如 CrewAI、LangGraph、LlamaIndex 和 Strands Agents，以及任何基础模型。AgentCore 服务可以组合使用或独立使用，您可以通过使用 AgentCore 开源 MCP 服务器，在您喜欢的 AI 辅助开发环境中开始使用。欲了解更多信息并快速上手，请访问 AgentCore 开发者指南。

(以上内容均由Ai生成)