微软发布Agent Lightning，强化学习优化多代理系统性能

发布时间：2025年10月30日来源：szf

快速阅读: 微软发布 Agent Lightning 开源框架，通过强化学习优化多代理系统，无需改动现有架构。该框架将代理形式化为部分可观测的马尔可夫决策过程，提高大规模语言模型性能。实验显示，在多项任务中实现稳定性能提升。

近日，微软发布了名为 Agent Lightning 的开源框架，旨在通过强化学习（RL）技术优化多代理系统。此框架能够在不改动现有代理架构的前提下，将实际代理行为转化为强化学习过渡，进而提高大规模语言模型（LLM）的性能。

Agent Lightning 将代理视为决策过程的一部分，具体而言，它将代理形式化为部分可观测的马尔可夫决策过程。其中，代理的观察基于当前输入，其行动则涉及模型调用，而奖励可以是终极奖励或中间奖励。框架从代理模型中提取调用记录及输入、输出和奖励信息，去除多余噪声，生成用于训练的高质量过渡数据。

该框架采用了“训练代理解耦”的设计理念，由 Lightning Server 负责训练和服务，提供与 OpenAI 兼容的 API 接口，方便调用更新后的模型。Lightning Client 则在现有代理运行时捕捉调用记录，并实时传输至服务器。这种设计不仅维持了工具、浏览器等组件的紧密集成，还将 GPU 训练集中于服务器层面。

Agent Lightning 提供了两种追踪路径。默认路径利用 OpenTelemetry 收集数据，便于将代理的遥测信息发送到标准收集器。另一种则是轻量级的内嵌追踪器，适用于不希望部署 OpenTelemetry 的团队。所有收集的数据最终统一存储，以备训练使用。

在实验测试中，研究团队选取了三个任务来评估 Agent Lightning 的效果，分别是文本转 SQL、检索增强生成和数学问答。文本转 SQL 任务使用了 Spider 基准，涵盖了超过10,000个问题和200个数据库。检索增强生成任务基于包含2100万文档的维基百科规模索引，使用 MuSiQue 基准。数学问答任务则采用 Calc X 数据集，通过工具调用来完成计算。实验结果显示，在所有任务中，Agent Lightning 均实现了稳定的奖励增长。

论文链接：https://arxiv.org/abs/2508.03680v1

要点：

– Agent Lightning 是一个开源框架，可在不重构建现有系统的基础上优化多代理系统。

– 该框架将代理视为部分可观测的马尔可夫决策过程，能够生成高质量的训练数据。

– 实验表明，Agent Lightning 在文本转 SQL、检索增强生成和数学问答等任务中显著提升了性能。

(以上内容均由Ai生成)