微软发布Agent Lightning，强化学习优化多代理系统

发布时间：2025年11月1日来源：szf

快速阅读: 微软发布Agent Lightning开源框架，通过强化学习优化多代理系统，无需改动现有架构即可提升大规模语言模型性能，实验显示在多项任务中均有显著改进。

微软近日发布了Agent Lightning，这是一款开源框架，旨在通过强化学习（RL）优化多代理系统。Agent Lightning能够在不改变现有代理架构的前提下，将实际的代理行为转化为RL过渡，从而提高大规模语言模型（LLM）的性能。

该框架将代理视为一个决策过程，具体而言，它将代理的形式化为部分可观测的马尔可夫决策过程。代理的观察基于当前输入，行动则为模型调用，奖励可以是终极奖励或中间奖励。框架从代理模型中提取调用记录及输入、输出和奖励信息，以此来过滤多余噪声，生成用于训练的纯净过渡数据。

Agent Lightning采用了“训练代理解耦”的方法，由Lightning Server负责训练和服务，并提供了与OpenAI兼容的API接口，便于调用更新后的模型。Lightning Client则在现有代理运行时捕捉调用记录，实时传输至服务器。此设计保持了工具、浏览器等依赖项的紧密集成，同时将GPU训练集中在服务器层面。

Agent Lightning支持两种追踪路径。默认路径使用OpenTelemetry进行数据收集，便于将代理的遥测信息传送至标准收集器。另一种是轻量级的嵌入式追踪器，适用于不希望部署OpenTelemetry的团队。所有数据最终存储于同一位置，供训练使用。

在实验评估中，研究团队测试了三个任务：文本转SQL、检索增强生成和数学问答。文本转SQL任务基于Spider基准，涵盖超过10,000个问题和200个数据库。检索增强生成任务利用MuSiQue基准，基于包含2100万文档的维基百科规模索引。数学问答任务则使用Calc X数据集，涉及工具调用计算。每个任务的训练结果均显示了稳定的奖励提升。

论文链接：https://arxiv.org/abs/2508.03680v1

关键点：

– Agent Lightning是一个开源框架，可在不重构现有系统的情况下优化多代理系统。

– 该框架将代理建模为部分可观测的马尔可夫决策过程，提取干净的训练过渡数据。

– 实验表明，Agent Lightning在文本转SQL、检索增强生成和数学问答任务上均实现了显著的性能提升。

(以上内容均由Ai生成)