微软发布Agent Lightning,强化学习优化多代理系统
快速阅读: 微软发布Agent Lightning开源框架,通过强化学习优化多代理系统,无需改动现有架构即可提升大规模语言模型性能,实验显示在多项任务中均有显著改进。
微软近日发布了Agent Lightning,这是一款开源框架,旨在通过强化学习(RL)优化多代理系统。Agent Lightning能够在不改变现有代理架构的前提下,将实际的代理行为转化为RL过渡,从而提高大规模语言模型(LLM)的性能。
该框架将代理视为一个决策过程,具体而言,它将代理的形式化为部分可观测的马尔可夫决策过程。代理的观察基于当前输入,行动则为模型调用,奖励可以是终极奖励或中间奖励。框架从代理模型中提取调用记录及输入、输出和奖励信息,以此来过滤多余噪声,生成用于训练的纯净过渡数据。
Agent Lightning采用了“训练代理解耦”的方法,由Lightning Server负责训练和服务,并提供了与OpenAI兼容的API接口,便于调用更新后的模型。Lightning Client则在现有代理运行时捕捉调用记录,实时传输至服务器。此设计保持了工具、浏览器等依赖项的紧密集成,同时将GPU训练集中在服务器层面。
Agent Lightning支持两种追踪路径。默认路径使用OpenTelemetry进行数据收集,便于将代理的遥测信息传送至标准收集器。另一种是轻量级的嵌入式追踪器,适用于不希望部署OpenTelemetry的团队。所有数据最终存储于同一位置,供训练使用。
在实验评估中,研究团队测试了三个任务:文本转SQL、检索增强生成和数学问答。文本转SQL任务基于Spider基准,涵盖超过10,000个问题和200个数据库。检索增强生成任务利用MuSiQue基准,基于包含2100万文档的维基百科规模索引。数学问答任务则使用Calc X数据集,涉及工具调用计算。每个任务的训练结果均显示了稳定的奖励提升。
论文链接:https://arxiv.org/abs/2508.03680v1
关键点:
– Agent Lightning是一个开源框架,可在不重构现有系统的情况下优化多代理系统。
– 该框架将代理建模为部分可观测的马尔可夫决策过程,提取干净的训练过渡数据。
– 实验表明,Agent Lightning在文本转SQL、检索增强生成和数学问答任务上均实现了显著的性能提升。
(以上内容均由Ai生成)