微软发布Agent Lightning,强化学习优化多代理系统

发布时间:2025年11月1日    来源:szf
微软发布Agent Lightning,强化学习优化多代理系统

快速阅读: 微软发布Agent Lightning开源框架,通过强化学习优化多代理系统,无需改动现有架构即可提升大规模语言模型性能,实验显示在多项任务中均有显著改进。

微软近日发布了Agent Lightning,这是一款开源框架,旨在通过强化学习(RL)优化多代理系统。Agent Lightning能够在不改变现有代理架构的前提下,将实际的代理行为转化为RL过渡,从而提高大规模语言模型(LLM)的性能。

该框架将代理视为一个决策过程,具体而言,它将代理的形式化为部分可观测的马尔可夫决策过程。代理的观察基于当前输入,行动则为模型调用,奖励可以是终极奖励或中间奖励。框架从代理模型中提取调用记录及输入、输出和奖励信息,以此来过滤多余噪声,生成用于训练的纯净过渡数据。

Agent Lightning采用了“训练代理解耦”的方法,由Lightning Server负责训练和服务,并提供了与OpenAI兼容的API接口,便于调用更新后的模型。Lightning Client则在现有代理运行时捕捉调用记录,实时传输至服务器。此设计保持了工具、浏览器等依赖项的紧密集成,同时将GPU训练集中在服务器层面。

Agent Lightning支持两种追踪路径。默认路径使用OpenTelemetry进行数据收集,便于将代理的遥测信息传送至标准收集器。另一种是轻量级的嵌入式追踪器,适用于不希望部署OpenTelemetry的团队。所有数据最终存储于同一位置,供训练使用。

在实验评估中,研究团队测试了三个任务:文本转SQL、检索增强生成和数学问答。文本转SQL任务基于Spider基准,涵盖超过10,000个问题和200个数据库。检索增强生成任务利用MuSiQue基准,基于包含2100万文档的维基百科规模索引。数学问答任务则使用Calc X数据集,涉及工具调用计算。每个任务的训练结果均显示了稳定的奖励提升。

论文链接:https://arxiv.org/abs/2508.03680v1

关键点:

– Agent Lightning是一个开源框架,可在不重构现有系统的情况下优化多代理系统。

– 该框架将代理建模为部分可观测的马尔可夫决策过程,提取干净的训练过渡数据。

– 实验表明,Agent Lightning在文本转SQL、检索增强生成和数学问答任务上均实现了显著的性能提升。

(以上内容均由Ai生成)

你可能还想读

英国影视演员99%支持为AI权益罢工

英国影视演员99%支持为AI权益罢工

快速阅读: 据英国演艺人员工会Equity消息,该工会12月18日公布意向性投票结果,99%的7746名参与影视从业者反对片场数字扫描,并要求在新集体协议中纳入AI权益保障条款;若制作方Pact拒绝,将启动具法律效力的罢工投票。 英国影视演 […]

发布时间:2025年12月19日
MSP平台整合缓解业务增长压力

MSP平台整合缓解业务增长压力

快速阅读: 截至今日,全球托管服务提供商(MSP)在IT管理复杂化与成本压力下,正加速采用一体化平台整合分散工具,以提升运维效率、强化安全防护,并通过多租户架构、模块化设计及原生AI功能实现差异化竞争与业务可持续增长。 随着企业IT架构日益 […]

发布时间:2025年12月19日
3D打印定制鞋精准适配双脚差异

3D打印定制鞋精准适配双脚差异

快速阅读: 截至本周,Zellerfeld公司推出售价190美元的3D打印定制运动鞋,依托AI设计与足部扫描实现高度贴合,采用一体成型Zellerfoam材料支持小批量生产。尽管交付周期约为25至35天,且家庭打印尚难匹敌专业品控,但该模式 […]

发布时间:2025年12月19日
Edison Scientific融资7000万美元推进自主AI科研平台

Edison Scientific融资7000万美元推进自主AI科研平台

快速阅读: 据爱迪生科学公司消息,该公司近日完成7000万美元融资,将用于扩大运营并研发其“宇宙”AI科研平台。该平台可自动完成文献综述、数据分析与实验规划等任务,显著缩短药物研发等领域的科研周期。 美国旧金山人工智能初创企业爱迪生科学公司 […]

发布时间:2025年12月19日
海信推模块化AI家电解决用户痛点

海信推模块化AI家电解决用户痛点

快速阅读: 据机构披露,海信在2025年CES上推出多款智能家电新品,聚焦真实生活痛点,包括顶部排水除湿机、模块化洗烘系统及AI联动厨房套系,依托“Connect Life”生态实现跨设备协同与场景化服务。产品将于1月6日起在拉斯维加斯展会 […]

发布时间:2025年12月19日
Info-Tech发布2025年顶级机器学习平台报告

Info-Tech发布2025年顶级机器学习平台报告

快速阅读: 据Info-Tech Research Group发布的报告,该机构基于682份用户评价评选出2025年四大机器学习平台:Databricks以95分居首,Azure Machine Learning与Google Cloud […]

发布时间:2025年12月19日
特朗普全球布局AI与关键矿产供应链

特朗普全球布局AI与关键矿产供应链

快速阅读: 据美国国际发展金融公司消息,该公司近日签署5.53亿美元贷款协议,用于翻新非洲洛比托—大西洋铁路,以提升刚果(金)和赞比亚关键矿产的运输能力。项目完成后年运力将达460万吨,物流成本降低30%,有助于强化美国在稀土等战略资源供应 […]

发布时间:2025年12月19日
DuckDuckGo上线AI图像生成功能

DuckDuckGo上线AI图像生成功能

快速阅读: 据DuckDuckGo消息,该公司近日上线测试版图像生成工具Duck.ai,延续隐私优先原则,用户提示内容经匿名化处理且不用于训练模型,生成图片仅存于本地并嵌入C2PA元数据,非订阅用户每日使用受限。 DuckDuckGo近日推 […]

发布时间:2025年12月19日