微软发布Agent Lightning,强化学习优化多代理系统性能

发布时间:2025年10月30日    来源:szf
微软发布Agent Lightning,强化学习优化多代理系统性能

快速阅读: 微软发布 Agent Lightning 开源框架,通过强化学习优化多代理系统,无需改动现有架构。该框架将代理形式化为部分可观测的马尔可夫决策过程,提高大规模语言模型性能。实验显示,在多项任务中实现稳定性能提升。

近日,微软发布了名为 Agent Lightning 的开源框架,旨在通过强化学习(RL)技术优化多代理系统。此框架能够在不改动现有代理架构的前提下,将实际代理行为转化为强化学习过渡,进而提高大规模语言模型(LLM)的性能。

Agent Lightning 将代理视为决策过程的一部分,具体而言,它将代理形式化为部分可观测的马尔可夫决策过程。其中,代理的观察基于当前输入,其行动则涉及模型调用,而奖励可以是终极奖励或中间奖励。框架从代理模型中提取调用记录及输入、输出和奖励信息,去除多余噪声,生成用于训练的高质量过渡数据。

该框架采用了“训练代理解耦”的设计理念,由 Lightning Server 负责训练和服务,提供与 OpenAI 兼容的 API 接口,方便调用更新后的模型。Lightning Client 则在现有代理运行时捕捉调用记录,并实时传输至服务器。这种设计不仅维持了工具、浏览器等组件的紧密集成,还将 GPU 训练集中于服务器层面。

Agent Lightning 提供了两种追踪路径。默认路径利用 OpenTelemetry 收集数据,便于将代理的遥测信息发送到标准收集器。另一种则是轻量级的内嵌追踪器,适用于不希望部署 OpenTelemetry 的团队。所有收集的数据最终统一存储,以备训练使用。

在实验测试中,研究团队选取了三个任务来评估 Agent Lightning 的效果,分别是文本转 SQL、检索增强生成和数学问答。文本转 SQL 任务使用了 Spider 基准,涵盖了超过10,000个问题和200个数据库。检索增强生成任务基于包含2100万文档的维基百科规模索引,使用 MuSiQue 基准。数学问答任务则采用 Calc X 数据集,通过工具调用来完成计算。实验结果显示,在所有任务中,Agent Lightning 均实现了稳定的奖励增长。

论文链接:https://arxiv.org/abs/2508.03680v1

要点:

– Agent Lightning 是一个开源框架,可在不重构建现有系统的基础上优化多代理系统。

– 该框架将代理视为部分可观测的马尔可夫决策过程,能够生成高质量的训练数据。

– 实验表明,Agent Lightning 在文本转 SQL、检索增强生成和数学问答等任务中显著提升了性能。

(以上内容均由Ai生成)

你可能还想读

谷歌联手印度信实工业,免费提供AI Pro订阅

谷歌联手印度信实工业,免费提供AI Pro订阅

快速阅读: 谷歌与印度信实工业合作,向Jio用户提供18个月免费AI Pro订阅服务,价值约396美元,包括Gemini 2.5 Pro模型访问和2TB云存储。此举旨在扩大谷歌在印度AI市场的影响力。 为了扩大其在新兴市场的AI影响力,谷歌 […]

发布时间:2025年10月30日
印度喜马偕尔邦推出物联网与人工智能课程,助力青年数字时代就业

印度喜马偕尔邦推出物联网与人工智能课程,助力青年数字时代就业

快速阅读: 喜马偕尔邦政府推出新技术教育计划,包括计算机科学与物联网联合课程,招生51人,旨在培养青年适应数字时代需求,促进就业与创新。 认识到物联网(IoT)和人工智能(AI)等技术日益增长的重要性,喜马偕尔邦政府推出了新的学术机会,以培 […]

发布时间:2025年10月30日
BNB Chain集成AEON x402,实现自主AI支付

BNB Chain集成AEON x402,实现自主AI支付

快速阅读: BNB Chain集成AEON x402 Facilitator,实现安全自主AI支付,推动AI商业部署。此举加强与Chainlink及Ondo Finance合作,扩展区块链生态系统。 BNB Chain已集成AEON创新的x […]

发布时间:2025年10月30日
谷歌与信实合作,免费提供Gemini Pro计划给部分Jio用户18个月

谷歌与信实合作,免费提供Gemini Pro计划给部分Jio用户18个月

快速阅读: 谷歌CEO皮查伊宣布与信实集团深化合作,将谷歌的人工智能工具引入印度市场,助力数百万用户获得更便捷的互联网服务和智能技术,推动印度数字转型。 谷歌及其母公司Alphabet的首席执行官桑达尔·皮查伊表示,信实集团一直是谷歌推动印 […]

发布时间:2025年10月30日
24HR卡车服务推出AI救援平台,革新车队保险应急响应

24HR卡车服务推出AI救援平台,革新车队保险应急响应

快速阅读: 24小时卡车服务公司推出新道路救援平台,采用智能代理AI技术,提升救援效率降低成本,专为保险提供商及房车、重型卡车客户服务。 特拉华州威尔明顿,2025年10月30日——24小时卡车服务公司,作为全国领先的卡车和维修行业人工智能 […]

发布时间:2025年10月30日
Jio免费提供Google Gemini Pro,对抗Airtel的Perplexity策略

Jio免费提供Google Gemini Pro,对抗Airtel的Perplexity策略

快速阅读: 印度电信巨头Reliance Jio与谷歌合作,向用户提供免费的Google Gemini AI Pro服务,为期18个月,价值35000卢比,旨在提高ARPU并扩大市场份额。Jio计划2026年IPO,目前拥有5.064亿移动 […]

发布时间:2025年10月30日
扎克伯格算大账:AI投入高昂,讨好特朗普代价更高

扎克伯格算大账:AI投入高昂,讨好特朗普代价更高

快速阅读: Meta因“大美丽法案”费用影响,三季度利润骤降,扎克伯格承诺加大AI投资,上调资本支出预测,同时宣布AI领域裁员600人,强调不影响AI战略。 尽管首席执行官马克·扎克伯格竭力讨好特朗普2.0政府,Meta在第三季度的利润仍因 […]

发布时间:2025年10月30日
印度2026年起小学三年级引入AI课程

印度2026年起小学三年级引入AI课程

快速阅读: 中央中等教育委员会组建专家组,由印度理工学院教授领导,开发AI与CT课程,计划2026-27学年起在三年级以上推广,强化学习与教学,注重伦理使用AI,课程具广泛性和包容性。 中央中等教育委员会(CBSE)已组建了一个由印度理工学 […]

发布时间:2025年10月30日