微软发布Agent Lightning,强化学习优化多代理系统

发布时间:2025年11月1日    来源:szf
微软发布Agent Lightning,强化学习优化多代理系统

快速阅读: 微软发布Agent Lightning开源框架,通过强化学习优化多代理系统,无需改动现有架构即可提升大规模语言模型性能,实验显示在多项任务中均有显著改进。

微软近日发布了Agent Lightning,这是一款开源框架,旨在通过强化学习(RL)优化多代理系统。Agent Lightning能够在不改变现有代理架构的前提下,将实际的代理行为转化为RL过渡,从而提高大规模语言模型(LLM)的性能。

该框架将代理视为一个决策过程,具体而言,它将代理的形式化为部分可观测的马尔可夫决策过程。代理的观察基于当前输入,行动则为模型调用,奖励可以是终极奖励或中间奖励。框架从代理模型中提取调用记录及输入、输出和奖励信息,以此来过滤多余噪声,生成用于训练的纯净过渡数据。

Agent Lightning采用了“训练代理解耦”的方法,由Lightning Server负责训练和服务,并提供了与OpenAI兼容的API接口,便于调用更新后的模型。Lightning Client则在现有代理运行时捕捉调用记录,实时传输至服务器。此设计保持了工具、浏览器等依赖项的紧密集成,同时将GPU训练集中在服务器层面。

Agent Lightning支持两种追踪路径。默认路径使用OpenTelemetry进行数据收集,便于将代理的遥测信息传送至标准收集器。另一种是轻量级的嵌入式追踪器,适用于不希望部署OpenTelemetry的团队。所有数据最终存储于同一位置,供训练使用。

在实验评估中,研究团队测试了三个任务:文本转SQL、检索增强生成和数学问答。文本转SQL任务基于Spider基准,涵盖超过10,000个问题和200个数据库。检索增强生成任务利用MuSiQue基准,基于包含2100万文档的维基百科规模索引。数学问答任务则使用Calc X数据集,涉及工具调用计算。每个任务的训练结果均显示了稳定的奖励提升。

论文链接:https://arxiv.org/abs/2508.03680v1

关键点:

– Agent Lightning是一个开源框架,可在不重构现有系统的情况下优化多代理系统。

– 该框架将代理建模为部分可观测的马尔可夫决策过程,提取干净的训练过渡数据。

– 实验表明,Agent Lightning在文本转SQL、检索增强生成和数学问答任务上均实现了显著的性能提升。

(以上内容均由Ai生成)

你可能还想读

韩国启动双轨AI战略,大力发展文本与物理模型

韩国启动双轨AI战略,大力发展文本与物理模型

快速阅读: 韩国推出“双轨”AI战略,获英伟达26万GPU支持,旨在开发文本和物理AI模型,提升全球竞争力,利用制造业优势构建独立AI生态系统。 韩国正式推出“双轨”人工智能(AI)战略,旨在通过开发基于文本的基础模型和物理AI模型来提升全 […]

发布时间:2025年11月2日
星展银行推出AI防骗工具,助力识别网购骗局

星展银行推出AI防骗工具,助力识别网购骗局

快速阅读: Starling Bank推出“欺诈智能”AI工具,帮助客户识别在线购物诈骗,利用谷歌Gemini模型分析图像和文本,提供即时风险评估,保护用户资金安全。 Starling Bank 在其应用程序中推出了一款由人工智能驱动的工具 […]

发布时间:2025年11月2日
黄仁勋揭示英伟达股票投资惊人理由

黄仁勋揭示英伟达股票投资惊人理由

快速阅读: 人工智能领域持续增强,七大巨头及科技领导者提供资金支持,英伟达宣布本十年末数据中心支出或达4万亿美元,展现巨大增长潜力。 人工智能领域的机遇显然不仅没有放缓,反而在持续增强,甚至可能在加速发展。其吸引力在于,最盈利的公司——所谓 […]

发布时间:2025年11月2日
基金或成AI热潮最大赢家,超越S&P 500

基金或成AI热潮最大赢家,超越S&P 500

快速阅读: 基金因美国人工智能支出增长和数据中心普及,预期成为超越标普500指数的投资选择,获研究公司及NDR分析师看好。 基金有望成为美国人工智能支出热潮和数据中心普及的最大赢家之一。未来几年,这可能使该基金成为比更广泛的标普500指数更 […]

发布时间:2025年11月2日
三星加速2nm工艺,提前生产特斯拉AI5芯片

三星加速2nm工艺,提前生产特斯拉AI5芯片

快速阅读: 三星电子作为特斯拉AI5芯片的第二供应商,将在美国得克萨斯州泰勒市使用2nm技术生产。因特斯拉追加订单,三星加快泰勒工厂建设,预计2026年三季度投产,比原计划提前。此项目对三星2nm制程意义重大,有望增强与特斯拉合作及吸引更多 […]

发布时间:2025年11月2日
微软CEO宣布扩大员工规模,重点发展AI和运营效率

微软CEO宣布扩大员工规模,重点发展AI和运营效率

快速阅读: 微软CEO纳德拉宣布扩大员工队伍,重点发展人工智能与提高运营效率,强调新增人力将发挥更大作用,适应AI为核心的新工作方式。 微软首席执行官萨提亚·纳德拉宣布了这家科技巨头扩大员工队伍的计划,重点放在人工智能和运营效率上。“我们将 […]

发布时间:2025年11月2日
卡内基梅隆大学卡塔尔分校推出AI本科课程,培养未来科技领袖

卡内基梅隆大学卡塔尔分校推出AI本科课程,培养未来科技领袖

快速阅读: 卡塔尔卡内基梅隆大学(CMU-Q)将人工智能融入课程体系,2025年推出理学士人工智能学位,强调批判性思维与伦理应用,培养学生适应智能技术世界。 卡塔尔多哈:对于商业、科学和技术领域的下一代领导者而言,理解人工智能是一项基本技能 […]

发布时间:2025年11月2日
英伟达市值突破5万亿美元,AI寒冬隐现?

英伟达市值突破5万亿美元,AI寒冬隐现?

快速阅读: 英伟达因AI热潮成为首个市值超5万亿美元的芯片商,预计本世纪末估值或达8至10万亿美元。但随着对AI项目盈利性的质疑及资金消耗增加,此预测面临挑战。 得益于人工智能(AI)热潮,芯片制造商英伟达本月成为全球首个市值突破5万亿美元 […]

发布时间:2025年11月2日