微软发布Agent Lightning,强化学习优化多代理系统性能

发布时间:2025年10月30日    来源:szf
微软发布Agent Lightning,强化学习优化多代理系统性能

快速阅读: 微软发布 Agent Lightning 开源框架,通过强化学习优化多代理系统,无需改动现有架构。该框架将代理形式化为部分可观测的马尔可夫决策过程,提高大规模语言模型性能。实验显示,在多项任务中实现稳定性能提升。

近日,微软发布了名为 Agent Lightning 的开源框架,旨在通过强化学习(RL)技术优化多代理系统。此框架能够在不改动现有代理架构的前提下,将实际代理行为转化为强化学习过渡,进而提高大规模语言模型(LLM)的性能。

Agent Lightning 将代理视为决策过程的一部分,具体而言,它将代理形式化为部分可观测的马尔可夫决策过程。其中,代理的观察基于当前输入,其行动则涉及模型调用,而奖励可以是终极奖励或中间奖励。框架从代理模型中提取调用记录及输入、输出和奖励信息,去除多余噪声,生成用于训练的高质量过渡数据。

该框架采用了“训练代理解耦”的设计理念,由 Lightning Server 负责训练和服务,提供与 OpenAI 兼容的 API 接口,方便调用更新后的模型。Lightning Client 则在现有代理运行时捕捉调用记录,并实时传输至服务器。这种设计不仅维持了工具、浏览器等组件的紧密集成,还将 GPU 训练集中于服务器层面。

Agent Lightning 提供了两种追踪路径。默认路径利用 OpenTelemetry 收集数据,便于将代理的遥测信息发送到标准收集器。另一种则是轻量级的内嵌追踪器,适用于不希望部署 OpenTelemetry 的团队。所有收集的数据最终统一存储,以备训练使用。

在实验测试中,研究团队选取了三个任务来评估 Agent Lightning 的效果,分别是文本转 SQL、检索增强生成和数学问答。文本转 SQL 任务使用了 Spider 基准,涵盖了超过10,000个问题和200个数据库。检索增强生成任务基于包含2100万文档的维基百科规模索引,使用 MuSiQue 基准。数学问答任务则采用 Calc X 数据集,通过工具调用来完成计算。实验结果显示,在所有任务中,Agent Lightning 均实现了稳定的奖励增长。

论文链接:https://arxiv.org/abs/2508.03680v1

要点:

– Agent Lightning 是一个开源框架,可在不重构建现有系统的基础上优化多代理系统。

– 该框架将代理视为部分可观测的马尔可夫决策过程,能够生成高质量的训练数据。

– 实验表明,Agent Lightning 在文本转 SQL、检索增强生成和数学问答等任务中显著提升了性能。

(以上内容均由Ai生成)

你可能还想读

HackerOne双高管加盟加速企业市场拓展

HackerOne双高管加盟加速企业市场拓展

快速阅读: 据HackerOne消息,该公司近日任命Stephanie Furfaro为首席营收官、Stacy Leidwinger为首席营销官,旨在强化全球市场拓展与AI驱动的威胁暴露管理能力,推动CTEM解决方案落地。 网络安全企业Ha […]

发布时间:2025年12月16日
习惯决定AI落地成败

习惯决定AI落地成败

快速阅读: 据国际法律技术协会消息,2025年技术调查显示80%法律团队已采用生成式AI,当前重点在于平衡技术工具与以人为本的实施策略,以应对智能体AI时代的工作转型挑战。 据国际法律技术协会(ILTA)2025年技术调查报告显示,80%的 […]

发布时间:2025年12月16日
旧AI芯片将何去何从?

旧AI芯片将何去何从?

快速阅读: 截至发稿时,2026年5月19日至20日,财富职场创新峰会将在亚特兰大举行,聚焦人工智能与人文战略融合重塑未来工作模式,全球创新领袖将共议技术赋能、人才发展及组织变革新趋势。 2026年5月19日至20日,财富职场创新峰会将在亚 […]

发布时间:2025年12月16日
新闻机构面临AI转型关键抉择

新闻机构面临AI转型关键抉择

快速阅读: 据行业人士表示,新闻机构面临AI时代关键抉择:若继续屏蔽爬虫将丧失信息分发主导权,专家建议中小媒体联合开发标准化API,主动开放内容并嵌入AI服务,以在智能化转型中争取品牌曝光与合作机会。 2026年,新闻机构将面临人工智能(A […]

发布时间:2025年12月16日
AI智能眼镜爆发式增长引发合规担忧

AI智能眼镜爆发式增长引发合规担忧

快速阅读: 据权威渠道透露,AI眼镜加速企业落地,2024年全球出货量激增210%,但其生物识别数据收集功能引发BIPA、GDPR等合规风险,企业需加强隐私评估、员工培训及法律协议以规避高额赔偿与声誉损失。 人工智能眼镜已从未来概念逐步走入 […]

发布时间:2025年12月16日
St. Jude推出AI平台加速药物组合发现

St. Jude推出AI平台加速药物组合发现

快速阅读: 据圣裘德儿童研究医院消息,其科学家近日开发出名为Combocat的药物组合筛选平台,融合机器学习与声波液体处理技术,显著提升新药组合发现效率并降低试剂消耗,已成功在神经母细胞瘤研究中验证效果,平台现已开源免费供全球科研使用。 美 […]

发布时间:2025年12月16日
企业AI落地依赖合作伙伴生态

企业AI落地依赖合作伙伴生态

快速阅读: 据SiliconANGLE Media报道,Cloudera联合英伟达推出企业级AI生态系统,集成NIM微服务与高可用架构,将部署周期从六个月缩短至数周,并指出2025年“智能体工作流”将迈入生产应用关键阶段。 随着人工智能从实 […]

发布时间:2025年12月16日
千美元内可投的AI指数基金首选

千美元内可投的AI指数基金首选

快速阅读: 据权威消息,景顺QQQ信托作为跟踪纳斯达克100指数的代表性AI主题基金,汇聚多家领先科技企业,为投资者提供分散风险、便捷参与人工智能产业发展的高流动性配置工具。 投资者无需自行挑选人工智能领域的个股,大型投资机构已推出相关产品 […]

发布时间:2025年12月16日