微软发布Agent Lightning,强化学习优化多代理系统

发布时间:2025年11月1日    来源:szf
微软发布Agent Lightning,强化学习优化多代理系统

快速阅读: 微软发布Agent Lightning开源框架,通过强化学习优化多代理系统,无需改动现有架构即可提升大规模语言模型性能,实验显示在多项任务中均有显著改进。

微软近日发布了Agent Lightning,这是一款开源框架,旨在通过强化学习(RL)优化多代理系统。Agent Lightning能够在不改变现有代理架构的前提下,将实际的代理行为转化为RL过渡,从而提高大规模语言模型(LLM)的性能。

该框架将代理视为一个决策过程,具体而言,它将代理的形式化为部分可观测的马尔可夫决策过程。代理的观察基于当前输入,行动则为模型调用,奖励可以是终极奖励或中间奖励。框架从代理模型中提取调用记录及输入、输出和奖励信息,以此来过滤多余噪声,生成用于训练的纯净过渡数据。

Agent Lightning采用了“训练代理解耦”的方法,由Lightning Server负责训练和服务,并提供了与OpenAI兼容的API接口,便于调用更新后的模型。Lightning Client则在现有代理运行时捕捉调用记录,实时传输至服务器。此设计保持了工具、浏览器等依赖项的紧密集成,同时将GPU训练集中在服务器层面。

Agent Lightning支持两种追踪路径。默认路径使用OpenTelemetry进行数据收集,便于将代理的遥测信息传送至标准收集器。另一种是轻量级的嵌入式追踪器,适用于不希望部署OpenTelemetry的团队。所有数据最终存储于同一位置,供训练使用。

在实验评估中,研究团队测试了三个任务:文本转SQL、检索增强生成和数学问答。文本转SQL任务基于Spider基准,涵盖超过10,000个问题和200个数据库。检索增强生成任务利用MuSiQue基准,基于包含2100万文档的维基百科规模索引。数学问答任务则使用Calc X数据集,涉及工具调用计算。每个任务的训练结果均显示了稳定的奖励提升。

论文链接:https://arxiv.org/abs/2508.03680v1

关键点:

– Agent Lightning是一个开源框架,可在不重构现有系统的情况下优化多代理系统。

– 该框架将代理建模为部分可观测的马尔可夫决策过程,提取干净的训练过渡数据。

– 实验表明,Agent Lightning在文本转SQL、检索增强生成和数学问答任务上均实现了显著的性能提升。

(以上内容均由Ai生成)

你可能还想读

英国民众广泛使用AI理财,Lloyds报告揭示趋势

英国民众广泛使用AI理财,Lloyds报告揭示趋势

快速阅读: 根据劳埃德消费者数字指数,过去一年约2880万英国成人使用AI管理财务,六成用户首选ChatGPT。AI助力投资、债务管理和财务规划,每周至少使用一次者占三成,平均每年节省399英镑。尽管如此,83%的用户担忧数据隐私,80%担 […]

发布时间:2025年11月3日
高通进军AI芯片市场,英伟达面临挑战

高通进军AI芯片市场,英伟达面临挑战

快速阅读: 亚马逊、谷歌和微软等数据中心巨头绕过英伟达,与博通、美满电子科技合作开发定制芯片。谷歌张量处理单元与博通共研,支持多平台,Anthropic成关键用户。 这并非英伟达在人工智能数据中心领域可被超越的唯一证据。像亚马逊、谷歌(隶属 […]

发布时间:2025年11月3日
沙特AI企业获巨额投资,目标成为全球第三大AI基础设施提供商

沙特AI企业获巨额投资,目标成为全球第三大AI基础设施提供商

快速阅读: 沙特阿拉伯利用主权财富基金支持人工智能公司Humain,目标成为全球第三大AI基础设施提供商。Humain与沙特阿美、AirTrunk及高通合作,面临阿联酋竞争和获取美国技术的挑战。 凭借近万亿美元的主权财富基金,沙特阿拉伯正在 […]

发布时间:2025年11月3日
苹果2026年推智能显示器,布局智能家居生态

苹果2026年推智能显示器,布局智能家居生态

快速阅读: 苹果计划2026年3月至4月启动智能家居战略,推出智能显示屏两种版本,与重大AI升级和改进Siri同步,旨在构建智能家居安全生态系统。 苹果在智能家居领域的尝试一直显得有些半生不熟,不是吗?HomePod虽然是一款出色的音箱,但 […]

发布时间:2025年11月3日
AI助力航运业转型,而非取代船员角色

AI助力航运业转型,而非取代船员角色

快速阅读: 全球网络攻击频发,国际航运商会调查指出网络攻击成航运业四大风险之一,引发对AI影响海员职业的担忧。但实际上,AI将通过自动化日常任务提升海员工作效率,而非取代岗位。 近期,全球各行业遭遇的网络攻击数量急剧增加。国际航运商会的最新 […]

发布时间:2025年11月3日
Getty Images与Perplexity合作,AI助力重塑竞争优势

Getty Images与Perplexity合作,AI助力重塑竞争优势

快速阅读: Perplexity与Getty Images达成全球许可协议,整合后者图片至AI搜索工具,提升用户体验,强调版权重要性。此合作可能重塑Getty投资前景,但AI法律风险犹存。 2025年10月31日,Perplexity宣布与 […]

发布时间:2025年11月3日
电子信息技术部计划出台新规,严管深度伪造与合成内容

电子信息技术部计划出台新规,严管深度伪造与合成内容

快速阅读: 电子信息技术部计划出台新法,规范深度伪造与合成内容,涵盖AI全领域,要求内容标注和验证,主要社交媒体平台需承担额外责任。 电子信息技术部(MeitY)计划出台新法律,以规范深度伪造和合成内容。该法律将涵盖人工智能及其应用的所有方 […]

发布时间:2025年11月3日
OpenAI CEO驳斥营收质疑,称公司收入远超130亿美元

OpenAI CEO驳斥营收质疑,称公司收入远超130亿美元

快速阅读: OpenAI CEO Sam Altman在播客中透露,公司年收入远超130亿美元,未来十年计划投资超1万亿美元于计算基础设施。面对资金质疑,Altman表示收入正快速增长,并不排除上市可能性。 近日,OpenAI首席执行官Sa […]

发布时间:2025年11月3日