字节跳动推出AgentGym-RL框架,强化LLM决策能力
快速阅读: 字节跳动Seed团队推出AgentGym-RL框架,通过强化学习训练LLM代理,提升决策能力。框架支持多场景应用,实验显示性能优于多个商业模型。
随着人工智能技术的不断进步,开发能够独立完成复杂任务的大规模语言模型(LLM)代理已成为研究热点。为了使这些代理像人类一样,通过探索和与环境互动来学习,研究人员需要一个强大且统一的强化学习(RL)框架。然而,当前的研究中仍缺乏一种有效的方法,能在多样化的实际环境中从零开始训练代理,而不依赖于监督微调(SFT)。
为解决这一问题,字节跳动Seed研究团队推出了一种名为AgentGym-RL的新框架,专注于通过强化学习训练LLM代理,使其能够进行多轮互动决策。该框架采用模块化和解耦的设计,提供了极高的灵活性和可扩展性。AgentGym-RL覆盖了多种实际应用场景,支持主流的强化学习算法,有助于代理全面提升决策能力。
为进一步优化训练效果,研究团队还提出了一种名为ScalingInter-RL的训练方法。这种方法通过阶段性调整交互次数,帮助代理在初期专注于掌握基本技能,之后逐步增加交互次数,鼓励采用更多样化的问题解决策略。这种探索与利用的平衡设计,有助于代理在面对复杂任务时保持稳定的学习和决策能力。
在实验中,研究者使用Qwen2.5-3B和Qwen2.5-7B作为基础模型,评估了AgentGym-RL和ScalingInter-RL在五个不同场景中的表现。结果显示,使用AgentGym-RL的代理在27个任务中表现出色,超过了多个商业模型。研究团队计划将整个AgentGym-RL框架,包括代码和数据集,开源,以支持更多研究者开发智能代理。
AgentGym-RL框架涵盖的场景包括网络导航、深度搜索、数字游戏、体感任务和科学实验等,代理在这些场景中需要具备强大的决策能力和适应能力,以完成复杂的任务。项目地址:https://agentgym-rl.github.io/ 关键点:AgentGym-RL框架提供了一种新方法,旨在通过强化学习训练大规模语言模型代理,提升其复杂任务的决策能力。ScalingInter-RL训练方法通过阶段性调整交互,帮助代理在训练中实现有效的探索与利用平衡。实验结果表明,AgentGym-RL框架显著提升了代理的表现,超越了多个商业模型,展现了与顶级专有大模型相当的能力。
(以上内容均由Ai生成)