字节跳动推出AgentGym-RL框架，强化LLM决策能力

发布时间：2025年9月11日来源：szf

快速阅读: 字节跳动Seed团队推出AgentGym-RL框架，通过强化学习训练LLM代理，提升决策能力。框架支持多场景应用，实验显示性能优于多个商业模型。

随着人工智能技术的不断进步，开发能够独立完成复杂任务的大规模语言模型（LLM）代理已成为研究热点。为了使这些代理像人类一样，通过探索和与环境互动来学习，研究人员需要一个强大且统一的强化学习（RL）框架。然而，当前的研究中仍缺乏一种有效的方法，能在多样化的实际环境中从零开始训练代理，而不依赖于监督微调（SFT）。

为解决这一问题，字节跳动Seed研究团队推出了一种名为AgentGym-RL的新框架，专注于通过强化学习训练LLM代理，使其能够进行多轮互动决策。该框架采用模块化和解耦的设计，提供了极高的灵活性和可扩展性。AgentGym-RL覆盖了多种实际应用场景，支持主流的强化学习算法，有助于代理全面提升决策能力。

为进一步优化训练效果，研究团队还提出了一种名为ScalingInter-RL的训练方法。这种方法通过阶段性调整交互次数，帮助代理在初期专注于掌握基本技能，之后逐步增加交互次数，鼓励采用更多样化的问题解决策略。这种探索与利用的平衡设计，有助于代理在面对复杂任务时保持稳定的学习和决策能力。

在实验中，研究者使用Qwen2.5-3B和Qwen2.5-7B作为基础模型，评估了AgentGym-RL和ScalingInter-RL在五个不同场景中的表现。结果显示，使用AgentGym-RL的代理在27个任务中表现出色，超过了多个商业模型。研究团队计划将整个AgentGym-RL框架，包括代码和数据集，开源，以支持更多研究者开发智能代理。

AgentGym-RL框架涵盖的场景包括网络导航、深度搜索、数字游戏、体感任务和科学实验等，代理在这些场景中需要具备强大的决策能力和适应能力，以完成复杂的任务。项目地址：https://agentgym-rl.github.io/ 关键点：AgentGym-RL框架提供了一种新方法，旨在通过强化学习训练大规模语言模型代理，提升其复杂任务的决策能力。ScalingInter-RL训练方法通过阶段性调整交互，帮助代理在训练中实现有效的探索与利用平衡。实验结果表明，AgentGym-RL框架显著提升了代理的表现，超越了多个商业模型，展现了与顶级专有大模型相当的能力。

(以上内容均由Ai生成)