微软14B模型挑战巨型AI，智能体强化学习革新数学推理

发布时间：2025年9月8日来源：szf

快速阅读: 微软开源rStar2-Agent模型，140亿参数，创新智能体强化学习技术，多项数学测试超越6710亿参数模型，训练效率高，响应快，泛化能力强。

微软研究院开源的rStar2-Agent模型在AI数学推理领域引起广泛关注。这款拥有140亿参数的模型，通过创新的智能体强化学习技术，在多项数学基准测试中超越了参数量达6710亿的DeepSeek-R1模型。

rStar2-Agent的核心创新点在于放弃了传统的思维链方法，转而采用智能体交互机制。该模型能够自主规划推理过程，调用Python代码执行工具进行验证，并根据反馈调整推理步骤，有效避免了传统CoT方法中常见的错误累积问题。

在美国权威的数学邀请赛基准测试中，rStar2-Agent表现出色。在AIME24数据集上，其pass@1准确率达到80.6%，超过DeepSeek-R1的79.8%、o3-mini的79.6%和Claude Opus4.0的77.0%。在AIME25测试中，准确率为69.8%；在HMMT25测试中，准确率达到了52.7%。

值得注意的是，rStar2-Agent的响应长度显著较短。在AIME24测试中，平均约9340个token；在AIME25测试中，约为10943个token，仅为DeepSeek-R1的一半左右，展现了更高的推理效率。

在训练效率方面，该模型仅需一周时间完成510个强化学习步骤，使用64块MI300X GPU即可完成训练。其强化学习基础设施支持每步高达4.5万个并发工具调用，平均延迟仅为0.3秒。

模型引入了GRPO-RoC算法，用于处理代码执行中的环境噪声问题，通过“正确时重采样”策略保留高质量推理轨迹，提高了训练效果。

在泛化能力方面，rStar2-Agent在GPQA-Diamond科学推理基准上优于DeepSeek-V3，在BFCL v3工具使用任务及IFEval、Arena-Hard等通用测试中也有良好表现，显示了智能体强化学习对通用能力的积极影响。

微软已将rStar2-Agent的代码和训练方法开源，基于VERL框架实现了多阶段强化学习训练。这一突破表明，通过智能的训练策略，小型模型能够在特定任务上匹敌大型模型的表现，为资源有限的研究者和开发者提供了新的可能性。

这一成果挑战了“参数越多性能越好”的传统观念，证明了训练方法和架构创新在AI发展中的重要性。对于AI行业而言，这可能意味着未来的发展将更加注重效率和专用性，而非单纯追求模型规模。

项目地址：https://github.com/microsoft/rStar

(以上内容均由Ai生成)

微软14B模型挑战巨型AI，智能体强化学习革新数学推理

你可能还想读

芯纬内部人士抛售超10亿美元股票引发警报

升腾首席分析与AI官：用数学背景解决医疗问题

格拉斯利宣布法官使用AI致法庭命令出错，实施新政

AI视频生成系统不断进步，ChatGPT创始人更新发展计划

美法官承认职员用AI起草错误命令

ChatGPT遭遇重大故障，用户报告服务中断

OpenAI推新浏览器Atlas，挑战Google Chrome

ChatGPT短暂故障后恢复，医疗咨询模式引关注