微软发布140亿参数AI模型rStar2-Agent，性能超越大模型

发布时间：2025年9月8日来源：szf

快速阅读: 微软开源rStar2-Agent模型，参数量140亿，数学推理测试准确率达80.6%，超6710亿参数DeepSeek-R1。模型在多项任务中展现强大泛化能力，微软在训练基础设施、算法及流程上创新，提升训练效率和性能。

微软近期在人工智能领域取得了显著进展，开源了一款名为 rStar2-Agent 的推理模型。该模型采用了创新的智能体强化学习技术，尽管参数量仅为140亿，却在 AIME24 数学推理测试中取得了80.6%的高准确率，超过了参数量达6710亿的 DeepSeek-R1（79.8%）。这一成果促使人们重新审视模型参数规模与性能的关系。

除了在数学推理任务上的卓越表现，rStar2-Agent 在其他领域也表现出色。在 GPQA-Diamond 科学推理基准测试中，该模型的准确率达到60.9%，优于 DeepSeek-V3的59.1%；在 BFCL v3 智能体工具使用任务中，其任务完成率为60.8%，同样高于 DeepSeek-V3的57.6%。这些数据显示，rStar2-Agent 在多种任务中展现出强大的泛化能力。

为了实现这一突破，微软在训练基础设施、算法及训练流程上进行了三项创新。首先，在基础设施方面，微软开发了一项高效的隔离式代码执行服务，能够迅速处理大量训练请求，支持每训练步骤高达4.5万次的并发工具调用，平均延迟仅为0.3秒。其次，微软提出了一种新的 GRPO-RoC 算法，通过优化奖励机制，提高了模型在推理过程中的准确性和效率。最后，rStar2-Agent 采用“非推理微调+多阶段强化学习”的训练流程，确保模型在各阶段都能持续提升性能。

这些技术革新不仅使 rStar2-Agent 在 AI Agent 领域脱颖而出，也为未来的智能体研究和应用指明了新方向。

开源地址: https://github.com/microsoft/rStar

划重点:

🌟 rStar2-Agent 模型参数量为140亿，在数学推理测试中达到80.6%的准确率，超过6710亿参数的 DeepSeek-R1。

🔧 微软在基础设施、算法和训练流程方面进行了创新，确保模型高效训练和卓越表现。

📊 rStar2-Agent 在科学推理和工具使用任务中表现出色，展示出强大的泛化能力。

(以上内容均由Ai生成)