微软发布140亿参数AI模型rStar2-Agent,性能超越大模型
快速阅读: 微软开源rStar2-Agent模型,参数量140亿,数学推理测试准确率达80.6%,超6710亿参数DeepSeek-R1。模型在多项任务中展现强大泛化能力,微软在训练基础设施、算法及流程上创新,提升训练效率和性能。
微软近期在人工智能领域取得了显著进展,开源了一款名为 rStar2-Agent 的推理模型。该模型采用了创新的智能体强化学习技术,尽管参数量仅为140亿,却在 AIME24 数学推理测试中取得了80.6%的高准确率,超过了参数量达6710亿的 DeepSeek-R1(79.8%)。这一成果促使人们重新审视模型参数规模与性能的关系。
除了在数学推理任务上的卓越表现,rStar2-Agent 在其他领域也表现出色。在 GPQA-Diamond 科学推理基准测试中,该模型的准确率达到60.9%,优于 DeepSeek-V3的59.1%;在 BFCL v3 智能体工具使用任务中,其任务完成率为60.8%,同样高于 DeepSeek-V3的57.6%。这些数据显示,rStar2-Agent 在多种任务中展现出强大的泛化能力。
为了实现这一突破,微软在训练基础设施、算法及训练流程上进行了三项创新。首先,在基础设施方面,微软开发了一项高效的隔离式代码执行服务,能够迅速处理大量训练请求,支持每训练步骤高达4.5万次的并发工具调用,平均延迟仅为0.3秒。其次,微软提出了一种新的 GRPO-RoC 算法,通过优化奖励机制,提高了模型在推理过程中的准确性和效率。最后,rStar2-Agent 采用“非推理微调+多阶段强化学习”的训练流程,确保模型在各阶段都能持续提升性能。
这些技术革新不仅使 rStar2-Agent 在 AI Agent 领域脱颖而出,也为未来的智能体研究和应用指明了新方向。
开源地址: https://github.com/microsoft/rStar
划重点:
🌟 rStar2-Agent 模型参数量为140亿,在数学推理测试中达到80.6%的准确率,超过6710亿参数的 DeepSeek-R1。
🔧 微软在基础设施、算法和训练流程方面进行了创新,确保模型高效训练和卓越表现。
📊 rStar2-Agent 在科学推理和工具使用任务中表现出色,展示出强大的泛化能力。
(以上内容均由Ai生成)