AI

微软发布140亿参数AI模型rStar2-Agent,性能超越大模型

发布时间:2025年9月8日    来源:szf
微软发布140亿参数AI模型rStar2-Agent,性能超越大模型

快速阅读: 微软开源rStar2-Agent模型,参数量140亿,数学推理测试准确率达80.6%,超6710亿参数DeepSeek-R1。模型在多项任务中展现强大泛化能力,微软在训练基础设施、算法及流程上创新,提升训练效率和性能。

微软近期在人工智能领域取得了显著进展,开源了一款名为 rStar2-Agent 的推理模型。该模型采用了创新的智能体强化学习技术,尽管参数量仅为140亿,却在 AIME24 数学推理测试中取得了80.6%的高准确率,超过了参数量达6710亿的 DeepSeek-R1(79.8%)。这一成果促使人们重新审视模型参数规模与性能的关系。

除了在数学推理任务上的卓越表现,rStar2-Agent 在其他领域也表现出色。在 GPQA-Diamond 科学推理基准测试中,该模型的准确率达到60.9%,优于 DeepSeek-V3的59.1%;在 BFCL v3 智能体工具使用任务中,其任务完成率为60.8%,同样高于 DeepSeek-V3的57.6%。这些数据显示,rStar2-Agent 在多种任务中展现出强大的泛化能力。

为了实现这一突破,微软在训练基础设施、算法及训练流程上进行了三项创新。首先,在基础设施方面,微软开发了一项高效的隔离式代码执行服务,能够迅速处理大量训练请求,支持每训练步骤高达4.5万次的并发工具调用,平均延迟仅为0.3秒。其次,微软提出了一种新的 GRPO-RoC 算法,通过优化奖励机制,提高了模型在推理过程中的准确性和效率。最后,rStar2-Agent 采用“非推理微调+多阶段强化学习”的训练流程,确保模型在各阶段都能持续提升性能。

这些技术革新不仅使 rStar2-Agent 在 AI Agent 领域脱颖而出,也为未来的智能体研究和应用指明了新方向。

开源地址: https://github.com/microsoft/rStar

划重点:

🌟 rStar2-Agent 模型参数量为140亿,在数学推理测试中达到80.6%的准确率,超过6710亿参数的 DeepSeek-R1。

🔧 微软在基础设施、算法和训练流程方面进行了创新,确保模型高效训练和卓越表现。

📊 rStar2-Agent 在科学推理和工具使用任务中表现出色,展示出强大的泛化能力。

(以上内容均由Ai生成)

你可能还想读

美国科技未来需投资人才与科研

美国科技未来需投资人才与科研

快速阅读: 据最新消息,美国政府拟持股英特尔10%,以强化半导体战略,但专家强调需同步加大基础科研投入并解决STEM人才短缺,方能维系科技领先地位。 近日,美国政府宣布将持有英特尔公司10%的股权,引发广泛关注。此举被视为对本国半导体制造业 […]

发布时间:2025年12月8日
康宁押注AI数据中心光纤需求激增

康宁押注AI数据中心光纤需求激增

快速阅读: 据康宁公司介绍,AI数据中心加速转向光纤互联,单节点集成72颗GPU,布线长达两英里;因算力激增与带宽需求,光通信将推动AI硬件生态结构性变革,市场或扩至三倍。 近日,人工智能硬件基础设施加速升级,数据中心内部连接技术正经历重要 […]

发布时间:2025年12月8日
智能体AI重塑政府与民众服务关系

智能体AI重塑政府与民众服务关系

快速阅读: 据最新消息,AI代理技术在能源、环保、医疗和教育等领域试点成效显著,提升地震解释准确率70%,优化垃圾清运与课程设置,推动公共服务向智能优化转型。 近日,人工智能代理技术在公共服务领域展现出显著应用潜力。今年1月,阿布扎比国家石 […]

发布时间:2025年12月8日
英警方呼吁中央统筹AI应用

英警方呼吁中央统筹AI应用

快速阅读: 据techUK发布消息称,英格兰和威尔士警方需建立中央统筹机制并加大投入,以释放AI在执法中的潜力,解决应用不均、数据质量及算法偏见等问题,推动全国协调与透明治理。 英国信息技术行业组织techUK近日发布报告指出,英格兰和威尔 […]

发布时间:2025年12月8日
Viam携手优傲机器人推AI自动化方案

Viam携手优傲机器人推AI自动化方案

快速阅读: 据最新消息,美国Viam公司与优傲机器人达成合作,基于UR系列协作机器人开发AI驱动的表面处理系统,已应用于船舶打磨,并拓展至家具、建筑等行业,推动制造智能化转型。 近日,美国纽约企业Viam宣布与泰瑞达集团旗下优傲机器人公司( […]

发布时间:2025年12月8日
AI智能体破解医疗沟通困局

AI智能体破解医疗沟通困局

快速阅读: 据最新消息,美国医疗系统因信息孤岛问题导致患者沟通受阻,AI智能体技术正通过代理式通信提升诊疗协同效率,企业Infinitus已推动该方案在随访与用药管理等场景落地。 近日,美国医疗系统在信息互通方面面临的严峻挑战引发广泛关注。 […]

发布时间:2025年12月8日
AI虚拟演员Tilly Norwood引行业争议

AI虚拟演员Tilly Norwood引行业争议

快速阅读: 据美联社报道,AI虚拟演员蒂莉·诺伍德由Particle6公司打造,旨在探索影视AI应用,团队正优化其自然表现并计划明年推出互动功能,但遭部分经纪公司抵制。 近日,人工智能虚拟演员“蒂莉·诺伍德”(Tilly Norwood)再 […]

发布时间:2025年12月8日
苹果硬件主管或离职,芯片业务面临巨变

苹果硬件主管或离职,芯片业务面临巨变

快速阅读: 据彭博社报道,苹果硬件技术主管斯鲁吉考虑离职,其主导自研M系列与A19 Pro芯片,深度支撑全系产品,潜在出走或重创苹果芯片优势并撼动行业格局。 据彭博社日前报道,苹果公司高级副总裁、硬件技术主管约翰尼·斯鲁吉正考虑离职。斯鲁吉 […]

发布时间:2025年12月8日