小米AI新论文发布,雷军千万年薪挖角天才少女领衔
快速阅读: 小米与北京大学合作,在arXiv发表论文,提出Rollout Routing Replay (R3)新方法,解决MoE模型训练不稳定性,性能优于现有算法。论文通讯作者包括被誉为“天才少女”的罗福莉,其小米身份未明确标注。
10月14日,小米与北京大学联合署名的论文在arXiv上发表。值得注意的是,论文的通讯作者名单中出现了被誉为“天才少女”的罗福莉。罗福莉曾因被小米集团创始人兼CEO雷军以千万年薪邀请加入DeepSeek而备受关注,但此次论文中并未标注她隶属于小米大模型团队。
罗福莉,95后,本科毕业于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所计算语言学专业。她在阿里巴巴达摩院期间,主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作。2022年,罗福莉加入DeepSeek,参与了MoE大模型DeepSeek-V2的研发。尽管小米曾以高薪挖角罗福莉的消息引发广泛关注,但双方至今未正式确认她的加入。
这篇论文提出了一种名为Rollout Routing Replay (R3)的新方法,旨在改善MoE模型的强化学习训练。实验结果显示,R3的整体性能优于GRPO、TIS等现有强化学习优化算法,且在整个训练过程中无崩盘现象,训练-推理KL散度始终保持低位,极端token比例也显著减少。
当前,强化学习已成为提升大型语言模型能力的关键技术。然而,在MoE模型中,路由机制往往导致训练不稳定,甚至引起强化学习训练崩溃。论文提出的方法R3,通过在序列生成期间捕获推理引擎的路由分布,并将其直接重放到训练引擎中,有效解决了这一问题。
R3的主要创新点在于:一、系统地识别和分析了MoE模型中训练与推理间的路由分布差异,揭示了这些差异在训练不稳定性中的作用;二、提出了Rollout Routing Replay技术,利用训练引擎内的推理时间路由分布,协调训练与推理的路由行为;三、将R3应用于多种强化学习设置下的MoE模型训练,展示了其在稳定性和性能上的优势。
具体而言,R3通过在训练前向传播过程中重用推理路由掩码,同时保持softmax应用于训练逻辑以维持梯度流,实现了训练与推理的对齐,以及梯度数据流的保留。此外,R3通过路由掩码缓存技术适应多轮对话场景,降低了计算开销,尤其在Agent任务中表现出较大的应用潜力。
研究人员使用Qwen3-30B-A3B模型验证了R3的有效性,结果显示,应用R3后,训练与推理间的KL散度显著降低,接近于密集模型的水平。R3不仅提高了模型的整体性能,还增强了训练的稳定性,优化了生成行为。
总之,针对MoE模型训练中的不稳定性问题,小米团队提出的R3提供了一个全新的解决方案,有望推动相关领域的进一步发展。
(以上内容均由Ai生成)