小米AI新论文发布，雷军千万年薪挖角天才少女领衔

发布时间：2025年10月16日来源：szf

快速阅读: 小米与北京大学合作，在arXiv发表论文，提出Rollout Routing Replay (R3)新方法，解决MoE模型训练不稳定性，性能优于现有算法。论文通讯作者包括被誉为“天才少女”的罗福莉，其小米身份未明确标注。

10月14日，小米与北京大学联合署名的论文在arXiv上发表。值得注意的是，论文的通讯作者名单中出现了被誉为“天才少女”的罗福莉。罗福莉曾因被小米集团创始人兼CEO雷军以千万年薪邀请加入DeepSeek而备受关注，但此次论文中并未标注她隶属于小米大模型团队。

罗福莉，95后，本科毕业于北京师范大学计算机专业，硕士毕业于北京大学计算语言学研究所计算语言学专业。她在阿里巴巴达摩院期间，主导开发了多语言预训练模型VECO，并推动了AliceMind的开源工作。2022年，罗福莉加入DeepSeek，参与了MoE大模型DeepSeek-V2的研发。尽管小米曾以高薪挖角罗福莉的消息引发广泛关注，但双方至今未正式确认她的加入。

这篇论文提出了一种名为Rollout Routing Replay (R3)的新方法，旨在改善MoE模型的强化学习训练。实验结果显示，R3的整体性能优于GRPO、TIS等现有强化学习优化算法，且在整个训练过程中无崩盘现象，训练-推理KL散度始终保持低位，极端token比例也显著减少。

当前，强化学习已成为提升大型语言模型能力的关键技术。然而，在MoE模型中，路由机制往往导致训练不稳定，甚至引起强化学习训练崩溃。论文提出的方法R3，通过在序列生成期间捕获推理引擎的路由分布，并将其直接重放到训练引擎中，有效解决了这一问题。

R3的主要创新点在于：一、系统地识别和分析了MoE模型中训练与推理间的路由分布差异，揭示了这些差异在训练不稳定性中的作用；二、提出了Rollout Routing Replay技术，利用训练引擎内的推理时间路由分布，协调训练与推理的路由行为；三、将R3应用于多种强化学习设置下的MoE模型训练，展示了其在稳定性和性能上的优势。

具体而言，R3通过在训练前向传播过程中重用推理路由掩码，同时保持softmax应用于训练逻辑以维持梯度流，实现了训练与推理的对齐，以及梯度数据流的保留。此外，R3通过路由掩码缓存技术适应多轮对话场景，降低了计算开销，尤其在Agent任务中表现出较大的应用潜力。

研究人员使用Qwen3-30B-A3B模型验证了R3的有效性，结果显示，应用R3后，训练与推理间的KL散度显著降低，接近于密集模型的水平。R3不仅提高了模型的整体性能，还增强了训练的稳定性，优化了生成行为。

总之，针对MoE模型训练中的不稳定性问题，小米团队提出的R3提供了一个全新的解决方案，有望推动相关领域的进一步发展。

(以上内容均由Ai生成)