DeepMind推出MoR架构大幅提升大模型效率

发布时间：2025年7月17日来源：szf

快速阅读: 相关媒体消息，谷歌DeepMind推出MoR架构，通过递归和参数共享降低计算成本，提升效率。实验显示其在少样本学习中表现优异，参数减半仍保持高性能。

据谷歌 DeepMind 最新发布的信息，近日，该公司推出了一种名为“递归混合”（Mixture-of-Recursions, MoR）的新架构，旨在解决大型语言模型（LLM）在部署时面临的计算和内存开销问题。MoR 架构基于递归 Transformer 进行了创新，实现了参数共享和自适应计算，能够在不增加模型成本的情况下，提供与大型模型相当的性能。

MoR 通过轻量级路由系统，为每个 token 动态分配递归深度，从而有效分配计算资源，提升处理效率。具体来说，该架构采用了一种先进的缓存机制，根据 token 的递归深度选择性地缓存和检索相关键值对，显著降低了内存带宽压力，提高了推理吞吐量。此外，MoR 通过多项优化措施，如参数共享、计算路由和递归级缓存，大幅减少了参数量，降低了计算开销。

实验结果显示，在相同计算预算下，MoR 以更少的参数数量超越了原始 Transformer 和递归 Transformer，特别是在少样本学习的平均准确率上表现优异。即使参数量减少近50%，MoR 仍能保持较高的性能。研究人员发现，MoR 在不同计算预算下始终优于递归基线模型，尤其在模型规模超过360M 时，不仅能够追平原始 Transformer，还在低至中等预算下经常超越对手。

MoR 架构的推出为大型语言模型的高效化提供了新的解决方案，预示着 AI 研究领域的又一重要突破。随着 AI 技术的不断发展，MoR 被视为一种可扩展且高效的替代方案，适合用于大规模的预训练和部署。

(以上内容均由AI生成)