mmBERT超越XLM-R，速度提升2至4倍，支持8192令牌输入

发布时间：2025年9月11日来源：szf

快速阅读: 约翰霍普金斯大学推出mmBERT多语种编码器，超越XLM-R，速度提升2-4倍，支持1833种语言，特别提升低资源语言表现，奠定下一代多语种处理基础。

近日，约翰霍普金斯大学的研究团队推出了一款名为 mmBERT 的新型多语种编码器，旨在弥补当前多语种自然语言处理领域的不足。该模型在多个任务上的表现超过了 XLM-R，并且在速度上比之前的模型提升了2到4倍，为多语种应用的研究和开发提供了强有力的支持。

mmBERT 的架构有两种主要配置：基础模型和小型模型。基础模型有22层变换器，隐藏层维度为1152，总参数量约为3.07亿；小型模型的参数量则为1.4亿。mmBERT 采用了先进的 Gemma2 分词器，支持256k 的词汇量，通过旋转位置嵌入（RoPE）和 FlashAttention2 技术，显著提高了处理效率。此外，该模型的序列长度从1024个令牌扩展到8192个令牌，能够处理更长的上下文信息。

在训练数据方面，mmBERT 使用了来自多个来源的3万亿个令牌，涵盖了1833种语言。其中，英语在整个语料库中占比10%至34%。训练过程分为三个阶段：预训练、中间训练和衰减阶段。在每个阶段，模型逐渐接触到更多语言和更高质量的数据，这种方法有助于提升低资源语言的表现。

mmBERT 在多个基准测试中展示了出色的性能。在英语自然语言理解（GLUE）任务中，mmBERT 基础模型得分86.3，超过 XLM-R 的83.3；在多语种自然语言理解（XTREME）任务中，mmBERT 得分72.8，高于 XLM-R 的70.4。此外，mmBERT 在嵌入任务和代码检索任务中也表现出色，显示了其在多种应用场景中的潜力。

通过特别关注低资源语言，mmBERT 确保这些语言在训练过程中得到充分利用。在多项基准测试中，mmBERT 在法罗语和提格雷尼亚语等低资源语言上的表现优于其他大型模型，证明了经过精心训练的编码器模型可以有效应对低资源场景的挑战。

mmBERT 不仅提升了多语种处理的速度和效率，还为下一代多语种自然语言处理系统奠定了坚实的基础。它以高效、开放的方式重新定义了多语种编码器的潜力，标志着一个新时代的到来。

(以上内容均由Ai生成)