Meta推出AU-Nets模型革新文本处理技术

发布时间：2025年7月23日来源：szf

快速阅读: 据相关媒体报道，Meta推出AU-Net，解决中文文本分解难题。该架构基于自回归U-Net，从字节学习，灵活组合单词，提升模型表现。

据Meta公司报道，近日，该公司研究团队推出了一种名为AU-Net的创新架构，旨在解决大语言模型（LLM）领域中文本数据分解的难题。传统分词技术，如字节对编码，虽然广泛使用，但在处理低资源语言或特殊字符结构时效果不佳。AU-Net通过自回归的U-Net结构，直接从原始字节开始学习，灵活地将字节组合成单词和词组，甚至形成多达四个单词的组合，实现多层次的序列表示。

AU-Net的设计灵感来源于医学图像分割领域的U-Net架构，具备独特的收缩路径和扩张路径。收缩路径负责压缩输入的字节序列，将其合并为更高层次的语义单元，以提取文本的宏观语义。扩张路径则负责将这些高层次信息逐步还原，恢复到原始序列长度，同时融合局部细节，使模型能在不同层次上捕捉文本的关键特征。

AU-Net的收缩路径分为三个阶段。第一阶段，模型直接处理原始字节，使用限制注意力机制以保证计算的可行性。第二阶段，在单词边界处进行池化，将字节信息抽象为单词级的语义信息。第三阶段，池化操作在每两个单词之间进行，捕捉更大范围的语义信息，增强模型对文本含义的理解。

扩张路径采用多线性上采样的策略，使每个位置的向量能够根据序列中的相对位置进行调整，优化高层次信息和局部细节的融合。此外，跳跃连接的设计保证了在还原过程中不丢失重要的局部细节信息，从而提升模型的生成能力和预测准确性。

在推理阶段，AU-Net采取自回归的生成机制，确保生成的文本既连贯又准确，同时提高了推理效率。这一创新架构为大语言模型的发展提供了新的思路，展现了更强的灵活性和适用性。

(以上内容均由AI生成)