Meta推出AU-Nets模型 革新文本处理技术
快速阅读: 据相关媒体报道,Meta推出AU-Net,解决中文文本分解难题。该架构基于自回归U-Net,从字节学习,灵活组合单词,提升模型表现。
据Meta公司报道,近日,该公司研究团队推出了一种名为AU-Net的创新架构,旨在解决大语言模型(LLM)领域中文本数据分解的难题。传统分词技术,如字节对编码,虽然广泛使用,但在处理低资源语言或特殊字符结构时效果不佳。AU-Net通过自回归的U-Net结构,直接从原始字节开始学习,灵活地将字节组合成单词和词组,甚至形成多达四个单词的组合,实现多层次的序列表示。
AU-Net的设计灵感来源于医学图像分割领域的U-Net架构,具备独特的收缩路径和扩张路径。收缩路径负责压缩输入的字节序列,将其合并为更高层次的语义单元,以提取文本的宏观语义。扩张路径则负责将这些高层次信息逐步还原,恢复到原始序列长度,同时融合局部细节,使模型能在不同层次上捕捉文本的关键特征。
AU-Net的收缩路径分为三个阶段。第一阶段,模型直接处理原始字节,使用限制注意力机制以保证计算的可行性。第二阶段,在单词边界处进行池化,将字节信息抽象为单词级的语义信息。第三阶段,池化操作在每两个单词之间进行,捕捉更大范围的语义信息,增强模型对文本含义的理解。
扩张路径采用多线性上采样的策略,使每个位置的向量能够根据序列中的相对位置进行调整,优化高层次信息和局部细节的融合。此外,跳跃连接的设计保证了在还原过程中不丢失重要的局部细节信息,从而提升模型的生成能力和预测准确性。
在推理阶段,AU-Net采取自回归的生成机制,确保生成的文本既连贯又准确,同时提高了推理效率。这一创新架构为大语言模型的发展提供了新的思路,展现了更强的灵活性和适用性。
(以上内容均由AI生成)