昆仑元AI发布全模态融合模型，推动多领域技术进步

发布时间：2025年11月25日来源：szf

快速阅读: 昆仑元AI在2025世界计算大会上发布BaiZe-Omni-14b-a2b模型，具备强大文本、音频、图像和视频理解与生成能力，采用创新技术架构，训练数据丰富，性能优异，支持多语言及多模态生成。

在2025世界计算大会上，昆仑元AI正式发布了基于昇腾平台的全模态融合模型BaiZe-Omni-14b-a2b。这款新模型具有强大的文本、音频、图像和视频理解与生成能力，采用了创新技术架构，包括模态解耦编码、统一跨模态融合和双分支功能设计，旨在促进多模态应用的发展。

BaiZe-Omni-14b-a2b的设计流程清晰，涵盖输入处理、模态适配、跨模态融合、核心功能和输出解码等环节。为优化计算效率，该模型在MoE+TransformerX架构中引入了多线性注意力层和单层混合注意力聚合层，确保了大规模全模态应用的顺利实施。此外，模型的双分支设计使其在理解和生成能力上均表现出显著优势，能够有效处理10类任务，具备强大的多模态内容生成能力。

在模型训练过程中，昆仑元AI使用了丰富的高质量数据。训练数据包括超过3.57万亿token的文本数据、30万小时以上的音频数据、4亿张图像和超过40万小时的视频数据，确保了单模态数据的纯度和跨模态数据的对齐质量。通过差异化数据配比，模型在不同训练阶段均实现了性能的逐步提升。

在性能方面，BaiZe-Omni-14b-a2b在多模态理解的核心指标上表现出色，文本理解准确率达到了89.3%。在长序列处理场景中，该模型在32768token文本摘要任务上的ROUGE-L得分为0.521，显著高于行业主流模型GPT-4的0.487。此外，该模型还支持多语言文本生成以及图像、音频和视频的多模态生成，展示了其强大的综合能力。

**全模态能力**：BaiZe-Omni-14b-a2b具备强大的文本、音频、图像和视频理解与生成能力。

**性能突出**：模型在文本理解和长序列处理上表现优异，ROUGE-L得分显著领先同类模型。

**多领域应用**：该模型将为智能客服、内容创作等多个领域提供技术支持，推动AI技术的进步。

(以上内容均由Ai生成)