Qwen3-Omni 即将发布,多模态模型再升级
快速阅读: 阿里巴巴云发布Qwen3-Omni跨模态模型,支持多类型输入输出,已提交Hugging Face库,提升资源受限设备部署效率,采用Thinker-Talker双轨设计,适合实时交互。
阿里巴巴云 Qwen 团队即将正式发布最新的跨模态模型 Qwen3-Omni。据可靠消息,该模型已向 Hugging Face 的 Transformers 库提交了支持 PR,标志着这一端到端多模态 AI 系统的开源集成即将实现。这一进展基于 Qwen 系列的持续迭代,旨在进一步提升模型在资源受限设备上的部署效率。
Qwen3-Omni 是 Omni 系列的第三代产品,该系列以端到端架构著称,能够无缝处理文本、图像、音频和视频等多种输入模态,并生成文本和语音输出。与前代模型类似,Qwen3-Omni 采用 Thinker-Talker 双轨设计:Thinker 负责多模态输入的理解和高层表示生成,而 Talker 则实时合成自然语音。这种架构确保了模型在训练和推理过程中的高效流式处理,特别适用于实时交互场景。
(以上内容均由Ai生成)