Qwen3-Omni 即将发布，多模态模型再升级

发布时间：2025年9月22日来源：szf

快速阅读: 阿里巴巴云发布Qwen3-Omni跨模态模型，支持多类型输入输出，已提交Hugging Face库，提升资源受限设备部署效率，采用Thinker-Talker双轨设计，适合实时交互。

阿里巴巴云 Qwen 团队即将正式发布最新的跨模态模型 Qwen3-Omni。据可靠消息，该模型已向 Hugging Face 的 Transformers 库提交了支持 PR，标志着这一端到端多模态 AI 系统的开源集成即将实现。这一进展基于 Qwen 系列的持续迭代，旨在进一步提升模型在资源受限设备上的部署效率。

Qwen3-Omni 是 Omni 系列的第三代产品，该系列以端到端架构著称，能够无缝处理文本、图像、音频和视频等多种输入模态，并生成文本和语音输出。与前代模型类似，Qwen3-Omni 采用 Thinker-Talker 双轨设计：Thinker 负责多模态输入的理解和高层表示生成，而 Talker 则实时合成自然语音。这种架构确保了模型在训练和推理过程中的高效流式处理，特别适用于实时交互场景。

(以上内容均由Ai生成)