美团发布LongCat-Flash-Omni,引领全模态实时交互新纪元
快速阅读: 美团发布LongCat-Flash-Omni模型,采用ScMoE技术,实现低延迟实时音视频交互,参数达5600亿,性能优异,支持多模态应用场景,吸引大量开发者关注。
9月1日,美团正式发布了LongCat-Flash系列模型,并近期开源了LongCat-Flash-Chat和LongCat-Flash-Thinking两个版本,吸引了大量开发者的关注。今日,LongCat团队宣布推出全新成员——LongCat-Flash-Omni。这款模型在原有基础上实现了多项技术创新,标志着全模态实时交互新时代的到来。
LongCat-Flash-Omni基于LongCat-Flash系列的高效架构设计,采用了最新的Shortcut-Connected MoE(ScMoE)技术,集成了高效的多模态感知模块和语音重建模块。尽管模型总参数达到5600亿(激活参数270亿),仍能提供低延迟的实时音视频交互能力。这一突破为开发者提供了更为高效的多模态应用场景解决方案。
综合评估结果显示,LongCat-Flash-Omni在全模态基准测试中表现出色,达到了开源最先进水平(SOTA)。该模型在文本、图像、视频理解以及语音感知与生成等关键单模态任务中展现了强大的竞争力,实现了“全模态不降智”的目标。
LongCat-Flash-Omni采用了一体化的全模态架构,整合了离线多模态理解和实时音视频交互能力。其设计理念是完全端到端,使用视觉和音频编码器作为多模态感知器,能够直接生成文本和语音token,并通过轻量级音频解码器实现自然语音波形的重建,确保低延迟的实时交互。
此外,该模型引入了渐进式早期多模融合训练策略,以应对全模态模型训练中不同模态数据分布的异质性问题。这一策略确保了各模态间的有效协同,提升了模型的整体性能。
在具体性能测试中,LongCat-Flash-Omni在多个领域表现出色,尤其在文本理解和图像理解任务中,不仅没有出现性能下降,反而实现了显著提升。在音频和视频处理方面,该模型同样表现出色,特别是在实时音视频交互的自然度和流畅度上,领先于许多开源模型。
LongCat团队还为用户提供了新的体验渠道,用户可以通过官网体验图片、文件上传和语音通话功能。同时,LongCat官方App现已上线,支持网络搜索和语音通话,未来还将推出视频通话功能。
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
Github: https://github.com/meituan-longcat/LongCat-Flash-Omni
(以上内容均由Ai生成)