美团发布LongCat-Flash-Omni,引领全模态实时交互新纪元

发布时间:2025年11月3日    来源:szf
美团发布LongCat-Flash-Omni,引领全模态实时交互新纪元

快速阅读: 美团发布LongCat-Flash-Omni模型,采用ScMoE技术,实现低延迟实时音视频交互,参数达5600亿,性能优异,支持多模态应用场景,吸引大量开发者关注。

9月1日,美团正式发布了LongCat-Flash系列模型,并近期开源了LongCat-Flash-Chat和LongCat-Flash-Thinking两个版本,吸引了大量开发者的关注。今日,LongCat团队宣布推出全新成员——LongCat-Flash-Omni。这款模型在原有基础上实现了多项技术创新,标志着全模态实时交互新时代的到来。

LongCat-Flash-Omni基于LongCat-Flash系列的高效架构设计,采用了最新的Shortcut-Connected MoE(ScMoE)技术,集成了高效的多模态感知模块和语音重建模块。尽管模型总参数达到5600亿(激活参数270亿),仍能提供低延迟的实时音视频交互能力。这一突破为开发者提供了更为高效的多模态应用场景解决方案。

综合评估结果显示,LongCat-Flash-Omni在全模态基准测试中表现出色,达到了开源最先进水平(SOTA)。该模型在文本、图像、视频理解以及语音感知与生成等关键单模态任务中展现了强大的竞争力,实现了“全模态不降智”的目标。

LongCat-Flash-Omni采用了一体化的全模态架构,整合了离线多模态理解和实时音视频交互能力。其设计理念是完全端到端,使用视觉和音频编码器作为多模态感知器,能够直接生成文本和语音token,并通过轻量级音频解码器实现自然语音波形的重建,确保低延迟的实时交互。

此外,该模型引入了渐进式早期多模融合训练策略,以应对全模态模型训练中不同模态数据分布的异质性问题。这一策略确保了各模态间的有效协同,提升了模型的整体性能。

在具体性能测试中,LongCat-Flash-Omni在多个领域表现出色,尤其在文本理解和图像理解任务中,不仅没有出现性能下降,反而实现了显著提升。在音频和视频处理方面,该模型同样表现出色,特别是在实时音视频交互的自然度和流畅度上,领先于许多开源模型。

LongCat团队还为用户提供了新的体验渠道,用户可以通过官网体验图片、文件上传和语音通话功能。同时,LongCat官方App现已上线,支持网络搜索和语音通话,未来还将推出视频通话功能。

Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

Github: https://github.com/meituan-longcat/LongCat-Flash-Omni

(以上内容均由Ai生成)

你可能还想读

校园安防技术效果存疑

校园安防技术效果存疑

快速阅读: 据校园安全杂志报道,布朗大学12月13日发生枪击事件,造成2人死亡、9人受伤,校方计划升级门禁与监控系统;专家质疑包括AI武器识别在内的40亿美元校园安防技术缺乏实证,强调“就地封锁”等基础应急措施更为有效。 2025年12月1 […]

发布时间:2025年12月19日
谷歌Gemini推绘图编辑与AI视频验证功能

谷歌Gemini推绘图编辑与AI视频验证功能

快速阅读: 据不完全统计,谷歌近日更新Gemini应用,新增图像标记指令功能,并将SynthID技术扩展至视频领域,以提升AI生成内容的可验证性与透明度,回应社会对生成式AI溯源的关切。 谷歌近日对Gemini应用推出两项更新,旨在提升用户 […]

发布时间:2025年12月19日
多模型协作提升智能合约审计效果

多模型协作提升智能合约审计效果

快速阅读: 据媒体报道,佐治亚理工学院团队提出LLMBugScanner框架,通过集成多个微调大语言模型协同检测以太坊智能合约漏洞,在108份真实合约测试中将准确率提升至约60%,显著优于单模型方案,为区块链安全审计提供新路径。 智能合约漏 […]

发布时间:2025年12月19日
商汤ACE机器人发布三大技术加速具身AI落地

商汤ACE机器人发布三大技术加速具身AI落地

快速阅读: 记者从商汤科技获悉,其旗下ACE Robotics于近日发布ACE具身研发范式、开源世界模型Kairos 3.0及A1具身超脑模块,构建全栈技术链路,支持115个行业场景,推动具身智能产业化发展。 2025年12月18日,商汤科 […]

发布时间:2025年12月19日
火山引擎发布豆包大模型1.8跻身全球多模态AI第一梯队

火山引擎发布豆包大模型1.8跻身全球多模态AI第一梯队

快速阅读: 据火山引擎消息,该公司在12月18日FORCE原动力大会上发布豆包大模型1.8及Seedance 1.5 Pro音视频模型。前者多模态能力全球领先,日均Token使用量突破50万亿;后者支持毫秒级音画同步与方言识别,企业用户可于 […]

发布时间:2025年12月19日
AI预测2026年全球趋势

AI预测2026年全球趋势

快速阅读: 最新消息显示,受传统智慧与现代趋势影响,2026年将聚焦调适与深耕;商业领域强调协作与绿色转型,地缘政治注重文化互信,体育及文化艺术则推崇平衡、真诚与内在力量。 2026年将是一个充满变革与机遇之年。受多重传统智慧视角启发,各方 […]

发布时间:2025年12月19日
奥里萨邦举办区域AI峰会聚焦可持续未来

奥里萨邦举办区域AI峰会聚焦可持续未来

快速阅读: 12月19日消息,印度奥里萨邦在布巴内斯瓦尔启动“2025区域人工智能影响力峰会”,聚焦可持续AI发展与政府治理应用。作为全国首个出台AI政策的地区,该邦正通过“奥里萨AI使命”推动AI在医疗、教育等场景落地,并加强本土人才培养 […]

发布时间:2025年12月19日
IBM将培训500万印度青年掌握AI等前沿技术

IBM将培训500万印度青年掌握AI等前沿技术

快速阅读: 据IBM公司消息,该公司将在印度启动大规模技能发展计划,目标到2030年为500万学习者提供人工智能、网络安全和量子计算等前沿技术培训,依托SkillsBuild平台推动数字教育普惠,并与全印技术教育委员会合作开展课程融合与师资 […]

发布时间:2025年12月19日