美团发布LongCat-Flash-Omni,引领全模态实时交互新纪元

发布时间:2025年11月3日    来源:szf
美团发布LongCat-Flash-Omni,引领全模态实时交互新纪元

快速阅读: 美团发布LongCat-Flash-Omni模型,采用ScMoE技术,实现低延迟实时音视频交互,参数达5600亿,性能优异,支持多模态应用场景,吸引大量开发者关注。

9月1日,美团正式发布了LongCat-Flash系列模型,并近期开源了LongCat-Flash-Chat和LongCat-Flash-Thinking两个版本,吸引了大量开发者的关注。今日,LongCat团队宣布推出全新成员——LongCat-Flash-Omni。这款模型在原有基础上实现了多项技术创新,标志着全模态实时交互新时代的到来。

LongCat-Flash-Omni基于LongCat-Flash系列的高效架构设计,采用了最新的Shortcut-Connected MoE(ScMoE)技术,集成了高效的多模态感知模块和语音重建模块。尽管模型总参数达到5600亿(激活参数270亿),仍能提供低延迟的实时音视频交互能力。这一突破为开发者提供了更为高效的多模态应用场景解决方案。

综合评估结果显示,LongCat-Flash-Omni在全模态基准测试中表现出色,达到了开源最先进水平(SOTA)。该模型在文本、图像、视频理解以及语音感知与生成等关键单模态任务中展现了强大的竞争力,实现了“全模态不降智”的目标。

LongCat-Flash-Omni采用了一体化的全模态架构,整合了离线多模态理解和实时音视频交互能力。其设计理念是完全端到端,使用视觉和音频编码器作为多模态感知器,能够直接生成文本和语音token,并通过轻量级音频解码器实现自然语音波形的重建,确保低延迟的实时交互。

此外,该模型引入了渐进式早期多模融合训练策略,以应对全模态模型训练中不同模态数据分布的异质性问题。这一策略确保了各模态间的有效协同,提升了模型的整体性能。

在具体性能测试中,LongCat-Flash-Omni在多个领域表现出色,尤其在文本理解和图像理解任务中,不仅没有出现性能下降,反而实现了显著提升。在音频和视频处理方面,该模型同样表现出色,特别是在实时音视频交互的自然度和流畅度上,领先于许多开源模型。

LongCat团队还为用户提供了新的体验渠道,用户可以通过官网体验图片、文件上传和语音通话功能。同时,LongCat官方App现已上线,支持网络搜索和语音通话,未来还将推出视频通话功能。

Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

Github: https://github.com/meituan-longcat/LongCat-Flash-Omni

(以上内容均由Ai生成)

你可能还想读

IBM计划2030年前培训500万印度青年掌握AI等技能

IBM计划2030年前培训500万印度青年掌握AI等技能

快速阅读: 据IBM消息,该公司计划到2030年为印度500万名学习者提供人工智能、网络安全及量子计算等技能培训,依托SkillsBuild平台并与AICTE等机构合作,覆盖中小学至职业教育体系,以提升青年就业能力并推动国家数字竞争力。 1 […]

发布时间:2025年12月20日
Gemini新增AI视频检测功能

Gemini新增AI视频检测功能

快速阅读: 据谷歌消息,其AI助手Gemini现已支持识别含SynthID水印的AI生成视频,可标注水印位置,但仅限100MB或90秒内的短内容,且无法检测未使用该水印技术的视频。 谷歌近日宣布,其人工智能助手Gemini已具备识别AI生成 […]

发布时间:2025年12月20日
OpenAI计划融资1000亿美元

OpenAI计划融资1000亿美元

快速阅读: 据华尔街日报报道,OpenAI正推进最高1000亿美元的融资谈判,估值或达8300亿美元。所筹资金将用于全球AI技术部署及覆盖激增的推理计算支出,计划于2026年一季度前完成,并筹备IPO,同时寻求亚马逊100亿美元投资以换取A […]

发布时间:2025年12月20日
苹果AirPods新增实时翻译功能

苹果AirPods新增实时翻译功能

快速阅读: 据苹果公司消息,iOS 26.2新增AirPods实时翻译功能,支持九种语言互译,虽存在延迟与语种切换限制,但在简单场景下仍具实用价值。此外,系统后台代码意外曝光,或暗示新品筹备中。 今年秋季,苹果公司为iOS 26系统中的“实 […]

发布时间:2025年12月20日
多地社区抵制数据中心项目并取得成效

多地社区抵制数据中心项目并取得成效

快速阅读: 据《时代》杂志报道,其委托田纳西大学诺克斯维尔分校开展的研究显示,xAI公司位于孟菲斯的数据中心自2024年运营以来,周边二氧化氮浓度峰值上升79%,引发环保组织与居民对空气污染及公共健康的担忧,并面临潜在诉讼。 其他正在推进或 […]

发布时间:2025年12月20日
亚马逊推网页版Alexa+对标ChatGPT

亚马逊推网页版Alexa+对标ChatGPT

快速阅读: 12月20日消息,亚马逊推出新一代Alexa+助手网页版,用户可通过浏览器访问Alexa.com使用聊天机器人式界面。此举使该服务摆脱对Echo设备和语音交互的依赖,操作方式更接近ChatGPT等工具,但部分高级功能仍限区域或账 […]

发布时间:2025年12月20日
上海民办学校推进小班化与智能评价

上海民办学校推进小班化与智能评价

快速阅读: 截至发稿时,上海市民办中小学协会举办成立20周年思享荟,近300名教育界人士共商高质量发展路径。受人口结构变化与人工智能影响,专家呼吁民办教育转向内涵提升,强化个性化育人、教师队伍建设和智慧校园发展,以回应“上好学”需求。 12 […]

发布时间:2025年12月20日
商务部部长会见AMD CEO苏姿丰

商务部部长会见AMD CEO苏姿丰

快速阅读: 据媒体报道,AMD首席执行官苏姿丰近日访华,先后会见中国商务部和工信部负责人,就深化在华合作、加大投资及推动人工智能与数字经济发展交换意见,并参观联想总部展示的前沿技术成果。 12月18日,商务部部长王文涛在北京会见美国超威半导 […]

发布时间:2025年12月20日