美团发布LongCat-Flash-Omni,引领全模态实时交互新纪元

发布时间:2025年11月3日    来源:szf
美团发布LongCat-Flash-Omni,引领全模态实时交互新纪元

快速阅读: 美团发布LongCat-Flash-Omni模型,采用ScMoE技术,实现低延迟实时音视频交互,参数达5600亿,性能优异,支持多模态应用场景,吸引大量开发者关注。

9月1日,美团正式发布了LongCat-Flash系列模型,并近期开源了LongCat-Flash-Chat和LongCat-Flash-Thinking两个版本,吸引了大量开发者的关注。今日,LongCat团队宣布推出全新成员——LongCat-Flash-Omni。这款模型在原有基础上实现了多项技术创新,标志着全模态实时交互新时代的到来。

LongCat-Flash-Omni基于LongCat-Flash系列的高效架构设计,采用了最新的Shortcut-Connected MoE(ScMoE)技术,集成了高效的多模态感知模块和语音重建模块。尽管模型总参数达到5600亿(激活参数270亿),仍能提供低延迟的实时音视频交互能力。这一突破为开发者提供了更为高效的多模态应用场景解决方案。

综合评估结果显示,LongCat-Flash-Omni在全模态基准测试中表现出色,达到了开源最先进水平(SOTA)。该模型在文本、图像、视频理解以及语音感知与生成等关键单模态任务中展现了强大的竞争力,实现了“全模态不降智”的目标。

LongCat-Flash-Omni采用了一体化的全模态架构,整合了离线多模态理解和实时音视频交互能力。其设计理念是完全端到端,使用视觉和音频编码器作为多模态感知器,能够直接生成文本和语音token,并通过轻量级音频解码器实现自然语音波形的重建,确保低延迟的实时交互。

此外,该模型引入了渐进式早期多模融合训练策略,以应对全模态模型训练中不同模态数据分布的异质性问题。这一策略确保了各模态间的有效协同,提升了模型的整体性能。

在具体性能测试中,LongCat-Flash-Omni在多个领域表现出色,尤其在文本理解和图像理解任务中,不仅没有出现性能下降,反而实现了显著提升。在音频和视频处理方面,该模型同样表现出色,特别是在实时音视频交互的自然度和流畅度上,领先于许多开源模型。

LongCat团队还为用户提供了新的体验渠道,用户可以通过官网体验图片、文件上传和语音通话功能。同时,LongCat官方App现已上线,支持网络搜索和语音通话,未来还将推出视频通话功能。

Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

Github: https://github.com/meituan-longcat/LongCat-Flash-Omni

(以上内容均由Ai生成)

你可能还想读

微软人工智能部门负责人苏莱曼:AI 只是一种工具,绝对不会有意识

微软人工智能部门负责人苏莱曼:AI 只是一种工具,绝对不会有意识

快速阅读: 微软AI部门负责人苏莱曼称AI无意识,仅为工具,观点与哲学家塞尔的“生物自然主义”相符,强调AI不会经历情感,反对追问AI意识问题。 IT之家 11 月 3 日消息,微软人工智能部门负责人穆斯塔法・苏莱曼昨天接受 CNBC 电视 […]

发布时间:2025年11月3日
苹果计划用谷歌Gemini模型升级Siri

苹果计划用谷歌Gemini模型升级Siri

快速阅读: 彭博社记者Mark Gurman爆料,苹果计划明年3月推出采用谷歌Gemini模型的新版Siri,具备AI驱动搜索功能,旨在提升用户体验和品牌声誉,将在苹果私有云服务器上运行。苹果预计明年6月全球开发者大会预览iOS 27等系统 […]

发布时间:2025年11月3日
Alphabet再赴欧洲发债,拟筹30亿欧元加码AI与云基建

Alphabet再赴欧洲发债,拟筹30亿欧元加码AI与云基建

快速阅读: 谷歌母公司Alphabet再次进入欧洲债券市场,发行六档欧元计价债券,总额至少30亿欧元,旨在支持AI与云基础设施投资,反映科技行业融资热潮。 IT之家11月3日消息,据彭博社报道,谷歌母公司Alphabet今年第二次重返欧洲债 […]

发布时间:2025年11月3日
AI 抢光内存产能,普通消费者升级电脑要多花大价钱

AI 抢光内存产能,普通消费者升级电脑要多花大价钱

快速阅读: 游戏玩家面临内存短缺与价格暴涨,AI需求导致三星等厂商调整生产,DDR5内存价格创纪录上涨,预计趋势持续至2026年。 IT之家 11 月 3 日消息,继显卡短缺之后,游戏玩家或将面临新一轮的内存短缺与价格暴涨。当前 DRAM […]

发布时间:2025年11月3日
明年起 5 纳米以下先进制程至少涨 3%?台积电回应称定价策略不以机会导向

明年起 5 纳米以下先进制程至少涨 3%?台积电回应称定价策略不以机会导向

快速阅读: 台积电宣布自2026年起对5纳米以下先进制程连续四年涨价,涨幅3%-5%,反映AI与HPC市场需求强劲及公司技术领导地位。 IT之家 11 月 3 日消息,近日全球领先的半导体制造企业台积电传出涨价消息,消息称台积电已从 9 月 […]

发布时间:2025年11月3日
消息称高通、联发科加速布局台积电 N2P 工艺,欲弯道超车苹果

消息称高通、联发科加速布局台积电 N2P 工艺,欲弯道超车苹果

快速阅读: 台积电N2工艺获苹果、高通、联发科青睐,A16制程明年3月试产,N2P工艺加速量产,助力AI终端与旗舰手机市场发展,预计2纳米工艺将成为市场稀缺资源。 IT之家 11 月 3 日消息,据《工商时报》今天报道,继苹果预定成为首批台 […]

发布时间:2025年11月3日
黄仁勋全球奔波“卖芯片”,英伟达市值一周暴增2.8万亿元

黄仁勋全球奔波“卖芯片”,英伟达市值一周暴增2.8万亿元

快速阅读: 英伟达市值一周内暴增近4000亿美元,成史上首家市值突破5万亿美元公司。CEO黄仁勋在GTC DC大会及APEC会议期间积极布局AI产业,宣布多项合作与投资,强化英伟达在全球AI领域的领导地位。 在经过忙碌的一周后,AI(人工智 […]

发布时间:2025年11月3日
OpenAI禁ChatGPT提供医疗法律财务建议

OpenAI禁ChatGPT提供医疗法律财务建议

快速阅读: OpenAI更新ChatGPT政策,禁止提供医疗、法律、财务专业建议,旨在规避监管风险和误导隐患,确保AI应用安全合规。此举受全球监管驱动,影响用户及行业生态。 OpenAI于10月29日正式更新ChatGPT使用政策,明确禁止 […]

发布时间:2025年11月3日