美团开源SOTA虚拟人视频生成模型

发布时间：2025年12月19日来源：szf

快速阅读: 记者从美团获悉，其LongCat团队开源发布了LongCat-Video-Avatar视频生成模型，聚焦长视频生成，在动作拟真度、身份一致性及唇音同步等方面实现显著提升，支持多任务生成，并通过隐空间特征替换缓解画质退化，已在多个权威数据集达到最优水平。

近日，美团旗下LongCat团队开源发布了最新视频生成模型LongCat-Video-Avatar，标志着虚拟人技术取得新进展。该模型聚焦长视频生成，在动作拟真度、视频稳定性及身份一致性方面较前代产品显著提升，引发开发者广泛关注。

LongCat-Video-Avatar延续“一个模型支持多任务”的设计理念，原生支持音频文本转视频（AT2V）、音频文本图像转视频（ATI2V）以及视频续写等功能。其核心创新在于采用Cross-Chunk Latent Stitching训练策略，通过隐空间特征替换，有效缓解长视频生成中的画质退化问题，并提升生成效率。

为保障角色一致性，该模型引入带位置编码的参考帧注入模式与Reference Skip Attention机制。此举不仅稳定了身份语义表达，还避免了动作重复与僵化等常见问题。

在HDTF、CelebV-HQ、EMTD和EvalTalker等权威公开数据集的评测中，LongCat-Video-Avatar多项指标达到当前最优水平，尤其在唇音同步精度与一致性方面表现突出。大规模人工评测也显示，其生成内容在自然度与真实感上获得良好反馈。

LongCat团队表示，此次发布旨在解决开发者在长视频生成中的实际难题，并坚持开源理念，期待通过社区协作持续优化技术。目前，开发者可通过GitHub、Hugging Face等平台获取该模型，探索个性化数字内容创作的新路径。

(以上内容均由Ai生成)

引用自：AIbase人工智能资讯网站