美团开源SOTA虚拟人视频生成模型
快速阅读: 记者从美团获悉,其LongCat团队开源发布了LongCat-Video-Avatar视频生成模型,聚焦长视频生成,在动作拟真度、身份一致性及唇音同步等方面实现显著提升,支持多任务生成,并通过隐空间特征替换缓解画质退化,已在多个权威数据集达到最优水平。
近日,美团旗下LongCat团队开源发布了最新视频生成模型LongCat-Video-Avatar,标志着虚拟人技术取得新进展。该模型聚焦长视频生成,在动作拟真度、视频稳定性及身份一致性方面较前代产品显著提升,引发开发者广泛关注。
LongCat-Video-Avatar延续“一个模型支持多任务”的设计理念,原生支持音频文本转视频(AT2V)、音频文本图像转视频(ATI2V)以及视频续写等功能。其核心创新在于采用Cross-Chunk Latent Stitching训练策略,通过隐空间特征替换,有效缓解长视频生成中的画质退化问题,并提升生成效率。
为保障角色一致性,该模型引入带位置编码的参考帧注入模式与Reference Skip Attention机制。此举不仅稳定了身份语义表达,还避免了动作重复与僵化等常见问题。
在HDTF、CelebV-HQ、EMTD和EvalTalker等权威公开数据集的评测中,LongCat-Video-Avatar多项指标达到当前最优水平,尤其在唇音同步精度与一致性方面表现突出。大规模人工评测也显示,其生成内容在自然度与真实感上获得良好反馈。
LongCat团队表示,此次发布旨在解决开发者在长视频生成中的实际难题,并坚持开源理念,期待通过社区协作持续优化技术。目前,开发者可通过GitHub、Hugging Face等平台获取该模型,探索个性化数字内容创作的新路径。
(以上内容均由Ai生成)
引用自:AIbase人工智能资讯网站