美团发布LongCat-Video,实现高质量长视频生成
快速阅读: 美团LongCat团队发布LongCat-Video,基于Diffusion Transformer架构,具备文本、图像生成视频及视频续写功能,可生成高质量长视频,支持自动驾驶等场景,显著提升创作效率。
今日,美团LongCat团队正式发布了全新视频生成模型——LongCat-Video。此模型以其精确重构真实世界运行状态的能力,标志着美团在探索“世界模型”领域的重大突破。“世界模型”是实现下一代人工智能的关键引擎,可帮助AI更好地理解、预测和重构现实世界的动态。
LongCat-Video基于先进的Diffusion Transformer(DiT)架构,整合了文本生成视频、图像生成视频及视频续写等核心功能。该创新模型通过设定“条件帧数量”,有效实现了任务的灵活区分,在不同输入条件下均能表现出优秀的生成能力。LongCat-Video在文本生成视频方面,可以输出720p、30fps的高清视频,具备开源领域领先的语义理解和视觉表现力。同时,图像生成视频功能可在动态过程中保持参考图像的属性与风格,展现自然流畅的运动效果。
最引人注目的是LongCat-Video的长视频生成能力。该模型经过视频续写的预训练,能够稳定输出长达5分钟的连贯长视频,同时避免色彩偏移、画质下降和动作断裂等常见问题。这一技术进步不仅提高了视频生成的质量,还为自动驾驶、具身智能等深度交互场景提供了坚实的技术支持。
在高效推理方面,LongCat-Video采用“两阶段粗到精生成”策略,结合块稀疏注意力(BSA)和模型蒸馏优化,显著提升了视频生成的速度和质量。模型的推理速度提高了10.1倍,确保在处理长视频时仍能保持高质量的生成效果。
LongCat-Video经过严格的内部和公开基准测试,展示了在文本对齐、视觉质量和运动质量等多个方面的卓越性能,综合能力达到当前开源领域的最先进水平。团队表示,LongCat-Video的发布将极大简化长视频的创作流程,使创作者能够从1秒的灵感迅速发展为5分钟的成品。
为了让更多人体验这一先进技术,美团已在GitHub和Hugging Face平台上发布了LongCat-Video的相关资源。该项目不仅为个人创作者提供了强大的工具,也向整个视频创作行业注入了新的活力。
LongCat-Video的发布,不仅是技术上的进步,也是美团在智能创作领域迈出的重要一步。随着该模型的广泛应用,未来的长视频创作将更加简便且充满创意。
(以上内容均由Ai生成)