美团发布LongCat-Video，实现高质量长视频生成

发布时间：2025年10月27日来源：szf

快速阅读: 美团LongCat团队发布LongCat-Video，基于Diffusion Transformer架构，具备文本、图像生成视频及视频续写功能，可生成高质量长视频，支持自动驾驶等场景，显著提升创作效率。

今日，美团LongCat团队正式发布了全新视频生成模型——LongCat-Video。此模型以其精确重构真实世界运行状态的能力，标志着美团在探索“世界模型”领域的重大突破。“世界模型”是实现下一代人工智能的关键引擎，可帮助AI更好地理解、预测和重构现实世界的动态。

LongCat-Video基于先进的Diffusion Transformer（DiT）架构，整合了文本生成视频、图像生成视频及视频续写等核心功能。该创新模型通过设定“条件帧数量”，有效实现了任务的灵活区分，在不同输入条件下均能表现出优秀的生成能力。LongCat-Video在文本生成视频方面，可以输出720p、30fps的高清视频，具备开源领域领先的语义理解和视觉表现力。同时，图像生成视频功能可在动态过程中保持参考图像的属性与风格，展现自然流畅的运动效果。

最引人注目的是LongCat-Video的长视频生成能力。该模型经过视频续写的预训练，能够稳定输出长达5分钟的连贯长视频，同时避免色彩偏移、画质下降和动作断裂等常见问题。这一技术进步不仅提高了视频生成的质量，还为自动驾驶、具身智能等深度交互场景提供了坚实的技术支持。

在高效推理方面，LongCat-Video采用“两阶段粗到精生成”策略，结合块稀疏注意力（BSA）和模型蒸馏优化，显著提升了视频生成的速度和质量。模型的推理速度提高了10.1倍，确保在处理长视频时仍能保持高质量的生成效果。

LongCat-Video经过严格的内部和公开基准测试，展示了在文本对齐、视觉质量和运动质量等多个方面的卓越性能，综合能力达到当前开源领域的最先进水平。团队表示，LongCat-Video的发布将极大简化长视频的创作流程，使创作者能够从1秒的灵感迅速发展为5分钟的成品。

为了让更多人体验这一先进技术，美团已在GitHub和Hugging Face平台上发布了LongCat-Video的相关资源。该项目不仅为个人创作者提供了强大的工具，也向整个视频创作行业注入了新的活力。

LongCat-Video的发布，不仅是技术上的进步，也是美团在智能创作领域迈出的重要一步。随着该模型的广泛应用，未来的长视频创作将更加简便且充满创意。

(以上内容均由Ai生成)