腾讯发布HunyuanVideo1.5,大幅降低视频创作门槛
快速阅读: 腾讯发布HunyuanVideo1.5视频生成模型,基于Diffusion Transformer架构,参数量8.3亿,支持文生视频、图像转视频,兼容中英文,展现高指令理解力和执行能力,部署门槛低,适用于消费级显卡。
今日,腾讯混元大模型团队正式发布了最新视频生成模型HunyuanVideo1.5,标志着视频生成技术取得重要突破。该模型基于Diffusion Transformer(DiT)架构,参数量达8.3亿,可生成5至10秒的高清视频,已在腾讯的“元宝”平台上线,供用户体验。
HunyuanVideo1.5支持多种生成方式,用户可通过输入文字描述实现“文生视频”,也可上传图片与文字结合,轻松将静态图像转为动态视频。此技术不仅满足了中英文输入需求,还展示了图像与视频的高度一致性,确保生成视频在色调、光影、场景、主体及细节等方面与原图高度匹配。
在实际应用中,用户可根据提示词生成复杂场景。例如,一条提示词描述了一只手提箱内如何长出迷你英式花园,模型能够准确呈现这一过程,展现出高水平的指令理解和执行能力。此外,HunyuanVideo1.5支持写实、动画等多种风格,并能在视频中生成中英文文字,极大丰富了内容创作的可能性。
技术方面,HunyuanVideo1.5采用了创新的SSTA稀疏注意力机制,显著提升了推理效率,并结合多阶段渐进式训练策略,在运动连贯性和语义遵循等关键维度达到商用水平。该模型的部署门槛大幅降低,只需14G显存的消费级显卡即可流畅运行,让每位开发者和创作者都能参与视频生成的创新中。
据了解,此前视频生成领域的开源SOTA旗舰模型通常需要超过20亿的参数和50GB显卡支持,而HunyuanVideo1.5的发布不仅在生成效果上实现了质的飞跃,还在性能与尺寸之间找到了平衡。目前,模型已上传至Hugging Face和GitHub,欢迎广大开发者下载体验。
随着HunyuanVideo1.5的推出,腾讯进一步巩固了其在人工智能和视频生成领域的领导地位,为内容创作者提供了更强大的工具和无限的创作可能。未来,随着技术的不断进步,视频生成的应用场景将更加广泛,期待HunyuanVideo1.5为行业带来新的变革。
(以上内容均由Ai生成)