阿里Wan 2.2震撼上线 开源视频生成AI挑战Sora
快速阅读: 相关媒体消息,阿里巴巴云将发布视频生成AI模型Wan2.2,性能大幅提升,支持高分辨率和长视频生成。新增文本到视频、图像到视频等功能,降低硬件要求,继续开源。
阿里巴巴云宣布其备受期待的视频生成AI模型 Wan2.2 即将在近期正式发布。作为Wan2.1的升级版本,Wan2.2预计在性能、效率和功能上实现重大突破,继续秉承阿里开源AI的战略,巩固其在全球AI视频生成领域的领先地位。继Wan2.1于2025年2月开源并取得广泛成功后,Wan2.2的推出引发了开发者社区和行业的热烈讨论。
Wan2.2:技术升级,性能再突破 Wan2.1凭借其 时空变分自编码器(VAE) 和 扩散变换器(DiT) 架构,已在VBench基准测试中以84.7%的得分超越OpenAI的Sora(84.28%)。据社交媒体讨论,Wan2.2预计进一步优化这些技术,显著提升视频生成速度和质量,尤其是在高分辨率(如1080p)和长视频生成中的表现。
预计新增功能包括: 文本到视频(T2V) :支持更高分辨率(如1080p和4K)以及更长的视频生成,生成时间进一步缩短。
图像到视频(I2V) :提升动态场景的流畅性和真实性,支持更复杂的动作和场景转换。
视频到音频(V2A) :增强从视频内容生成匹配音频的能力,提升多模态创作体验。
多语言与风格扩展 :支持更多语言的文本效果生成,并新增多样化的艺术风格模板,如赛博朋克、写实动画等。
硬件优化 :进一步降低硬件需求,T2V-1.3B模型预计在更低显存(如6GB)设备上运行,扩大用户覆盖范围。
Wan2.2的训练数据预计在Wan2.1(15亿视频、100亿图像)的基础上进一步扩充,优化数据筛选以提升生成内容的多样性和真实性。
Wan2.2将继续采用Apache2.0许可证,通过 Alibaba Cloud ModelScope 和 Hugging Face 免费提供代码和模型权重,支持学术研究和商业应用。Wan2.1已推出T2V-1.3B、T2V-14B、I2V-14B-720P和I2V-14B-480P四种变体,Wan2.2预计将新增更多模型变体,针对不同硬件和场景进一步优化。
开发者对Wan2.2的开源前景充满期待,认为其将进一步挑战OpenAI Sora等封闭模型的市场主导地位,推动AI视频生成技术的民主化。阿里此举不仅降低了技术门槛,也为全球开发者提供了更多创新空间。
(以上内容均由AI生成)