混合 AI 模型可在几秒钟内制作出流畅、高质量的视频

发布时间：2025年5月7日来源：szf

快速阅读: 据《麻省理工学院》称，MIT团队开发的CausVid模型结合扩散模型和自回归架构，能高效生成高质量视频，可用于多语言直播同步、游戏内容渲染及机器人培训等任务，解决了传统自回归模型后期质量下降的问题。

麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员指出，这一模型能够用于多种视频编辑任务，比如通过生成与音频翻译同步的视频内容，帮助观众用另一种语言理解直播流。它还能助力于电子游戏的新内容渲染，或快速生成培训模拟以教导机器人完成新任务。2025年获得硕士学位和博士学位的毕业生尹天威认为，该模型的强大力量在于其混合方法。“CausVid结合了一种基于预训练扩散的高性能扩散模型，以及通常出现在文本生成模型中的自回归架构，”这位共同主要作者、由人工智能赋能的‘教师’模型的创造者尹天威说道。“这种由人工智能赋能的‘教师’模型可以预测未来步骤，以训练逐帧系统避免出现渲染错误。”

尹天威的另一位共同主要作者张强是xAI的研究科学家，也是前CSAIL访问研究员。他们与Adobe Research的研究科学家理查德·张、伊莱·谢赫特曼、徐黄以及CSAIL的两位首席研究员合作，他们是MIT教授比尔·弗里曼和弗雷多·杜朗。

因果（Vid）及其影响，许多自回归模型都可以创建一段起初平滑的视频，但质量往往在序列后期下降。一段跑步人的片段可能开始时看起来非常真实，但随后他们的腿部开始以不自然的方式摆动，这表明帧与帧之间存在不一致性（即所谓的“误差累积”）。在过去的方法中，容易产生错误的视频生成非常常见，这些方法学会了逐帧单独预测。CausVid则利用高性能扩散模型来指导一个更简单的系统掌握其通用视频处理能力，从而能够生成流畅的视觉效果，但速度更快。

(以上内容均由Ai生成)