苹果推STARFlow-V革新视频生成
快速阅读: 据苹果公司发布消息称,其新推STARFlow-V视频生成模型采用归一化流技术,在长视频稳定性、时序一致性及人类动作呈现上取得突破,支持多任务生成并优化训练效率。
苹果公司近日发布其最新视频生成模型STARFlow-V,该模型采用“归一化流”技术,区别于当前主流的扩散模型,在长视频生成稳定性方面取得突破。据该公司介绍,STARFlow-V是首个在视觉质量与生成速度上可与扩散模型媲美的归一化流方案,虽输出分辨率为640×480像素、帧率为每秒16帧,但通过单次数学变换直接生成视频,显著提升训练效率并减少错误累积。
该模型支持文本转视频、图像转视频及视频编辑等多种任务。针对超长视频生成,其采用滑动窗口机制,在保留末尾帧上下文基础上延续生成,有效缓解逐帧误差传播问题。此外,系统采用双重架构:一部分管理跨帧时序一致性,另一部分优化单帧细节;训练中引入可控噪声以增强稳定性,并辅以因果去噪网络,在保持运动连贯性的同时抑制颗粒感。
苹果在训练中使用7000万对文本-视频数据及400万对文本-图像数据,借助语言模型将描述扩展为九种变体,经数周训练后,模型参数由30亿增至70亿,并逐步提升分辨率与视频长度。尽管在VBench基准测试中得分为79.7,略低于部分领先扩散模型,但其在自回归模型中表现突出,尤其在空间关系与人类动作呈现方面优势明显。目前,该公司正着力优化计算速度、模型结构及物理准确性,持续推进视频生成技术发展。
(以上内容均由Ai生成)