苹果推STARFlow-V革新视频生成

发布时间：2025年12月8日来源：szf

快速阅读: 据苹果公司发布消息称，其新推STARFlow-V视频生成模型采用归一化流技术，在长视频稳定性、时序一致性及人类动作呈现上取得突破，支持多任务生成并优化训练效率。

苹果公司近日发布其最新视频生成模型STARFlow-V，该模型采用“归一化流”技术，区别于当前主流的扩散模型，在长视频生成稳定性方面取得突破。据该公司介绍，STARFlow-V是首个在视觉质量与生成速度上可与扩散模型媲美的归一化流方案，虽输出分辨率为640×480像素、帧率为每秒16帧，但通过单次数学变换直接生成视频，显著提升训练效率并减少错误累积。

该模型支持文本转视频、图像转视频及视频编辑等多种任务。针对超长视频生成，其采用滑动窗口机制，在保留末尾帧上下文基础上延续生成，有效缓解逐帧误差传播问题。此外，系统采用双重架构：一部分管理跨帧时序一致性，另一部分优化单帧细节；训练中引入可控噪声以增强稳定性，并辅以因果去噪网络，在保持运动连贯性的同时抑制颗粒感。

苹果在训练中使用7000万对文本-视频数据及400万对文本-图像数据，借助语言模型将描述扩展为九种变体，经数周训练后，模型参数由30亿增至70亿，并逐步提升分辨率与视频长度。尽管在VBench基准测试中得分为79.7，略低于部分领先扩散模型，但其在自回归模型中表现突出，尤其在空间关系与人类动作呈现方面优势明显。目前，该公司正着力优化计算速度、模型结构及物理准确性，持续推进视频生成技术发展。

(以上内容均由Ai生成)