AI 视频在现实主义方面取得了惊人的飞跃。我们注定要失败吗?
快速阅读: 据《Ars Technica》最新报道,谷歌发布视频生成模型Veo 3,可基于文本或图像生成高质量AI视频,与Imagen 4和Gemini集成的Flow工具也同步推出。Veo 3通过扩散技术从噪点生成视频,成本较高但效果逼真。
上周,谷歌发布了最新视频生成模型 **Veo 3**,该模型能够生成包含同步音效和对话的8秒短视频——这是谷歌AI工具的一大创新。该模型以720p分辨率生成视频,基于名为“提示”的文本描述或静态图像输入,代表了目前最强大的面向消费者的视频生成工具,使得视频合成几乎无法分辨是“真实”还是AI生成的内容。此外,谷歌还推出了 **Flow**,这是一个集成了 **Veo 3**、谷歌自家的 **Imagen 4** 图像生成器以及 **Gemini** 语言模型的在线AI电影制作工具,让创作者可以通过自然语言描述场景,并通过网页界面管理角色、场景和视觉风格。一段由 **Veo 3** 生成的人工智能视频:“一名女性对着麦克风轻声说出‘Moonshark’的同时摇晃铃鼓的ASMR场景。”
这两款工具现已面向美国的谷歌人工智能超计划(Google AI Ultra)订阅用户开放,该计划每月收费250美元,包含12,500个信用点。每个 **Veo 3** 视频生成需要150个信用点,在该计划下可以生成83个视频。额外信用点以每信用点1美分的价格出售,分别有25美元、50美元或200美元的块状购买选项,这相当于每次生成视频大约花费1.5美元。但这个价格值得吗?我们使用不同提示进行了测试,看看这项技术到底有多厉害。
**Veo 是如何工作的?**
和其他现代视频生成模型一样,**Veo 3** 基于扩散技术开发,与支持图像生成器(例如 **Stable Diffusion** 和 **Flux**)的技术相同。训练过程通过选取真实视频并逐步加入噪声,直到它们变成纯粹的噪点,然后教会神经网络逐步逆转这一过程。在生成过程中,**Veo 3** 从随机噪点和文本提示开始,然后迭代优化这些噪点,使其成为符合描述的连贯视频。
(以上内容均由Ai生成)