AI 视频在现实主义方面取得了惊人的飞跃。我们注定要失败吗？

发布时间：2025年5月30日来源：szf

快速阅读: 据《Ars Technica》最新报道，谷歌发布视频生成模型Veo 3，可基于文本或图像生成高质量AI视频，与Imagen 4和Gemini集成的Flow工具也同步推出。Veo 3通过扩散技术从噪点生成视频，成本较高但效果逼真。

上周，谷歌发布了最新视频生成模型 **Veo 3**，该模型能够生成包含同步音效和对话的8秒短视频——这是谷歌AI工具的一大创新。该模型以720p分辨率生成视频，基于名为“提示”的文本描述或静态图像输入，代表了目前最强大的面向消费者的视频生成工具，使得视频合成几乎无法分辨是“真实”还是AI生成的内容。此外，谷歌还推出了 **Flow**，这是一个集成了 **Veo 3**、谷歌自家的 **Imagen 4** 图像生成器以及 **Gemini** 语言模型的在线AI电影制作工具，让创作者可以通过自然语言描述场景，并通过网页界面管理角色、场景和视觉风格。一段由 **Veo 3** 生成的人工智能视频：“一名女性对着麦克风轻声说出‘Moonshark’的同时摇晃铃鼓的ASMR场景。”

这两款工具现已面向美国的谷歌人工智能超计划（Google AI Ultra）订阅用户开放，该计划每月收费250美元，包含12,500个信用点。每个 **Veo 3** 视频生成需要150个信用点，在该计划下可以生成83个视频。额外信用点以每信用点1美分的价格出售，分别有25美元、50美元或200美元的块状购买选项，这相当于每次生成视频大约花费1.5美元。但这个价格值得吗？我们使用不同提示进行了测试，看看这项技术到底有多厉害。

**Veo 是如何工作的？**

和其他现代视频生成模型一样，**Veo 3** 基于扩散技术开发，与支持图像生成器（例如 **Stable Diffusion** 和 **Flux**）的技术相同。训练过程通过选取真实视频并逐步加入噪声，直到它们变成纯粹的噪点，然后教会神经网络逐步逆转这一过程。在生成过程中，**Veo 3** 从随机噪点和文本提示开始，然后迭代优化这些噪点，使其成为符合描述的连贯视频。

(以上内容均由Ai生成)