什么是 Imagen 3：您需要了解的有关 Google 文本到图像模型的所有信息

快速阅读: 据《技术雷达》最新报道，**总结：**

Imagen 3由谷歌DeepMind开发，是一款免费的AI文本到图像模型，可生成高质量、多样化的图像。它擅长模仿不同视觉风格，尤其在照片写实方面表现突出。用户可通过Gemini和ImageFX访问，但生成图像包含人物时需订阅Gemini高级版。Imagen 3在遵循提示方面表现良好，但细节编辑有限。相比而言，DALL-E 3和Midjourney各有特色。

**什么是Imagen 3？**

Imagen 3 是由谷歌的AI研究实验室 DeepMind 开发的AI驱动的文本到图像模型。2024年5月在谷歌I/O大会上首次宣布，同年8月开放访问权限。与其他AI图像生成器类似，该模型允许用户根据简单的自然语言提示创建各种视觉风格的图像。第三版生成的图像具有“更好的细节、更丰富的照明和更少的分散注意力的瑕疵”。该工具还允许用户通过编辑文本提示添加特定细节，从而细化生成的图像。

**你可以用Imagen 3做什么？**

Imagen 3 可以在几秒钟内根据基于文本的描述生成详细的图像。经过数百万张图像的训练，它擅长复制不同的视觉风格。诸如“电影感”、“超现实”和“35毫米胶片”之类的提示可以用来生成具有特定美学的图像。它特别擅长复制照片写实。

通过 ImageFX 访问时，Imagen 3 生成四张一组的图像，而在 Gemini 中，每次生成一个图像。图像可以单独复制和下载，而提示本身可以通过添加具体细节或艺术风格来优化结果。提供五种纵横比：正方形（1:1）、肖像（9:16）、风景（16:9）、手机肖像（3:4）和手机风景（4:3）。用户拥有所有由 Imagen 3 生成的图像的版权，这意味着它是一个潜在有用的工具，适用于从编辑到产品营销的各个方面。

**你不能用Imagen 3做什么？**

Imagen 3 仅能生成静态图像。DeepMind 正在开发一种名为 Veo 2 的独立AI驱动的文本到视频生成器。Imagen 3 无法生成高分辨率图像。原生输出分辨率为：正方形图像为1024×1024，16:9图像为1408×768，4:3图像为1280×896。该模型还受到一系列伦理政策限制。例如，你不能用它来生成真实人物的图像，或者生成可能有害或冒犯性的视觉内容。Imagen 3 还被训练避免生成可能侵犯版权的图像。虽然 Imagen 3 在遵循详细的提示方面表现出色，但它不支持对图像中的特定元素进行精确编辑。

**Imagen 3 的价格是多少？**

通过 ImageFX 或 Gemini 使用 Imagen 3 是免费的。更重要的是，你拥有通过 Imagen 3 创建的图像的版权，并可以自由使用它们，无需支付版税。有一个限制：如果你想生成包含人物的图像，你需要订阅 Gemini 高级版。这每月费用为19.99美元/18.99英镑/30澳元。该计划还包括新功能的优先访问权以及访问谷歌最新的模型。

**你可以在哪里使用 Imagen 3？**

Imagen 3 可以通过 Gemini 访问，这是谷歌对 ChatGPT 的回应。在与聊天机器人的对话中请求一张图像，它会一次生成一个资产。你还可以编辑原始提示以优化结果。Gemini 可以通过网页应用以及 iOS 和 Android 应用程序使用。Imagen 3 也可通过 ImageFX 获得，这是一个由谷歌实验室托管的专用AI图像生成器。ImageFX 通过直观的基于网络的界面受益，包括建议的提示结构和艺术风格。方便的是，它可以从单个提示生成四张图像。

**Imagen 3 好吗？**

从我们在 ImageFX 和 Gemini 上的实际体验来看，我们知道它可以生成丰富且动态的图像，这些图像大致遵循提示的主题。在线评论也表达了类似的观点，指出整体结果质量很高，以及 Imagen 3 如何有效处理不同的艺术风格。我们的高级AI编辑 Graham Barlow 说：“Imagen 3 将成为最好的AI图像生成器之一。”在照片写实性方面，它得分很高，尤其是在如何复制景深效果和电影氛围方面。基于提示的界面相当简单易用，尽管模型并不总是严格遵循详细的编辑。虽然它通常会观察提示的本质，但在解释特定细节时偶尔会出现问题。

**使用 Imagen 3**

如果你 **想使用免费的AI图像生成器** ，Imagen 3 可以通过 ImageFX 和 Gemini 免费使用，允许你从文本描述生成逼真的图像，几乎没有限制。只有当你需要生成包含人物的图像时才需要付费。

如果你想 **尝试不同的艺术风格** ，Imagen 3 在复制不同的视觉风格方面表现出色，无论是电影写实还是超现实插画。通过改变提示中的几个词，你可以让你的图像获得完全不同的美学。

**不使用 Imagen 3**

如果你 **想有精细的编辑选项** ，Imagen 3 允许你通过修改文本提示来微调图像，但你不能选择性地编辑图像的特定部分或区域。为此，你需要使用其他工具，如 DALL-E 3。

如果你 **需要绝对的细节关注** ，谷歌的文本到图像模型在遵循提示方面做得相当不错。然而，它对细微描述的理解往往有些松散。提示中某一部分的变化常常会影响另一部分的细节。

**也可以考虑 DALL-E 3**

DALL-E 3 是由 OpenAI 开发的文本到图像模型。它可通过 ChatGPT 和 Microsoft Designer 访问。它易于使用，擅长遵循复杂的提示。然而，在写实性方面，它不如 Imagen 3。

**Midjourney**

Midjourney 是一个基于 Discord 社区的AI图像生成器。其界面有一定的学习曲线，但该工具能够创建真正艺术性的图像。它还具备强大的编辑工具，适合激发灵感。

(以上内容均由Ai生成)

什么是 Imagen 3：您需要了解的有关 Google 文本到图像模型的所有信息

你可能还想读

本周科技大事件：谷歌发布Pixel 10，Gamescom揭晓重磅游戏

SK海力士凭借HBM激增首次超越三星，领跑全球内存市场

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

“这改变了一切”：谷歌的人工智能模式迫使品牌重新考虑搜索策略

在 Android 上用更智能的应用程序替换 Google Assistant

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争：报告

Meta 超出预期，为“个人超级智能”做准备