什么是 Imagen 3:您需要了解的有关 Google 文本到图像模型的所有信息
快速阅读: 据《技术雷达》最新报道,**总结:**
Imagen 3由谷歌DeepMind开发,是一款免费的AI文本到图像模型,可生成高质量、多样化的图像。它擅长模仿不同视觉风格,尤其在照片写实方面表现突出。用户可通过Gemini和ImageFX访问,但生成图像包含人物时需订阅Gemini高级版。Imagen 3在遵循提示方面表现良好,但细节编辑有限。相比而言,DALL-E 3和Midjourney各有特色。
**什么是Imagen 3?**
Imagen 3 是由谷歌的AI研究实验室 DeepMind 开发的AI驱动的文本到图像模型。2024年5月在谷歌I/O大会上首次宣布,同年8月开放访问权限。与其他AI图像生成器类似,该模型允许用户根据简单的自然语言提示创建各种视觉风格的图像。第三版生成的图像具有“更好的细节、更丰富的照明和更少的分散注意力的瑕疵”。该工具还允许用户通过编辑文本提示添加特定细节,从而细化生成的图像。
**你可以用Imagen 3做什么?**
Imagen 3 可以在几秒钟内根据基于文本的描述生成详细的图像。经过数百万张图像的训练,它擅长复制不同的视觉风格。诸如“电影感”、“超现实”和“35毫米胶片”之类的提示可以用来生成具有特定美学的图像。它特别擅长复制照片写实。
通过 ImageFX 访问时,Imagen 3 生成四张一组的图像,而在 Gemini 中,每次生成一个图像。图像可以单独复制和下载,而提示本身可以通过添加具体细节或艺术风格来优化结果。提供五种纵横比:正方形(1:1)、肖像(9:16)、风景(16:9)、手机肖像(3:4)和手机风景(4:3)。用户拥有所有由 Imagen 3 生成的图像的版权,这意味着它是一个潜在有用的工具,适用于从编辑到产品营销的各个方面。
**你不能用Imagen 3做什么?**
Imagen 3 仅能生成静态图像。DeepMind 正在开发一种名为 Veo 2 的独立AI驱动的文本到视频生成器。Imagen 3 无法生成高分辨率图像。原生输出分辨率为:正方形图像为1024×1024,16:9图像为1408×768,4:3图像为1280×896。该模型还受到一系列伦理政策限制。例如,你不能用它来生成真实人物的图像,或者生成可能有害或冒犯性的视觉内容。Imagen 3 还被训练避免生成可能侵犯版权的图像。虽然 Imagen 3 在遵循详细的提示方面表现出色,但它不支持对图像中的特定元素进行精确编辑。
**Imagen 3 的价格是多少?**
通过 ImageFX 或 Gemini 使用 Imagen 3 是免费的。更重要的是,你拥有通过 Imagen 3 创建的图像的版权,并可以自由使用它们,无需支付版税。有一个限制:如果你想生成包含人物的图像,你需要订阅 Gemini 高级版。这每月费用为19.99美元/18.99英镑/30澳元。该计划还包括新功能的优先访问权以及访问谷歌最新的模型。
**你可以在哪里使用 Imagen 3?**
Imagen 3 可以通过 Gemini 访问,这是谷歌对 ChatGPT 的回应。在与聊天机器人的对话中请求一张图像,它会一次生成一个资产。你还可以编辑原始提示以优化结果。Gemini 可以通过网页应用以及 iOS 和 Android 应用程序使用。Imagen 3 也可通过 ImageFX 获得,这是一个由谷歌实验室托管的专用AI图像生成器。ImageFX 通过直观的基于网络的界面受益,包括建议的提示结构和艺术风格。方便的是,它可以从单个提示生成四张图像。
**Imagen 3 好吗?**
从我们在 ImageFX 和 Gemini 上的实际体验来看,我们知道它可以生成丰富且动态的图像,这些图像大致遵循提示的主题。在线评论也表达了类似的观点,指出整体结果质量很高,以及 Imagen 3 如何有效处理不同的艺术风格。我们的高级AI编辑 Graham Barlow 说:“Imagen 3 将成为最好的AI图像生成器之一。”在照片写实性方面,它得分很高,尤其是在如何复制景深效果和电影氛围方面。基于提示的界面相当简单易用,尽管模型并不总是严格遵循详细的编辑。虽然它通常会观察提示的本质,但在解释特定细节时偶尔会出现问题。
**使用 Imagen 3**
如果你 **想使用免费的AI图像生成器** ,Imagen 3 可以通过 ImageFX 和 Gemini 免费使用,允许你从文本描述生成逼真的图像,几乎没有限制。只有当你需要生成包含人物的图像时才需要付费。
如果你想 **尝试不同的艺术风格** ,Imagen 3 在复制不同的视觉风格方面表现出色,无论是电影写实还是超现实插画。通过改变提示中的几个词,你可以让你的图像获得完全不同的美学。
**不使用 Imagen 3**
如果你 **想有精细的编辑选项** ,Imagen 3 允许你通过修改文本提示来微调图像,但你不能选择性地编辑图像的特定部分或区域。为此,你需要使用其他工具,如 DALL-E 3。
如果你 **需要绝对的细节关注** ,谷歌的文本到图像模型在遵循提示方面做得相当不错。然而,它对细微描述的理解往往有些松散。提示中某一部分的变化常常会影响另一部分的细节。
**也可以考虑 DALL-E 3**
DALL-E 3 是由 OpenAI 开发的文本到图像模型。它可通过 ChatGPT 和 Microsoft Designer 访问。它易于使用,擅长遵循复杂的提示。然而,在写实性方面,它不如 Imagen 3。
**Midjourney**
Midjourney 是一个基于 Discord 社区的AI图像生成器。其界面有一定的学习曲线,但该工具能够创建真正艺术性的图像。它还具备强大的编辑工具,适合激发灵感。
(以上内容均由Ai生成)