Google 在 Gemini 2.0 Flash 中的原生多模态 AI 图像生成功能以快速编辑和样式转换给人留下深刻印象
快速阅读: 《VentureBeat 公司》消息,谷歌推出的Gemini 2.0 Flash原生图像生成模型允许在同一模型内生成和编辑图像,具有更高的准确性和多功能性,适用于个人创意和企业应用,如设计助手和自动文档工具。开发者可通过Gemini API测试该功能。
加入我们的每日和每周通讯,获取行业领先的人工智能报道的最新动态和独家内容。
了解更多谷歌最新的开源人工智能模型Gemini 3并不是今天Alphabet子公司唯一的重大新闻。实际上,聚光灯可能已经被谷歌的Gemini 2.0 Flash原生图像生成功能抢走了。这是一个新的实验性模型,免费提供给谷歌AI工作室的用户以及通过谷歌Gemini API的开发者使用。这标志着一家主要的美国科技公司首次在模型内直接向消费者提供多模态图像生成。大多数其他人工智能图像生成工具是将特定图像的扩散模型连接到大型语言模型(LLMs),需要在两个模型之间进行一些解释才能从文本提示中生成用户请求的图像。相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。
Gemini 2.0 Flash最早于2024年12月公布,但当时并未为用户提供原生图像生成功能,它集成了多模态输入、推理和自然语言理解,以生成与文本相关的图像。相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。
新发布的实验版本gemini-2.0-flash-exp使开发人员能够创建插图、通过对话优化图像,并根据世界知识生成详细的视觉效果。相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。
Gemini 2.0 Flash如何增强AI生成的图像
相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。
在今天早些时候发布的一个面向开发者的博客文章中,谷歌强调了Gemini 2.0 Flash原生图像生成的几个关键能力:
相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。
– 文本和图像故事讲述:开发人员可以使用Gemini 2.0 Flash生成带有插图的故事,同时保持角色和场景的一致性。该模型还能响应反馈,允许用户调整故事或改变艺术风格。
相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。
– 对话式图像编辑:AI支持多轮编辑,这意味着用户可以通过自然语言提示迭代地细化图像。这一功能支持实时协作和创造性探索。
– 基于世界知识的图像生成:与其他许多图像生成模型不同,Gemini 2.0 Flash利用更广泛的推理能力来生成更具上下文相关性的图像。例如,它可以使用与现实世界成分和烹饪方法一致的详细视觉效果来说明食谱。
– 改进的文本渲染:许多AI图像模型难以准确生成图像中的可读文本,通常会产生拼写错误或扭曲字符。谷歌报告称Gemini 2.0 Flash在文本渲染方面优于主要竞争对手,使其特别适用于广告、社交媒体帖子和邀请函。
初步示例显示出巨大的潜力和前景
谷歌员工和一些AI超级用户在X上分享了通过Gemini 2.0 Flash实验提供的新图像生成和编辑功能的例子,这些例子无疑是令人印象深刻的。谷歌DeepMind研究员罗伯特·里亚奇展示了模型如何生成像素艺术风格的图像,然后根据文本提示在同一风格下创建新的图像。前身为OpenAI的谷歌AI工作室产品负责人Logan Kilpatrick强调了基于聊天的图像编辑的乐趣和实用性,分享了一个在生成的交互式故事中的3D渲染的小羊羔演示。
AI新闻账户TestingCatalog News报道了Gemini 2.0 Flash实验的多模态功能的推出,指出谷歌是第一个部署这一功能的主要实验室。用户@Angaisb_,又名“Angel”,展示了一个引人注目的例子,如何通过“添加巧克力淋面”的提示,在几秒钟内修改现有的羊角面包图像——揭示了Gemini 2.0 Flash快速准确的图像编辑能力,只需简单地与模型来回聊天即可。
YouTuber Theoretically Media指出,这种增量式图像编辑而非完全重新生成是AI行业长期以来所期待的,展示了如何轻松要求Gemini 2.0 Flash编辑图像以抬起角色的手臂,同时保留整个图像的其余部分。
用户@Angaisb_,又名“Angel”,展示了一个引人注目的例子,如何通过“添加巧克力淋面”的提示,在几秒钟内修改现有的羊角面包图像——揭示了Gemini 2.0 Flash快速准确的图像编辑能力,只需简单地与模型来回聊天即可。
前谷歌员工、现为AI YouTuber的Bilawal Sidhu展示了模型如何为黑白图像着色,暗示了潜在的历史修复或创意增强应用。
这些早期反应表明,开发人员和AI爱好者将Gemini 2.0 Flash视为一个高度灵活的工具,用于迭代设计、创造性的故事讲述和AI辅助的视觉编辑。
快速推出也与OpenAI的GPT-4o形成了对比,后者在2024年5月预览了原生图像生成能力——将近一年前——但至今尚未公开发布该功能——让谷歌抓住了机会,在多模态AI部署方面领先。
正如用户@chatgpt21,又名“Chris”在X上指出的那样,OpenAI在这一点上“失去了领先优势”,原因未知。用户邀请任何来自OpenAI的人评论为什么。
我自己的测试发现了一些纵横比大小方面的限制——尽管我在文本中请求修改,但它似乎还是固定在1:1的比例。但它能够在几秒钟内切换图像中角色的方向。
对开发者和企业的重要新工具
虽然关于Gemini 2.0 Flash原生图像生成的早期讨论大多集中在个人用户和创意应用上,但其对企业团队、开发者和软件架构师的意义重大。
大规模的AI驱动设计和营销:对于营销团队和内容创作者来说,Gemini 2.0 Flash可以作为传统图形设计工作流程的成本效益替代方案,自动化品牌内容、广告和社交媒体视觉效果的创建。由于它支持在图像中渲染文本,它可以简化广告创建、包装设计和促销图形,减少对手动编辑的依赖。
虽然关于Gemini 2.0 Flash原生图像生成的早期讨论大多集中在个人用户和创意应用上,但其对企业团队、开发者和软件架构师的意义重大。
增强的开发工具和AI工作流:对于CTO、CIO和软件工程师来说,原生图像生成可以简化AI集成到应用程序和服务中的过程。通过在一个模型中结合文本和图像输出,Gemini 2.0 Flash允许开发人员构建:
虽然关于Gemini 2.0 Flash原生图像生成的早期讨论大多集中在个人用户和创意应用上,但其对企业团队、开发者和软件架构师的意义重大。
– AI驱动的设计助手,生成UI/UX原型或应用程序资产。
– 自动文档工具,实时说明概念。
– 媒体和教育的动态、AI驱动的故事讲述平台。
由于该模型还支持对话式图像编辑,团队可以开发AI驱动的界面,用户通过自然对话完善设计,降低非技术用户的入门门槛。
AI驱动生产力软件的新可能性:对于正在构建AI驱动生产力工具的企业团队来说,Gemini 2.0 Flash可以支持以下应用:
– 使用AI创建幻灯片和可视化内容的自动化演示生成。
– 使用AI生成的信息图表对法律和商业文件进行注释。
– 电子商务可视化,根据描述动态生成产品原型。
如何部署和试验这一功能
开发人员可以使用Gemini API开始测试Gemini 2.0 Flash的图像生成能力。谷歌提供了一个示例API请求,以展示开发人员如何在一个响应中使用文本和图像生成插图故事:
“`python
from google import genai
from google.genai import types
client = genai.Client(api_key=”GEMINI_API_KEY”)
response = client.models.generate_content(
model=”gemini-2.0-flash-exp”,
contents=(
“Generate a story about a cute baby turtle in a 3D digital art style. ”
“For each scene, generate an image.”
),
config=types.GenerateContentConfig(
response_modalities=[“Text”, “Image”]
),
)
“`
通过简化AI驱动的图像生成,Gemini 2.0 Flash为开发人员提供了新的方式来创建插图内容、设计AI辅助的应用程序并试验视觉叙事。
VB每日商业用例洞察
如果你想给老板留下深刻印象,VB每日可以帮到你。我们为你提供公司如何运用生成式AI的内部消息,从监管变化到实际部署,以便你可以分享见解以获得最大投资回报率。立即订阅阅读我们的隐私政策。
感谢订阅。查看更多VB新闻通讯。
发生错误。
(以上内容均由Ai生成)