Google 在 Gemini 2.0 Flash 中的原生多模态 AI 图像生成功能以快速编辑和样式转换给人留下深刻印象

发布时间:2025年3月13日    来源:szf
Google 在 Gemini 2.0 Flash 中的原生多模态 AI 图像生成功能以快速编辑和样式转换给人留下深刻印象

快速阅读: 《VentureBeat 公司》消息,谷歌推出的Gemini 2.0 Flash原生图像生成模型允许在同一模型内生成和编辑图像,具有更高的准确性和多功能性,适用于个人创意和企业应用,如设计助手和自动文档工具。开发者可通过Gemini API测试该功能。

加入我们的每日和每周通讯,获取行业领先的人工智能报道的最新动态和独家内容。

了解更多谷歌最新的开源人工智能模型Gemini 3并不是今天Alphabet子公司唯一的重大新闻。实际上,聚光灯可能已经被谷歌的Gemini 2.0 Flash原生图像生成功能抢走了。这是一个新的实验性模型,免费提供给谷歌AI工作室的用户以及通过谷歌Gemini API的开发者使用。这标志着一家主要的美国科技公司首次在模型内直接向消费者提供多模态图像生成。大多数其他人工智能图像生成工具是将特定图像的扩散模型连接到大型语言模型(LLMs),需要在两个模型之间进行一些解释才能从文本提示中生成用户请求的图像。相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。

Gemini 2.0 Flash最早于2024年12月公布,但当时并未为用户提供原生图像生成功能,它集成了多模态输入、推理和自然语言理解,以生成与文本相关的图像。相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。

新发布的实验版本gemini-2.0-flash-exp使开发人员能够创建插图、通过对话优化图像,并根据世界知识生成详细的视觉效果。相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。

Gemini 2.0 Flash如何增强AI生成的图像

相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。

在今天早些时候发布的一个面向开发者的博客文章中,谷歌强调了Gemini 2.0 Flash原生图像生成的几个关键能力:

相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。

– 文本和图像故事讲述:开发人员可以使用Gemini 2.0 Flash生成带有插图的故事,同时保持角色和场景的一致性。该模型还能响应反馈,允许用户调整故事或改变艺术风格。

相比之下,Gemini 2.0 Flash可以在同一模型内原生生成图像,用户就在这个模型中输入文本提示,理论上允许更高的准确性和更多功能——早期迹象表明这完全属实。

– 对话式图像编辑:AI支持多轮编辑,这意味着用户可以通过自然语言提示迭代地细化图像。这一功能支持实时协作和创造性探索。

– 基于世界知识的图像生成:与其他许多图像生成模型不同,Gemini 2.0 Flash利用更广泛的推理能力来生成更具上下文相关性的图像。例如,它可以使用与现实世界成分和烹饪方法一致的详细视觉效果来说明食谱。

– 改进的文本渲染:许多AI图像模型难以准确生成图像中的可读文本,通常会产生拼写错误或扭曲字符。谷歌报告称Gemini 2.0 Flash在文本渲染方面优于主要竞争对手,使其特别适用于广告、社交媒体帖子和邀请函。

初步示例显示出巨大的潜力和前景

谷歌员工和一些AI超级用户在X上分享了通过Gemini 2.0 Flash实验提供的新图像生成和编辑功能的例子,这些例子无疑是令人印象深刻的。谷歌DeepMind研究员罗伯特·里亚奇展示了模型如何生成像素艺术风格的图像,然后根据文本提示在同一风格下创建新的图像。前身为OpenAI的谷歌AI工作室产品负责人Logan Kilpatrick强调了基于聊天的图像编辑的乐趣和实用性,分享了一个在生成的交互式故事中的3D渲染的小羊羔演示。

AI新闻账户TestingCatalog News报道了Gemini 2.0 Flash实验的多模态功能的推出,指出谷歌是第一个部署这一功能的主要实验室。用户@Angaisb_,又名“Angel”,展示了一个引人注目的例子,如何通过“添加巧克力淋面”的提示,在几秒钟内修改现有的羊角面包图像——揭示了Gemini 2.0 Flash快速准确的图像编辑能力,只需简单地与模型来回聊天即可。

YouTuber Theoretically Media指出,这种增量式图像编辑而非完全重新生成是AI行业长期以来所期待的,展示了如何轻松要求Gemini 2.0 Flash编辑图像以抬起角色的手臂,同时保留整个图像的其余部分。

用户@Angaisb_,又名“Angel”,展示了一个引人注目的例子,如何通过“添加巧克力淋面”的提示,在几秒钟内修改现有的羊角面包图像——揭示了Gemini 2.0 Flash快速准确的图像编辑能力,只需简单地与模型来回聊天即可。

前谷歌员工、现为AI YouTuber的Bilawal Sidhu展示了模型如何为黑白图像着色,暗示了潜在的历史修复或创意增强应用。

这些早期反应表明,开发人员和AI爱好者将Gemini 2.0 Flash视为一个高度灵活的工具,用于迭代设计、创造性的故事讲述和AI辅助的视觉编辑。

快速推出也与OpenAI的GPT-4o形成了对比,后者在2024年5月预览了原生图像生成能力——将近一年前——但至今尚未公开发布该功能——让谷歌抓住了机会,在多模态AI部署方面领先。

正如用户@chatgpt21,又名“Chris”在X上指出的那样,OpenAI在这一点上“失去了领先优势”,原因未知。用户邀请任何来自OpenAI的人评论为什么。

我自己的测试发现了一些纵横比大小方面的限制——尽管我在文本中请求修改,但它似乎还是固定在1:1的比例。但它能够在几秒钟内切换图像中角色的方向。

对开发者和企业的重要新工具

虽然关于Gemini 2.0 Flash原生图像生成的早期讨论大多集中在个人用户和创意应用上,但其对企业团队、开发者和软件架构师的意义重大。

大规模的AI驱动设计和营销:对于营销团队和内容创作者来说,Gemini 2.0 Flash可以作为传统图形设计工作流程的成本效益替代方案,自动化品牌内容、广告和社交媒体视觉效果的创建。由于它支持在图像中渲染文本,它可以简化广告创建、包装设计和促销图形,减少对手动编辑的依赖。

虽然关于Gemini 2.0 Flash原生图像生成的早期讨论大多集中在个人用户和创意应用上,但其对企业团队、开发者和软件架构师的意义重大。

增强的开发工具和AI工作流:对于CTO、CIO和软件工程师来说,原生图像生成可以简化AI集成到应用程序和服务中的过程。通过在一个模型中结合文本和图像输出,Gemini 2.0 Flash允许开发人员构建:

虽然关于Gemini 2.0 Flash原生图像生成的早期讨论大多集中在个人用户和创意应用上,但其对企业团队、开发者和软件架构师的意义重大。

– AI驱动的设计助手,生成UI/UX原型或应用程序资产。
– 自动文档工具,实时说明概念。
– 媒体和教育的动态、AI驱动的故事讲述平台。

由于该模型还支持对话式图像编辑,团队可以开发AI驱动的界面,用户通过自然对话完善设计,降低非技术用户的入门门槛。

AI驱动生产力软件的新可能性:对于正在构建AI驱动生产力工具的企业团队来说,Gemini 2.0 Flash可以支持以下应用:

– 使用AI创建幻灯片和可视化内容的自动化演示生成。
– 使用AI生成的信息图表对法律和商业文件进行注释。
– 电子商务可视化,根据描述动态生成产品原型。

如何部署和试验这一功能

开发人员可以使用Gemini API开始测试Gemini 2.0 Flash的图像生成能力。谷歌提供了一个示例API请求,以展示开发人员如何在一个响应中使用文本和图像生成插图故事:

“`python
from google import genai
from google.genai import types

client = genai.Client(api_key=”GEMINI_API_KEY”)
response = client.models.generate_content(
model=”gemini-2.0-flash-exp”,
contents=(
“Generate a story about a cute baby turtle in a 3D digital art style. ”
“For each scene, generate an image.”
),
config=types.GenerateContentConfig(
response_modalities=[“Text”, “Image”]
),
)
“`

通过简化AI驱动的图像生成,Gemini 2.0 Flash为开发人员提供了新的方式来创建插图内容、设计AI辅助的应用程序并试验视觉叙事。

VB每日商业用例洞察

如果你想给老板留下深刻印象,VB每日可以帮到你。我们为你提供公司如何运用生成式AI的内部消息,从监管变化到实际部署,以便你可以分享见解以获得最大投资回报率。立即订阅阅读我们的隐私政策。

感谢订阅。查看更多VB新闻通讯。

发生错误。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日