AI

谷歌新AI工具“纳米香蕉”图像编辑测试:亮点与局限

发布时间:2025年9月7日    来源:szf
谷歌新AI工具“纳米香蕉”图像编辑测试:亮点与局限

快速阅读: 谷歌推出Gemini 2.5 Flash Image模型,即“纳米香蕉”模型,已吸引超1000万用户,创建超2亿张AI图片。模型在图片编辑上展现亮点,但也存在分辨率下降和尺寸调整困难等问题。

在目睹了谷歌最新生成式人工智能工具引发的一系列热烈反响后,我决定亲自试一试。这款名为Gemini 2.5 Flash Image的模型,增强了用户在Gemini平台上直接编辑照片的能力。AI爱好者们戏称其为“纳米香蕉”模型,这源于谷歌高管发布的一系列以香蕉为主题的预告片。

自推出几周以来,人们已创建超过2亿张AI图片,超过1000万人注册使用Gemini应用程序,据谷歌实验室和Gemini副总裁Josh Woodward透露。今年,谷歌在其生成式媒体模型上投入巨大,相继推出了更新版的图像和视频生成器,在年度I/O开发者大会上亮相。谷歌的AI视频生成器Veo 3以其同步音频功能令人印象深刻,这是AI巨头中的首次突破。此外,创作者利用谷歌的AI电影制作工具Flow,已制作出超过1亿部AI视频。

作为一名长期测试AI创意软件的用户,我对谷歌的新产品充满期待。然而,经过对Gemini 2.5 Flash Image的实际测试,我发现虽然它有引人注目的亮点,但并不总是能完全兑现其炒作的承诺。以下是我使用体验的几个方面:

### 成功之处

Gemini“香蕉”模型在向现有图片添加元素方面表现出色,能够将AI生成的元素自然地融入任何拍摄的照片中。它还保持了相当稳定的角色一致性——这意味着我的照片中的人物在经过AI处理后没有出现明显的变形或失真。这两点对于AI图像程序来说至关重要,也是谷歌声称有所改进的地方。

例如,这张我和妹妹的照片中,编辑后的版本(右侧)保留了我们大致的外貌特征,展现了角色的一致性。我要求Gemini添加一个与我们相似的第三位姐妹,它成功地在我们中间添加了一位女性,效果惊人。

欢迎这位逼真的AI妹妹加入家庭。

凯特琳·切德罗伊/ Gemini

Gemini生成完成图像的速度也让我印象深刻,通常在15秒内就能处理完请求。此外,它还在所有创建和编辑的图像上添加了水印,尽管我不喜欢科技公司滥用火花表情符号来标识AI内容,但这一点对于区分AI生成内容与人类创作的图像极为重要。谷歌的SynthID和幕后工作也有助于实现这一目标。

### 存在的问题

然而,Gemini“香蕉”模型存在严重的局限性。它自动生成的是方形图片,当我在后续提示中要求将其转换为其他尺寸时,这些请求要么被忽略,要么失败。

我还注意到,Gemini降低了我许多照片的分辨率。我主要使用iPhone 16拍照,这款手机的摄像头性能出色,但在经过Gemini“香蕉”模型处理后,那些精细的细节往往变得模糊。这对摄影师来说是一个令人烦恼的问题,可能无法赢得他们的青睐。

尽管我要求提亮目标的环形区域,但原始照片(左侧)比AI编辑后的照片(右侧)具有更多的丰富度和质感。

凯特琳·切德罗伊/ Gemini

我尝试让Gemini处理一些对我来说手动操作较为困难的图片编辑任务,这是AI在图片编辑领域应该擅长的部分——自动化繁琐且细节密集的编辑工作。遗憾的是,Gemini在这方面表现不佳,未能遵循我的指示。

我多次尝试让Gemini从一张《Freakier Friday》电影海报的快照中移除反光,但这些反光始终存在。而且,我越是试图移除这些反光,图片的质量就越差,原本清晰的文字最终变得难以辨认,连林赛·洛汉和杰米·李·柯蒂斯的脸也被意外地扭曲得有些吓人。

Gemini“纳米香蕉”在生成不同尺寸的图片方面也遇到了困难。调整和裁剪图片是照片编辑的基本过程,但Gemini似乎无法处理我在提示中给出的简单尺寸指南。

我只希望Gemini能移除海报右上角的反光,但它却扭曲了电影标语和人物的脸部。

凯特琳·切德罗伊/ Gemini

就分辨率和尺寸问题,我联系了谷歌,一位发言人表示,该公司“已经意识到这些问题,并正在积极解决。这次更新相比之前的模型有了很大的进步,我们将继续改进该模型。”

总体而言,Gemini nano香蕉模型向我证明了谷歌在生成媒体领域持续主导的决心。然而,它存在显著的问题,过度关注生成新元素,而非利用人工智能改进和解决常见的照片问题。目前,nano香蕉模型最适合Gemini粉丝快速进行大幅编辑。对于寻求更精准工具的用户来说,我们可能需要等待谷歌的下一个重大更新,或者寻找其他程序。

Gemini nano香蕉模型的可用性、价格和隐私政策

无需任何操作即可访问新模型,它将自动添加到基础Gemini 2.5 Flash模型中。Gemini免费提供,更多模型和更高的使用上限可在谷歌的人工智能计划中获得,起价每月20美元。付费订阅者还可以通过Google AI Studio访问该模型。从那里,只需上传图像并输入提示即可。每个提示根据所需细节的不同,使用大约一千到两千个令牌。Adobe Express和Firefly用户现在也可以使用新模型。

根据谷歌的Gemini隐私政策,公司可以使用您上传的信息来改进其人工智能产品,因此建议避免上传敏感或私人信息。公司的AI禁止使用政策也禁止创建非法或滥用材料。更多信息,请参阅最佳人工智能图像生成器以及谷歌Pixel 10发布会的所有公告。

(以上内容均由Ai生成)

关键词: Ai图像编辑谷歌

你可能还想读

TCS推AI机器狗进军航空业

TCS推AI机器狗进军航空业

快速阅读: 据印度塔塔咨询服务公司(TCS)发布消息称,全球航空航天业加速绿色智能化转型,40%企业预计五年内实现“熄灯工厂”,数字孪生与eVTOL成重点方向,物理AI机器人有望获批用于高危场景。 日前,全球航空航天产业加速向绿色化、智能化 […]

发布时间:2025年12月8日
Meta签约多家媒体,为AI提供实时新闻

Meta签约多家媒体,为AI提供实时新闻

快速阅读: 据媒体报道,Meta与CNN、福克斯新闻等多家国际媒体签署AI数据合作协议,重启付费合作以提升Meta AI在新闻时效性与准确性方面的表现,并引导用户访问合作方网站。 日前,美国科技企业Meta宣布与多家国际新闻机构签署商业人工 […]

发布时间:2025年12月8日
Semaverse推AI平台赋能并购决策

Semaverse推AI平台赋能并购决策

快速阅读: 据最新消息,人工智能初创企业Semaverse近日推出“并购智能基础设施”平台,依托多智能体架构与智能记忆系统,为私募股权基金等提供覆盖交易全周期的五大智能化功能,助力数据驱动决策。 近日,人工智能初创企业Semaverse正式 […]

发布时间:2025年12月8日
Gartner建议全面禁用AI浏览器

Gartner建议全面禁用AI浏览器

快速阅读: 据Gartner发布消息称,AI浏览器存在严重数据安全与隐私风险,其侧边栏功能可能自动上传敏感信息至云端,企业部署前须严格评估后端安全机制并限制高危操作场景。 日前,国际知名研究机构Gartner发布风险警示,指出当前流行的AI […]

发布时间:2025年12月8日
利雅得航空携手IBM打造全球首家AI原生航司

利雅得航空携手IBM打造全球首家AI原生航司

快速阅读: 据最新消息,IBM依托混合云与红帽OpenShift技术,为175国客户提供AI及量子计算等创新方案,加速金融、医疗等关键领域数字化转型,深化本地化服务以提升全球产业链智能化水平。 国际商业机器公司(IBM)日前宣布,其作为全球 […]

发布时间:2025年12月8日
英语国家民众对AI更悲观

英语国家民众对AI更悲观

快速阅读: 据YouGov发布消息称,其2025年8月对九国调查显示,西欧民众对AI态度较积极,英语国家更悲观,就业影响最受担忧,而医疗、办公等领域获普遍认可。 日前,国际民调机构YouGov发布一项涵盖九国的调查报告显示,公众对人工智能( […]

发布时间:2025年12月8日
AI无法替代税务专家的判断与质疑

AI无法替代税务专家的判断与质疑

快速阅读: 12月8日消息,专家警示AI在税务申报中存在合规与伦理风险,强调其无法替代专业判断,呼吁合理界定应用边界,防范不法机构借智能算法诱导激进申报,确保人机协同、合法合规。 近日,有关人工智能在税务申报领域应用的讨论引发关注。专家指出 […]

发布时间:2025年12月8日
德州法学院以伦理先行培养AI时代律师

德州法学院以伦理先行培养AI时代律师

快速阅读: 据彭博法律报道,美国得州多所法学院以伦理为先推动AI审慎融入法律教育,要求明确使用规范并强调人类判断不可替代,呼应州律师协会第705号伦理准则。 近日,美国得克萨斯州在人工智能时代积极探索法律教育的务实路径,强调以伦理为先、审慎 […]

发布时间:2025年12月8日