AI

谷歌新AI工具“纳米香蕉”图像编辑测试:亮点与局限

发布时间:2025年9月7日    来源:szf
谷歌新AI工具“纳米香蕉”图像编辑测试:亮点与局限

快速阅读: 谷歌推出Gemini 2.5 Flash Image模型,即“纳米香蕉”模型,已吸引超1000万用户,创建超2亿张AI图片。模型在图片编辑上展现亮点,但也存在分辨率下降和尺寸调整困难等问题。

在目睹了谷歌最新生成式人工智能工具引发的一系列热烈反响后,我决定亲自试一试。这款名为Gemini 2.5 Flash Image的模型,增强了用户在Gemini平台上直接编辑照片的能力。AI爱好者们戏称其为“纳米香蕉”模型,这源于谷歌高管发布的一系列以香蕉为主题的预告片。

自推出几周以来,人们已创建超过2亿张AI图片,超过1000万人注册使用Gemini应用程序,据谷歌实验室和Gemini副总裁Josh Woodward透露。今年,谷歌在其生成式媒体模型上投入巨大,相继推出了更新版的图像和视频生成器,在年度I/O开发者大会上亮相。谷歌的AI视频生成器Veo 3以其同步音频功能令人印象深刻,这是AI巨头中的首次突破。此外,创作者利用谷歌的AI电影制作工具Flow,已制作出超过1亿部AI视频。

作为一名长期测试AI创意软件的用户,我对谷歌的新产品充满期待。然而,经过对Gemini 2.5 Flash Image的实际测试,我发现虽然它有引人注目的亮点,但并不总是能完全兑现其炒作的承诺。以下是我使用体验的几个方面:

### 成功之处

Gemini“香蕉”模型在向现有图片添加元素方面表现出色,能够将AI生成的元素自然地融入任何拍摄的照片中。它还保持了相当稳定的角色一致性——这意味着我的照片中的人物在经过AI处理后没有出现明显的变形或失真。这两点对于AI图像程序来说至关重要,也是谷歌声称有所改进的地方。

例如,这张我和妹妹的照片中,编辑后的版本(右侧)保留了我们大致的外貌特征,展现了角色的一致性。我要求Gemini添加一个与我们相似的第三位姐妹,它成功地在我们中间添加了一位女性,效果惊人。

欢迎这位逼真的AI妹妹加入家庭。

凯特琳·切德罗伊/ Gemini

Gemini生成完成图像的速度也让我印象深刻,通常在15秒内就能处理完请求。此外,它还在所有创建和编辑的图像上添加了水印,尽管我不喜欢科技公司滥用火花表情符号来标识AI内容,但这一点对于区分AI生成内容与人类创作的图像极为重要。谷歌的SynthID和幕后工作也有助于实现这一目标。

### 存在的问题

然而,Gemini“香蕉”模型存在严重的局限性。它自动生成的是方形图片,当我在后续提示中要求将其转换为其他尺寸时,这些请求要么被忽略,要么失败。

我还注意到,Gemini降低了我许多照片的分辨率。我主要使用iPhone 16拍照,这款手机的摄像头性能出色,但在经过Gemini“香蕉”模型处理后,那些精细的细节往往变得模糊。这对摄影师来说是一个令人烦恼的问题,可能无法赢得他们的青睐。

尽管我要求提亮目标的环形区域,但原始照片(左侧)比AI编辑后的照片(右侧)具有更多的丰富度和质感。

凯特琳·切德罗伊/ Gemini

我尝试让Gemini处理一些对我来说手动操作较为困难的图片编辑任务,这是AI在图片编辑领域应该擅长的部分——自动化繁琐且细节密集的编辑工作。遗憾的是,Gemini在这方面表现不佳,未能遵循我的指示。

我多次尝试让Gemini从一张《Freakier Friday》电影海报的快照中移除反光,但这些反光始终存在。而且,我越是试图移除这些反光,图片的质量就越差,原本清晰的文字最终变得难以辨认,连林赛·洛汉和杰米·李·柯蒂斯的脸也被意外地扭曲得有些吓人。

Gemini“纳米香蕉”在生成不同尺寸的图片方面也遇到了困难。调整和裁剪图片是照片编辑的基本过程,但Gemini似乎无法处理我在提示中给出的简单尺寸指南。

我只希望Gemini能移除海报右上角的反光,但它却扭曲了电影标语和人物的脸部。

凯特琳·切德罗伊/ Gemini

就分辨率和尺寸问题,我联系了谷歌,一位发言人表示,该公司“已经意识到这些问题,并正在积极解决。这次更新相比之前的模型有了很大的进步,我们将继续改进该模型。”

总体而言,Gemini nano香蕉模型向我证明了谷歌在生成媒体领域持续主导的决心。然而,它存在显著的问题,过度关注生成新元素,而非利用人工智能改进和解决常见的照片问题。目前,nano香蕉模型最适合Gemini粉丝快速进行大幅编辑。对于寻求更精准工具的用户来说,我们可能需要等待谷歌的下一个重大更新,或者寻找其他程序。

Gemini nano香蕉模型的可用性、价格和隐私政策

无需任何操作即可访问新模型,它将自动添加到基础Gemini 2.5 Flash模型中。Gemini免费提供,更多模型和更高的使用上限可在谷歌的人工智能计划中获得,起价每月20美元。付费订阅者还可以通过Google AI Studio访问该模型。从那里,只需上传图像并输入提示即可。每个提示根据所需细节的不同,使用大约一千到两千个令牌。Adobe Express和Firefly用户现在也可以使用新模型。

根据谷歌的Gemini隐私政策,公司可以使用您上传的信息来改进其人工智能产品,因此建议避免上传敏感或私人信息。公司的AI禁止使用政策也禁止创建非法或滥用材料。更多信息,请参阅最佳人工智能图像生成器以及谷歌Pixel 10发布会的所有公告。

(以上内容均由Ai生成)

关键词: Ai图像编辑谷歌

你可能还想读

杭州率先为具身智能机器人立法,将明确从业者的伦理“红线”

杭州率先为具身智能机器人立法,将明确从业者的伦理“红线”

快速阅读: 杭州将率先为“具身智能机器人”立法,促进产业发展。《条例(草案)》经市政府常务会议审议通过,涵盖技术创新、基础设施建设、伦理规范等内容,旨在提升产业核心竞争力,推动产品应用落地。 因包括宇树科技在内的“杭州六小龙”爆火出圈而备受 […]

发布时间:2025年10月23日
以AI为纽带,第三期人工智能能力建设研讨班在上海人工智能研究院顺利举行

以AI为纽带,第三期人工智能能力建设研讨班在上海人工智能研究院顺利举行

快速阅读: 10月23日,上海人工智能研究院举办第三期人工智能能力建设研讨班,来自38个国家的政府官员参与。研讨班旨在落实联合国决议,推动AI国际合作,展示中国AI创新成果,促进全球AI普惠发展。 上海人工智能研究院院长 全球工业人工智能联 […]

发布时间:2025年10月23日
Airbnb称赞阿里开源AI模型:快速且经济

Airbnb称赞阿里开源AI模型:快速且经济

快速阅读: Airbnb首席执行官Brian Chesky称赞阿里巴巴Qwen模型,因其速度快、成本低,助力Airbnb客服代理提升效率,计划扩展多语言支持。中国科技企业开源AI策略获国际认可。 家庭住宿预订平台Airbnb赞扬了阿里巴巴的 […]

发布时间:2025年10月23日
比利时考虑对AI数据中心设电力限制

比利时考虑对AI数据中心设电力限制

快速阅读: 比利时电网运营商Elia考虑限制数据中心电力分配,以防其他用户受影响。自2022年以来,数据中心电力需求激增,2034年预留容量超计划两倍。目前数据中心耗电占全国4%,预计2035年将增至10%以上。 比利时电网运营商Elia正 […]

发布时间:2025年10月23日
荣耀YOYO智能体一键领券,Magic8系列轻松比价购物

荣耀YOYO智能体一键领券,Magic8系列轻松比价购物

快速阅读: 荣耀发布自进化AI原生手机Magic8系列,YOYO智能体实现自动领券、比价等功能,简化购物流程,提升用户体验,覆盖购物、美食、出行等多场景。 10 月 15 日,荣耀发布了首款自进化 AI 原生手机 —— 荣耀 Magic8 […]

发布时间:2025年10月23日
阿里Qwen升级Deep Research:一键生成报告、网页及播客

阿里Qwen升级Deep Research:一键生成报告、网页及播客

快速阅读: 阿里巴巴Qwen团队升级Deep Research工具,集成网页版Qwen Chat,提供研究至发布的全流程体验。新功能支持生成研究报告、交互式网页和多说话者播客,涵盖代码生成、图像渲染和语音合成功能,用户可直接使用无需配置基础 […]

发布时间:2025年10月23日
亚马逊测试AI配送眼镜,包裹导航与风险检测一镜完成

亚马逊测试AI配送眼镜,包裹导航与风险检测一镜完成

快速阅读: 亚马逊开发AI智能眼镜,提升送货司机配送效率与安全性,集成AI传感、计算机视觉等功能,支持自动调光与处方镜片定制,正在北美测试并将逐步推广。 【AIbase 报道】亚马逊周三宣布,正为旗下送货司机开发一款 AI 智能眼镜 ,旨在 […]

发布时间:2025年10月23日
通用汽车明年起搭载Google Gemini AI助手,提升驾驶体验

通用汽车明年起搭载Google Gemini AI助手,提升驾驶体验

快速阅读: 通用汽车宣布将在其2015年及以后车型中集成Google Gemini驱动的AI助手,提供导航、消息发送等服务,强调用户体验和隐私保护,标志着汽车行业智能化新阶段。 通用汽车周三在纽约 GM Forward 大会上宣布,将从明年 […]

发布时间:2025年10月23日