谷歌新AI工具“纳米香蕉”图像编辑测试：亮点与局限

快速阅读: 谷歌推出Gemini 2.5 Flash Image模型，即“纳米香蕉”模型，已吸引超1000万用户，创建超2亿张AI图片。模型在图片编辑上展现亮点，但也存在分辨率下降和尺寸调整困难等问题。

在目睹了谷歌最新生成式人工智能工具引发的一系列热烈反响后，我决定亲自试一试。这款名为Gemini 2.5 Flash Image的模型，增强了用户在Gemini平台上直接编辑照片的能力。AI爱好者们戏称其为“纳米香蕉”模型，这源于谷歌高管发布的一系列以香蕉为主题的预告片。

自推出几周以来，人们已创建超过2亿张AI图片，超过1000万人注册使用Gemini应用程序，据谷歌实验室和Gemini副总裁Josh Woodward透露。今年，谷歌在其生成式媒体模型上投入巨大，相继推出了更新版的图像和视频生成器，在年度I/O开发者大会上亮相。谷歌的AI视频生成器Veo 3以其同步音频功能令人印象深刻，这是AI巨头中的首次突破。此外，创作者利用谷歌的AI电影制作工具Flow，已制作出超过1亿部AI视频。

作为一名长期测试AI创意软件的用户，我对谷歌的新产品充满期待。然而，经过对Gemini 2.5 Flash Image的实际测试，我发现虽然它有引人注目的亮点，但并不总是能完全兑现其炒作的承诺。以下是我使用体验的几个方面：

### 成功之处

Gemini“香蕉”模型在向现有图片添加元素方面表现出色，能够将AI生成的元素自然地融入任何拍摄的照片中。它还保持了相当稳定的角色一致性——这意味着我的照片中的人物在经过AI处理后没有出现明显的变形或失真。这两点对于AI图像程序来说至关重要，也是谷歌声称有所改进的地方。

例如，这张我和妹妹的照片中，编辑后的版本（右侧）保留了我们大致的外貌特征，展现了角色的一致性。我要求Gemini添加一个与我们相似的第三位姐妹，它成功地在我们中间添加了一位女性，效果惊人。

欢迎这位逼真的AI妹妹加入家庭。

凯特琳·切德罗伊/ Gemini

Gemini生成完成图像的速度也让我印象深刻，通常在15秒内就能处理完请求。此外，它还在所有创建和编辑的图像上添加了水印，尽管我不喜欢科技公司滥用火花表情符号来标识AI内容，但这一点对于区分AI生成内容与人类创作的图像极为重要。谷歌的SynthID和幕后工作也有助于实现这一目标。

### 存在的问题

然而，Gemini“香蕉”模型存在严重的局限性。它自动生成的是方形图片，当我在后续提示中要求将其转换为其他尺寸时，这些请求要么被忽略，要么失败。

我还注意到，Gemini降低了我许多照片的分辨率。我主要使用iPhone 16拍照，这款手机的摄像头性能出色，但在经过Gemini“香蕉”模型处理后，那些精细的细节往往变得模糊。这对摄影师来说是一个令人烦恼的问题，可能无法赢得他们的青睐。

尽管我要求提亮目标的环形区域，但原始照片（左侧）比AI编辑后的照片（右侧）具有更多的丰富度和质感。

凯特琳·切德罗伊/ Gemini

我尝试让Gemini处理一些对我来说手动操作较为困难的图片编辑任务，这是AI在图片编辑领域应该擅长的部分——自动化繁琐且细节密集的编辑工作。遗憾的是，Gemini在这方面表现不佳，未能遵循我的指示。

我多次尝试让Gemini从一张《Freakier Friday》电影海报的快照中移除反光，但这些反光始终存在。而且，我越是试图移除这些反光，图片的质量就越差，原本清晰的文字最终变得难以辨认，连林赛·洛汉和杰米·李·柯蒂斯的脸也被意外地扭曲得有些吓人。

Gemini“纳米香蕉”在生成不同尺寸的图片方面也遇到了困难。调整和裁剪图片是照片编辑的基本过程，但Gemini似乎无法处理我在提示中给出的简单尺寸指南。

我只希望Gemini能移除海报右上角的反光，但它却扭曲了电影标语和人物的脸部。

凯特琳·切德罗伊/ Gemini

就分辨率和尺寸问题，我联系了谷歌，一位发言人表示，该公司“已经意识到这些问题，并正在积极解决。这次更新相比之前的模型有了很大的进步，我们将继续改进该模型。”

总体而言，Gemini nano香蕉模型向我证明了谷歌在生成媒体领域持续主导的决心。然而，它存在显著的问题，过度关注生成新元素，而非利用人工智能改进和解决常见的照片问题。目前，nano香蕉模型最适合Gemini粉丝快速进行大幅编辑。对于寻求更精准工具的用户来说，我们可能需要等待谷歌的下一个重大更新，或者寻找其他程序。

Gemini nano香蕉模型的可用性、价格和隐私政策

无需任何操作即可访问新模型，它将自动添加到基础Gemini 2.5 Flash模型中。Gemini免费提供，更多模型和更高的使用上限可在谷歌的人工智能计划中获得，起价每月20美元。付费订阅者还可以通过Google AI Studio访问该模型。从那里，只需上传图像并输入提示即可。每个提示根据所需细节的不同，使用大约一千到两千个令牌。Adobe Express和Firefly用户现在也可以使用新模型。

根据谷歌的Gemini隐私政策，公司可以使用您上传的信息来改进其人工智能产品，因此建议避免上传敏感或私人信息。公司的AI禁止使用政策也禁止创建非法或滥用材料。更多信息，请参阅最佳人工智能图像生成器以及谷歌Pixel 10发布会的所有公告。

(以上内容均由Ai生成)