谷歌新AI工具“纳米香蕉”图像编辑测试:亮点与局限
快速阅读: 谷歌推出Gemini 2.5 Flash Image模型,即“纳米香蕉”模型,已吸引超1000万用户,创建超2亿张AI图片。模型在图片编辑上展现亮点,但也存在分辨率下降和尺寸调整困难等问题。
在目睹了谷歌最新生成式人工智能工具引发的一系列热烈反响后,我决定亲自试一试。这款名为Gemini 2.5 Flash Image的模型,增强了用户在Gemini平台上直接编辑照片的能力。AI爱好者们戏称其为“纳米香蕉”模型,这源于谷歌高管发布的一系列以香蕉为主题的预告片。
自推出几周以来,人们已创建超过2亿张AI图片,超过1000万人注册使用Gemini应用程序,据谷歌实验室和Gemini副总裁Josh Woodward透露。今年,谷歌在其生成式媒体模型上投入巨大,相继推出了更新版的图像和视频生成器,在年度I/O开发者大会上亮相。谷歌的AI视频生成器Veo 3以其同步音频功能令人印象深刻,这是AI巨头中的首次突破。此外,创作者利用谷歌的AI电影制作工具Flow,已制作出超过1亿部AI视频。
作为一名长期测试AI创意软件的用户,我对谷歌的新产品充满期待。然而,经过对Gemini 2.5 Flash Image的实际测试,我发现虽然它有引人注目的亮点,但并不总是能完全兑现其炒作的承诺。以下是我使用体验的几个方面:
### 成功之处
Gemini“香蕉”模型在向现有图片添加元素方面表现出色,能够将AI生成的元素自然地融入任何拍摄的照片中。它还保持了相当稳定的角色一致性——这意味着我的照片中的人物在经过AI处理后没有出现明显的变形或失真。这两点对于AI图像程序来说至关重要,也是谷歌声称有所改进的地方。
例如,这张我和妹妹的照片中,编辑后的版本(右侧)保留了我们大致的外貌特征,展现了角色的一致性。我要求Gemini添加一个与我们相似的第三位姐妹,它成功地在我们中间添加了一位女性,效果惊人。
欢迎这位逼真的AI妹妹加入家庭。
凯特琳·切德罗伊/ Gemini
Gemini生成完成图像的速度也让我印象深刻,通常在15秒内就能处理完请求。此外,它还在所有创建和编辑的图像上添加了水印,尽管我不喜欢科技公司滥用火花表情符号来标识AI内容,但这一点对于区分AI生成内容与人类创作的图像极为重要。谷歌的SynthID和幕后工作也有助于实现这一目标。
### 存在的问题
然而,Gemini“香蕉”模型存在严重的局限性。它自动生成的是方形图片,当我在后续提示中要求将其转换为其他尺寸时,这些请求要么被忽略,要么失败。
我还注意到,Gemini降低了我许多照片的分辨率。我主要使用iPhone 16拍照,这款手机的摄像头性能出色,但在经过Gemini“香蕉”模型处理后,那些精细的细节往往变得模糊。这对摄影师来说是一个令人烦恼的问题,可能无法赢得他们的青睐。
尽管我要求提亮目标的环形区域,但原始照片(左侧)比AI编辑后的照片(右侧)具有更多的丰富度和质感。
凯特琳·切德罗伊/ Gemini
我尝试让Gemini处理一些对我来说手动操作较为困难的图片编辑任务,这是AI在图片编辑领域应该擅长的部分——自动化繁琐且细节密集的编辑工作。遗憾的是,Gemini在这方面表现不佳,未能遵循我的指示。
我多次尝试让Gemini从一张《Freakier Friday》电影海报的快照中移除反光,但这些反光始终存在。而且,我越是试图移除这些反光,图片的质量就越差,原本清晰的文字最终变得难以辨认,连林赛·洛汉和杰米·李·柯蒂斯的脸也被意外地扭曲得有些吓人。
Gemini“纳米香蕉”在生成不同尺寸的图片方面也遇到了困难。调整和裁剪图片是照片编辑的基本过程,但Gemini似乎无法处理我在提示中给出的简单尺寸指南。
我只希望Gemini能移除海报右上角的反光,但它却扭曲了电影标语和人物的脸部。
凯特琳·切德罗伊/ Gemini
就分辨率和尺寸问题,我联系了谷歌,一位发言人表示,该公司“已经意识到这些问题,并正在积极解决。这次更新相比之前的模型有了很大的进步,我们将继续改进该模型。”
总体而言,Gemini nano香蕉模型向我证明了谷歌在生成媒体领域持续主导的决心。然而,它存在显著的问题,过度关注生成新元素,而非利用人工智能改进和解决常见的照片问题。目前,nano香蕉模型最适合Gemini粉丝快速进行大幅编辑。对于寻求更精准工具的用户来说,我们可能需要等待谷歌的下一个重大更新,或者寻找其他程序。
Gemini nano香蕉模型的可用性、价格和隐私政策
无需任何操作即可访问新模型,它将自动添加到基础Gemini 2.5 Flash模型中。Gemini免费提供,更多模型和更高的使用上限可在谷歌的人工智能计划中获得,起价每月20美元。付费订阅者还可以通过Google AI Studio访问该模型。从那里,只需上传图像并输入提示即可。每个提示根据所需细节的不同,使用大约一千到两千个令牌。Adobe Express和Firefly用户现在也可以使用新模型。
根据谷歌的Gemini隐私政策,公司可以使用您上传的信息来改进其人工智能产品,因此建议避免上传敏感或私人信息。公司的AI禁止使用政策也禁止创建非法或滥用材料。更多信息,请参阅最佳人工智能图像生成器以及谷歌Pixel 10发布会的所有公告。
(以上内容均由Ai生成)