AI

谷歌新AI工具“纳米香蕉”图像编辑测试:亮点与局限

发布时间:2025年9月7日    来源:szf
谷歌新AI工具“纳米香蕉”图像编辑测试:亮点与局限

快速阅读: 谷歌推出Gemini 2.5 Flash Image模型,即“纳米香蕉”模型,已吸引超1000万用户,创建超2亿张AI图片。模型在图片编辑上展现亮点,但也存在分辨率下降和尺寸调整困难等问题。

在目睹了谷歌最新生成式人工智能工具引发的一系列热烈反响后,我决定亲自试一试。这款名为Gemini 2.5 Flash Image的模型,增强了用户在Gemini平台上直接编辑照片的能力。AI爱好者们戏称其为“纳米香蕉”模型,这源于谷歌高管发布的一系列以香蕉为主题的预告片。

自推出几周以来,人们已创建超过2亿张AI图片,超过1000万人注册使用Gemini应用程序,据谷歌实验室和Gemini副总裁Josh Woodward透露。今年,谷歌在其生成式媒体模型上投入巨大,相继推出了更新版的图像和视频生成器,在年度I/O开发者大会上亮相。谷歌的AI视频生成器Veo 3以其同步音频功能令人印象深刻,这是AI巨头中的首次突破。此外,创作者利用谷歌的AI电影制作工具Flow,已制作出超过1亿部AI视频。

作为一名长期测试AI创意软件的用户,我对谷歌的新产品充满期待。然而,经过对Gemini 2.5 Flash Image的实际测试,我发现虽然它有引人注目的亮点,但并不总是能完全兑现其炒作的承诺。以下是我使用体验的几个方面:

### 成功之处

Gemini“香蕉”模型在向现有图片添加元素方面表现出色,能够将AI生成的元素自然地融入任何拍摄的照片中。它还保持了相当稳定的角色一致性——这意味着我的照片中的人物在经过AI处理后没有出现明显的变形或失真。这两点对于AI图像程序来说至关重要,也是谷歌声称有所改进的地方。

例如,这张我和妹妹的照片中,编辑后的版本(右侧)保留了我们大致的外貌特征,展现了角色的一致性。我要求Gemini添加一个与我们相似的第三位姐妹,它成功地在我们中间添加了一位女性,效果惊人。

欢迎这位逼真的AI妹妹加入家庭。

凯特琳·切德罗伊/ Gemini

Gemini生成完成图像的速度也让我印象深刻,通常在15秒内就能处理完请求。此外,它还在所有创建和编辑的图像上添加了水印,尽管我不喜欢科技公司滥用火花表情符号来标识AI内容,但这一点对于区分AI生成内容与人类创作的图像极为重要。谷歌的SynthID和幕后工作也有助于实现这一目标。

### 存在的问题

然而,Gemini“香蕉”模型存在严重的局限性。它自动生成的是方形图片,当我在后续提示中要求将其转换为其他尺寸时,这些请求要么被忽略,要么失败。

我还注意到,Gemini降低了我许多照片的分辨率。我主要使用iPhone 16拍照,这款手机的摄像头性能出色,但在经过Gemini“香蕉”模型处理后,那些精细的细节往往变得模糊。这对摄影师来说是一个令人烦恼的问题,可能无法赢得他们的青睐。

尽管我要求提亮目标的环形区域,但原始照片(左侧)比AI编辑后的照片(右侧)具有更多的丰富度和质感。

凯特琳·切德罗伊/ Gemini

我尝试让Gemini处理一些对我来说手动操作较为困难的图片编辑任务,这是AI在图片编辑领域应该擅长的部分——自动化繁琐且细节密集的编辑工作。遗憾的是,Gemini在这方面表现不佳,未能遵循我的指示。

我多次尝试让Gemini从一张《Freakier Friday》电影海报的快照中移除反光,但这些反光始终存在。而且,我越是试图移除这些反光,图片的质量就越差,原本清晰的文字最终变得难以辨认,连林赛·洛汉和杰米·李·柯蒂斯的脸也被意外地扭曲得有些吓人。

Gemini“纳米香蕉”在生成不同尺寸的图片方面也遇到了困难。调整和裁剪图片是照片编辑的基本过程,但Gemini似乎无法处理我在提示中给出的简单尺寸指南。

我只希望Gemini能移除海报右上角的反光,但它却扭曲了电影标语和人物的脸部。

凯特琳·切德罗伊/ Gemini

就分辨率和尺寸问题,我联系了谷歌,一位发言人表示,该公司“已经意识到这些问题,并正在积极解决。这次更新相比之前的模型有了很大的进步,我们将继续改进该模型。”

总体而言,Gemini nano香蕉模型向我证明了谷歌在生成媒体领域持续主导的决心。然而,它存在显著的问题,过度关注生成新元素,而非利用人工智能改进和解决常见的照片问题。目前,nano香蕉模型最适合Gemini粉丝快速进行大幅编辑。对于寻求更精准工具的用户来说,我们可能需要等待谷歌的下一个重大更新,或者寻找其他程序。

Gemini nano香蕉模型的可用性、价格和隐私政策

无需任何操作即可访问新模型,它将自动添加到基础Gemini 2.5 Flash模型中。Gemini免费提供,更多模型和更高的使用上限可在谷歌的人工智能计划中获得,起价每月20美元。付费订阅者还可以通过Google AI Studio访问该模型。从那里,只需上传图像并输入提示即可。每个提示根据所需细节的不同,使用大约一千到两千个令牌。Adobe Express和Firefly用户现在也可以使用新模型。

根据谷歌的Gemini隐私政策,公司可以使用您上传的信息来改进其人工智能产品,因此建议避免上传敏感或私人信息。公司的AI禁止使用政策也禁止创建非法或滥用材料。更多信息,请参阅最佳人工智能图像生成器以及谷歌Pixel 10发布会的所有公告。

(以上内容均由Ai生成)

关键词: Ai图像编辑谷歌

你可能还想读

芯纬内部人士抛售超10亿美元股票引发警报

芯纬内部人士抛售超10亿美元股票引发警报

快速阅读: 纳斯达克上市公司CoreWeave因内部人士大量抛售股票受关注,10月交易超10亿美元,股价承压下跌,引发投资者对该公司信心的质疑。 纳斯达克上市的CoreWeave (CRVW)因内部人士大量抛售股票而受到广泛关注。10月,一 […]

发布时间:2025年10月24日
升腾首席分析与AI官:用数学背景解决医疗问题

升腾首席分析与AI官:用数学背景解决医疗问题

快速阅读: 安森斯首席分析与人工智能官卡提克·拉贾强调,人工智能是一类问题而非单一事物,需识别并应用正确方法解决。他领导团队利用AI优化医疗流程,提高决策效率,同时注重人才培养和道德领导。 卡提克·拉贾,这家覆盖16个州的大型医疗系统首席分 […]

发布时间:2025年10月24日
格拉斯利宣布法官使用AI致法庭命令出错,实施新政

格拉斯利宣布法官使用AI致法庭命令出错,实施新政

快速阅读: 美国参议院司法委员会主席格拉斯利宣布收到法官们关于AI导致法院命令出错的回应,法官温盖特和尼尔斯承认错误并实施新政策,确保命令准确性,同时法院行政办公室成立AI咨询工作组,发布临时指导方针。 美国参议院司法委员会主席查克·格拉斯 […]

发布时间:2025年10月24日
AI视频生成系统不断进步,ChatGPT创始人更新发展计划

AI视频生成系统不断进步,ChatGPT创始人更新发展计划

快速阅读: 本周,顶尖开发者公布人工智能视频生成系统的最新进展,包括即将推出的安卓应用。该技术融合多种特性,引发艺术与伦理讨论,但仍不断进步,输出效果惊人。 基于人工智能的视频生成系统集多种特性于一身。的确,它们引发了关于艺术、创作者角色及 […]

发布时间:2025年10月24日
美法官承认职员用AI起草错误命令

美法官承认职员用AI起草错误命令

快速阅读: 美国地方法官温盖特承认其法律助理使用AI程序起草了有误的法院命令,引发争议。温盖特表示将加强审查流程,避免类似错误。参议员格拉斯利呼吁制定更明确的AI使用政策。 密西西比州的一名联邦法官承认,其工作人员使用人工智能起草了一份有误 […]

发布时间:2025年10月24日
ChatGPT遭遇重大故障,用户报告服务中断

ChatGPT遭遇重大故障,用户报告服务中断

快速阅读: ChatGPT遭遇重大技术故障,OpenAI确认“高频率错误”,用户反馈广泛。故障始于周四上午11时(美国东部时间),Downdetector数据显示问题激增。 受连续强降雨影响,南部多地出现洪水,相关部门紧急启动防汛响应。Ch […]

发布时间:2025年10月24日
OpenAI推新浏览器Atlas,挑战Google Chrome

OpenAI推新浏览器Atlas,挑战Google Chrome

快速阅读: OpenAI推出ChatGPT Atlas浏览器,挑战谷歌Chrome,集成AI功能助用户高效完成任务,计划近期增加标签组和广告拦截器等新特性。 萨姆·阿尔特曼的OpenAI继续将其生成式AI模型整合到全球大多数人的日常工具—— […]

发布时间:2025年10月24日
ChatGPT短暂故障后恢复,医疗咨询模式引关注

ChatGPT短暂故障后恢复,医疗咨询模式引关注

快速阅读: 医学研究人员报告AI医疗失误案例,患者因咨询ChatGPT致溴化物中毒精神错乱。专家长期担忧此问题,OpenAI推出专门医疗建议模式应对。 几周前,一位医学研究人员报告了一起由AI引发的医疗失误案例,详细描述了一名患者因咨询Ch […]

发布时间:2025年10月24日