苹果发布Pico-Banana-400K图像编辑数据集

发布时间：2025年10月29日来源：szf

快速阅读: 苹果发布Pico-Banana-400K数据集，含40万张图像，支持非商业研究，利用Gemini-2.5模型构建，旨在改善文本引导图像编辑技术，涵盖多种编辑需求，为未来模型训练提供资源。

苹果发布了名为“Pico-Banana-400K”的大型研究数据集，该数据集包含400,000张图像，由谷歌的Gemini-2.5模型构建。以下是详细内容：

苹果研究团队发表了一篇题为《Pico-Banana-400K：面向文本引导图像编辑的大规模数据集》的研究报告。除了研究报告外，他们还公开了完整的400,000张图像数据集，该数据集具有非商业研究许可，这意味着任何人都可以用于学术工作或AI研究，但不能用于商业用途。

几个月前，谷歌发布了名为Gemini-2.5-Flash-Image（也称为Nanon-Banana）的图像编辑模型，被认为是当前最先进的图像编辑模型之一。尽管其他模型也有显著改进，但苹果的研究人员指出，这些模型在某些方面仍存在不足。因此，苹果决定采取行动。

### 构建Pico-Banana-400K

首先，苹果从OpenImages数据集中选取了若干真实照片，以确保涵盖人类、物体和文字场景。然后，研究人员列出35种用户可能要求模型进行的更改，分为8个类别，例如：

– **像素与光度**：添加胶片颗粒或复古滤镜

– **以人为中心**：将人物变成Funko-Pop风格的玩具形象

– **场景组成与多主体**：改变天气条件（晴天/雨天/雪天）

– **对象级语义**：重新定位对象（改变其位置或空间关系）

– **比例**：放大

接下来，研究人员将图像上传到Nanon-Banana，并附上其中一个提示。Nanon-Banana生成编辑后的图像后，Gemini-2.5-Pro会分析结果，根据指令合规性和视觉质量进行批准或拒绝。

最终，Pico-Banana-400K数据集包含了通过单次编辑（单个提示）、多次编辑序列（多个迭代提示）和偏好对（成功与失败结果的比较）生成的图像。尽管承认Nanon-Banana在精细空间编辑、布局推断和排版方面的局限性，研究人员希望Pico-Banana-400K能成为训练和评估下一代文本引导图像编辑模型的坚实基础。

你可以在这篇[arXiv](https://arxiv.org)上的研究论文中找到更多细节，数据集可在[GitHub](https://github.com)上免费获取。

(以上内容均由Ai生成)