苹果发布Pico-Banana-400K图像编辑数据集
快速阅读: 苹果发布Pico-Banana-400K数据集,含40万张图像,支持非商业研究,利用Gemini-2.5模型构建,旨在改善文本引导图像编辑技术,涵盖多种编辑需求,为未来模型训练提供资源。
苹果发布了名为“Pico-Banana-400K”的大型研究数据集,该数据集包含400,000张图像,由谷歌的Gemini-2.5模型构建。以下是详细内容:
苹果研究团队发表了一篇题为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》的研究报告。除了研究报告外,他们还公开了完整的400,000张图像数据集,该数据集具有非商业研究许可,这意味着任何人都可以用于学术工作或AI研究,但不能用于商业用途。
几个月前,谷歌发布了名为Gemini-2.5-Flash-Image(也称为Nanon-Banana)的图像编辑模型,被认为是当前最先进的图像编辑模型之一。尽管其他模型也有显著改进,但苹果的研究人员指出,这些模型在某些方面仍存在不足。因此,苹果决定采取行动。
### 构建Pico-Banana-400K
首先,苹果从OpenImages数据集中选取了若干真实照片,以确保涵盖人类、物体和文字场景。然后,研究人员列出35种用户可能要求模型进行的更改,分为8个类别,例如:
– **像素与光度**:添加胶片颗粒或复古滤镜
– **以人为中心**:将人物变成Funko-Pop风格的玩具形象
– **场景组成与多主体**:改变天气条件(晴天/雨天/雪天)
– **对象级语义**:重新定位对象(改变其位置或空间关系)
– **比例**:放大
接下来,研究人员将图像上传到Nanon-Banana,并附上其中一个提示。Nanon-Banana生成编辑后的图像后,Gemini-2.5-Pro会分析结果,根据指令合规性和视觉质量进行批准或拒绝。
最终,Pico-Banana-400K数据集包含了通过单次编辑(单个提示)、多次编辑序列(多个迭代提示)和偏好对(成功与失败结果的比较)生成的图像。尽管承认Nanon-Banana在精细空间编辑、布局推断和排版方面的局限性,研究人员希望Pico-Banana-400K能成为训练和评估下一代文本引导图像编辑模型的坚实基础。
你可以在这篇[arXiv](https://arxiv.org)上的研究论文中找到更多细节,数据集可在[GitHub](https://github.com)上免费获取。
(以上内容均由Ai生成)