苹果发布Pico-Banana-400K数据集，助力文本引导图像编辑

发布时间：2025年11月6日来源：szf

快速阅读: 苹果研究人员构建Pico-Banana-400K图像数据集，含40万张图像，旨在简化文本引导的图像编辑模型创建。数据集基于Open Images真实图片生成，经Nano-Banana修改及Gemini-2.5-Pro筛选，确保高质量和多样性。

苹果研究人员构建了一个名为 Pico-Banana-400K 的图像数据集，包含 40 万张图像，旨在简化文本引导的图像编辑模型的创建。这些图像基于 Open Images 数据集中的真实图片生成，经过谷歌的 Nano-Banana 修改，并通过 Gemini-2.5-Pro 根据整体质量和提示词一致性进行了筛选。

研究人员表示，该数据集填补了大规模、高质量且完全可共享图像编辑数据集的空白。目前的替代方案要么是人工策划，规模有限，要么是完全合成的，依赖于类似 GPT-4o 的专有模型。

Pico-Banana-400K 与其他合成数据集的不同之处在于其对质量和多样性的系统化追求。研究团队采用了更精细的图像编辑分类法，确保涵盖各种编辑类型，并通过基于多模态语言模型的质量评分机制及严格的策划流程，确保内容的精确保留和指令的一致性。

具体步骤包括从 Open Images 中挑选真实照片，涵盖人物、物体和文字场景；设计一组编辑提示词，用以指导 Nano-Banana 对照片进行编辑；最后，使用 Gemini-2.5-Pro 分析编辑结果，剔除失败的编辑或调整提示词以优化编辑效果。编辑成功的标准包括：指令一致性（占比 40%）、编辑逼真度（占比 25%）、内容保留平衡（占比 20%）和技术质量（占比 15%）。

约有 56000 张生成的图像被保留作为失败案例，用于模型的鲁棒性测试和偏好学习研究。研究团队设计了 35 种编辑类型，分为八个类别，包括像素和光度调整（如改变整体色调）、对象级语义（如重新定位对象，改变对象颜色）、场景构图（如添加新背景）、风格转换（如将照片转换为素描）等。

这些提示词由 Gemini-2.5-Flash 生成。在系统提示词中，模型被要求“编写一个用户可能给图像编辑模型的简洁的自然语言指令……注意可见内容（对象、颜色、位置）并与图像内容密切相关”。随后，使用 Qwen2.5-7B-Instruct 将生成的较长提示词提炼为更简短、更贴近人类表达的提示词，以获得更逼真的结果。

Pico-Banana-400K 包含一个主数据集，其中包含 257000 张使用单轮文本-图像-编辑提示词创建的图像。此外，还有三个专门的子集合：第一个子集合包含 72000 个示例，涉及多轮指令，用于研究连续修改过程中的顺序编辑、推理和规划能力；第二个子集合包含 56000 个示例，主要是失败的图像，用于对齐研究和奖励模型训练；第三个子集合将长编辑指令与短编辑指令配对，支持指令重写和总结能力的开发。

Pico-Banana-400K 数据集可在 GitHub 上获取，采用知识共享署名非商业性使用禁止演绎 (CC BY-NC-ND 4.0) 许可，而 Open Images 原图则基于 CC BY 2.0 许可。

(以上内容均由Ai生成)