苹果发布Pico-Banana-400K数据集,助力文本引导图像编辑
快速阅读: 苹果研究人员构建Pico-Banana-400K图像数据集,含40万张图像,旨在简化文本引导的图像编辑模型创建。数据集基于Open Images真实图片生成,经Nano-Banana修改及Gemini-2.5-Pro筛选,确保高质量和多样性。
苹果研究人员构建了一个名为 Pico-Banana-400K 的图像数据集,包含 40 万张图像,旨在简化文本引导的图像编辑模型的创建。这些图像基于 Open Images 数据集中的真实图片生成,经过谷歌的 Nano-Banana 修改,并通过 Gemini-2.5-Pro 根据整体质量和提示词一致性进行了筛选。
研究人员表示,该数据集填补了大规模、高质量且完全可共享图像编辑数据集的空白。目前的替代方案要么是人工策划,规模有限,要么是完全合成的,依赖于类似 GPT-4o 的专有模型。
Pico-Banana-400K 与其他合成数据集的不同之处在于其对质量和多样性的系统化追求。研究团队采用了更精细的图像编辑分类法,确保涵盖各种编辑类型,并通过基于多模态语言模型的质量评分机制及严格的策划流程,确保内容的精确保留和指令的一致性。
具体步骤包括从 Open Images 中挑选真实照片,涵盖人物、物体和文字场景;设计一组编辑提示词,用以指导 Nano-Banana 对照片进行编辑;最后,使用 Gemini-2.5-Pro 分析编辑结果,剔除失败的编辑或调整提示词以优化编辑效果。编辑成功的标准包括:指令一致性(占比 40%)、编辑逼真度(占比 25%)、内容保留平衡(占比 20%)和技术质量(占比 15%)。
约有 56000 张生成的图像被保留作为失败案例,用于模型的鲁棒性测试和偏好学习研究。研究团队设计了 35 种编辑类型,分为八个类别,包括像素和光度调整(如改变整体色调)、对象级语义(如重新定位对象,改变对象颜色)、场景构图(如添加新背景)、风格转换(如将照片转换为素描)等。
这些提示词由 Gemini-2.5-Flash 生成。在系统提示词中,模型被要求“编写一个用户可能给图像编辑模型的简洁的自然语言指令……注意可见内容(对象、颜色、位置)并与图像内容密切相关”。随后,使用 Qwen2.5-7B-Instruct 将生成的较长提示词提炼为更简短、更贴近人类表达的提示词,以获得更逼真的结果。
Pico-Banana-400K 包含一个主数据集,其中包含 257000 张使用单轮文本-图像-编辑提示词创建的图像。此外,还有三个专门的子集合:第一个子集合包含 72000 个示例,涉及多轮指令,用于研究连续修改过程中的顺序编辑、推理和规划能力;第二个子集合包含 56000 个示例,主要是失败的图像,用于对齐研究和奖励模型训练;第三个子集合将长编辑指令与短编辑指令配对,支持指令重写和总结能力的开发。
Pico-Banana-400K 数据集可在 GitHub 上获取,采用知识共享署名非商业性使用禁止演绎 (CC BY-NC-ND 4.0) 许可,而 Open Images 原图则基于 CC BY 2.0 许可。
(以上内容均由Ai生成)