苹果发布Pico-Banana-400K数据集,助力文本引导图像编辑

发布时间:2025年11月6日    来源:szf
苹果发布Pico-Banana-400K数据集,助力文本引导图像编辑

快速阅读: 苹果研究人员构建Pico-Banana-400K图像数据集,含40万张图像,旨在简化文本引导的图像编辑模型创建。数据集基于Open Images真实图片生成,经Nano-Banana修改及Gemini-2.5-Pro筛选,确保高质量和多样性。

苹果研究人员构建了一个名为 Pico-Banana-400K 的图像数据集,包含 40 万张图像,旨在简化文本引导的图像编辑模型的创建。这些图像基于 Open Images 数据集中的真实图片生成,经过谷歌的 Nano-Banana 修改,并通过 Gemini-2.5-Pro 根据整体质量和提示词一致性进行了筛选。

研究人员表示,该数据集填补了大规模、高质量且完全可共享图像编辑数据集的空白。目前的替代方案要么是人工策划,规模有限,要么是完全合成的,依赖于类似 GPT-4o 的专有模型。

Pico-Banana-400K 与其他合成数据集的不同之处在于其对质量和多样性的系统化追求。研究团队采用了更精细的图像编辑分类法,确保涵盖各种编辑类型,并通过基于多模态语言模型的质量评分机制及严格的策划流程,确保内容的精确保留和指令的一致性。

具体步骤包括从 Open Images 中挑选真实照片,涵盖人物、物体和文字场景;设计一组编辑提示词,用以指导 Nano-Banana 对照片进行编辑;最后,使用 Gemini-2.5-Pro 分析编辑结果,剔除失败的编辑或调整提示词以优化编辑效果。编辑成功的标准包括:指令一致性(占比 40%)、编辑逼真度(占比 25%)、内容保留平衡(占比 20%)和技术质量(占比 15%)。

约有 56000 张生成的图像被保留作为失败案例,用于模型的鲁棒性测试和偏好学习研究。研究团队设计了 35 种编辑类型,分为八个类别,包括像素和光度调整(如改变整体色调)、对象级语义(如重新定位对象,改变对象颜色)、场景构图(如添加新背景)、风格转换(如将照片转换为素描)等。

这些提示词由 Gemini-2.5-Flash 生成。在系统提示词中,模型被要求“编写一个用户可能给图像编辑模型的简洁的自然语言指令……注意可见内容(对象、颜色、位置)并与图像内容密切相关”。随后,使用 Qwen2.5-7B-Instruct 将生成的较长提示词提炼为更简短、更贴近人类表达的提示词,以获得更逼真的结果。

Pico-Banana-400K 包含一个主数据集,其中包含 257000 张使用单轮文本-图像-编辑提示词创建的图像。此外,还有三个专门的子集合:第一个子集合包含 72000 个示例,涉及多轮指令,用于研究连续修改过程中的顺序编辑、推理和规划能力;第二个子集合包含 56000 个示例,主要是失败的图像,用于对齐研究和奖励模型训练;第三个子集合将长编辑指令与短编辑指令配对,支持指令重写和总结能力的开发。

Pico-Banana-400K 数据集可在 GitHub 上获取,采用知识共享署名非商业性使用禁止演绎 (CC BY-NC-ND 4.0) 许可,而 Open Images 原图则基于 CC BY 2.0 许可。

(以上内容均由Ai生成)

你可能还想读

Vaani AI打造更人性化的数字语音未来

Vaani AI打造更人性化的数字语音未来

快速阅读: 班加罗尔初创公司Vaani AI开发了一种先进的语音系统,提供自然、智能的数字通信体验。该系统集成了语音识别、文本转语音和大型语言模型,通过单一平台优化性能,帮助企业构建可靠的语音解决方案。 在当今数字世界中,语音正成为与技术互 […]

发布时间:2025年11月6日
Contineu.ai用AI摄像头革新建筑工地管理

Contineu.ai用AI摄像头革新建筑工地管理

快速阅读: 班加罗尔SaaS初创公司Contineu.ai利用360度摄像头和AI技术自动监控建筑工地,解决数据收集不准确问题,提高决策效率。2023年12月获120万美元种子资金,客户包括MTM Smart World等。 近年来,建筑技 […]

发布时间:2025年11月6日
Bolna AI打造多语言企业语音基础设施

Bolna AI打造多语言企业语音基础设施

快速阅读: Bolna AI开发语音AI基础设施,帮助企业自动化对话,解决印度多语言环境下的语音通信难题。公司提供按分钟计费的语音代理服务,目标成为语音自动化主要平台。 在印度,语音通信仍然是企业与客户互动的主要方式,无论是银行跟进贷款、招 […]

发布时间:2025年11月6日
台日产业团体签署绿色科技与AI合作协定

台日产业团体签署绿色科技与AI合作协定

快速阅读: 台湾和日本行业团体在高雄签署合作协议,聚焦可持续技术和AI应用。中小企业暨新创事业处处长李冠志表示,此举将促进台湾企业融入日本供应链,开拓合作机会。 台北(台湾新闻)——台湾和日本的行业团体周四在高雄举行的可持续台湾博览会上签署 […]

发布时间:2025年11月6日
苹果拟每年支付约13亿美元使用谷歌AI技术升级Siri

苹果拟每年支付约13亿美元使用谷歌AI技术升级Siri

快速阅读: 苹果计划采用谷歌1.2万亿参数AI模型升级Siri,预计2026年推出新功能,年付10亿美元。此合作为过渡方案,旨在弥补苹果AI技术短板,直至自研模型成熟。 洛杉矶 —— 据知情人士透露,苹果公司计划采用谷歌开发的1.2万亿参数 […]

发布时间:2025年11月6日
苹果谷歌合作,Gemini AI将为新款iPhone提供支持

苹果谷歌合作,Gemini AI将为新款iPhone提供支持

快速阅读: 苹果与谷歌达成协议,苹果获世界级LLM能力,支持AI内容摘要等功能;谷歌获巨额财务收益。Gemini模型运行于苹果私有云,确保用户数据隐私。 该协议为双方带来了双赢的局面。苹果公司能够立即获得世界级的LLM能力,用于支持如AI内 […]

发布时间:2025年11月6日
无人机助力重庆柠檬产业腾飞

无人机助力重庆柠檬产业腾飞

快速阅读: 重庆潼南区利用无人机和自动化技术提高柠檬产业效率,无人机每日可运输20吨柠檬,自动化生产线每小时处理超50吨,推动当地柠檬出口增长,年产值预计达90亿元。 重庆,11月6日(新华社)——刘万云家族几代人都是手工采摘柠檬,弯腰摘果 […]

发布时间:2025年11月6日
“AI新词‘vibe coding’当选柯林斯年度词汇”

“AI新词‘vibe coding’当选柯林斯年度词汇”

快速阅读: 《柯林斯词典》将“氛围编程”评为2025年度词汇,该技术利用AI将自然语言转化为代码,自2月首次出现以来使用频率大增,由特斯拉前AI总监安德烈·卡帕西提出,使开发者能更专注于创意而非代码。 伦敦,11月6日——据PA Media […]

发布时间:2025年11月6日