苹果发布Pico-Banana-400K图像编辑数据集

发布时间:2025年10月29日    来源:szf
苹果发布Pico-Banana-400K图像编辑数据集

快速阅读: 苹果发布Pico-Banana-400K数据集,含40万张图像,支持非商业研究,利用Gemini-2.5模型构建,旨在改善文本引导图像编辑技术,涵盖多种编辑需求,为未来模型训练提供资源。

苹果发布了名为“Pico-Banana-400K”的大型研究数据集,该数据集包含400,000张图像,由谷歌的Gemini-2.5模型构建。以下是详细内容:

苹果研究团队发表了一篇题为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》的研究报告。除了研究报告外,他们还公开了完整的400,000张图像数据集,该数据集具有非商业研究许可,这意味着任何人都可以用于学术工作或AI研究,但不能用于商业用途。

几个月前,谷歌发布了名为Gemini-2.5-Flash-Image(也称为Nanon-Banana)的图像编辑模型,被认为是当前最先进的图像编辑模型之一。尽管其他模型也有显著改进,但苹果的研究人员指出,这些模型在某些方面仍存在不足。因此,苹果决定采取行动。

### 构建Pico-Banana-400K

首先,苹果从OpenImages数据集中选取了若干真实照片,以确保涵盖人类、物体和文字场景。然后,研究人员列出35种用户可能要求模型进行的更改,分为8个类别,例如:

– **像素与光度**:添加胶片颗粒或复古滤镜

– **以人为中心**:将人物变成Funko-Pop风格的玩具形象

– **场景组成与多主体**:改变天气条件(晴天/雨天/雪天)

– **对象级语义**:重新定位对象(改变其位置或空间关系)

– **比例**:放大

接下来,研究人员将图像上传到Nanon-Banana,并附上其中一个提示。Nanon-Banana生成编辑后的图像后,Gemini-2.5-Pro会分析结果,根据指令合规性和视觉质量进行批准或拒绝。

最终,Pico-Banana-400K数据集包含了通过单次编辑(单个提示)、多次编辑序列(多个迭代提示)和偏好对(成功与失败结果的比较)生成的图像。尽管承认Nanon-Banana在精细空间编辑、布局推断和排版方面的局限性,研究人员希望Pico-Banana-400K能成为训练和评估下一代文本引导图像编辑模型的坚实基础。

你可以在这篇[arXiv](https://arxiv.org)上的研究论文中找到更多细节,数据集可在[GitHub](https://github.com)上免费获取。

(以上内容均由Ai生成)

你可能还想读

Character.AI限制青少年开放聊天,加强安全措施

Character.AI限制青少年开放聊天,加强安全措施

快速阅读: Character.AI将实施成人专用政策,限制青少年使用开放式AI角色对话,但仍可通过生成视频和角色扮演互动。此举旨在保护青少年安全,同时推出新的年龄验证措施。 AI伴侣聊天机器人公司Character.AI即将实施成人专用政 […]

发布时间:2025年10月29日
模拟芯片加速AI训练,能耗降低千倍

模拟芯片加速AI训练,能耗降低千倍

快速阅读: 北京大学钟孙团队开发模拟芯片,专攻矩阵方程,提升计算精度与能效,有望解决AI模型训练中的能耗问题,性能超越现有数字芯片。 模拟计算机在解决用于训练人工智能模型的关键方程时,比数字计算机更加节能。随着人工智能热潮导致数据中心能源消 […]

发布时间:2025年10月29日
英伟达首次展示Vera Rubin超级芯片,88核CPU配双GPU

英伟达首次展示Vera Rubin超级芯片,88核CPU配双GPU

快速阅读: 鲁宾GPU于2025年9月在台湾封装,散热器尺寸与布莱克威尔相似,无法确定封装尺寸。维拉CPU为多芯片设计,内部有明显接缝。 鲁宾GPU上的标记显示,该处理器于2025年第38周在台湾封装,大约是9月下旬,这表明公司已经使用这款 […]

发布时间:2025年10月29日
Opera One升级内置AI,提升浏览体验

Opera One升级内置AI,提升浏览体验

快速阅读: Opera One R3更新推出全新AI,基于Opera Neon技术,更快速智能,无需第三方扩展,集成安全隐私功能,支持多标签页综合分析及日程管理,界面移至右侧,取代Aria。 作为Opera One R3更新的一部分,我们正 […]

发布时间:2025年10月29日
OpenAI计划2028年前开发全自动AI研究员加速科学发现

OpenAI计划2028年前开发全自动AI研究员加速科学发现

快速阅读: OpenAI计划2028年前开发出全自动AI研究员,加速科学发现,推动超级智能发展;同时完成公司重组,微软持有27%股份,价值1350亿美元。 OpenAI首席执行官萨姆·阿尔特曼宣布,公司计划到2028年开发出一位完全自动化的 […]

发布时间:2025年10月29日
模拟芯片加速AI训练,能耗降低千倍

模拟芯片加速AI训练,能耗降低千倍

快速阅读: 北京大学研发模拟芯片组,提升矩阵方程求解速度和精度,能耗远低于现有数字芯片,有望缓解AI模型训练中的能源消耗问题。 模拟计算机在解决训练人工智能模型所需的关键方程方面速度快且能耗低,可能成为应对数据中心因人工智能热潮而日益增长的 […]

发布时间:2025年10月29日
Phia创始人谈AI如何改变在线购物体验

Phia创始人谈AI如何改变在线购物体验

快速阅读: Phia由Phoebe Gates和Sophia Kianni创立,专注于利用AI改善在线购物体验,提供价格比较及二手商品信息,旨在减少碳足迹并提高购物效率。 当Phia的创始人Phoebe Gates和Sophia Kiann […]

发布时间:2025年10月29日
Adobe展示AI照片编辑新技术,一键完成复杂操作

Adobe展示AI照片编辑新技术,一键完成复杂操作

快速阅读: Adobe Max展示多项摄影新技术,包括Trace Erase、Light Touch和空间照明等工具,通过Firefly AI模型实现快速照片编辑,如一键移除干扰物、调整光线和3D渲染,简化复杂编辑过程。 每年在Adobe […]

发布时间:2025年10月29日