苹果发布Pico-Banana-400K图像编辑数据集

发布时间:2025年10月29日    来源:szf
苹果发布Pico-Banana-400K图像编辑数据集

快速阅读: 苹果发布Pico-Banana-400K数据集,含40万张图像,支持非商业研究,利用Gemini-2.5模型构建,旨在改善文本引导图像编辑技术,涵盖多种编辑需求,为未来模型训练提供资源。

苹果发布了名为“Pico-Banana-400K”的大型研究数据集,该数据集包含400,000张图像,由谷歌的Gemini-2.5模型构建。以下是详细内容:

苹果研究团队发表了一篇题为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》的研究报告。除了研究报告外,他们还公开了完整的400,000张图像数据集,该数据集具有非商业研究许可,这意味着任何人都可以用于学术工作或AI研究,但不能用于商业用途。

几个月前,谷歌发布了名为Gemini-2.5-Flash-Image(也称为Nanon-Banana)的图像编辑模型,被认为是当前最先进的图像编辑模型之一。尽管其他模型也有显著改进,但苹果的研究人员指出,这些模型在某些方面仍存在不足。因此,苹果决定采取行动。

### 构建Pico-Banana-400K

首先,苹果从OpenImages数据集中选取了若干真实照片,以确保涵盖人类、物体和文字场景。然后,研究人员列出35种用户可能要求模型进行的更改,分为8个类别,例如:

– **像素与光度**:添加胶片颗粒或复古滤镜

– **以人为中心**:将人物变成Funko-Pop风格的玩具形象

– **场景组成与多主体**:改变天气条件(晴天/雨天/雪天)

– **对象级语义**:重新定位对象(改变其位置或空间关系)

– **比例**:放大

接下来,研究人员将图像上传到Nanon-Banana,并附上其中一个提示。Nanon-Banana生成编辑后的图像后,Gemini-2.5-Pro会分析结果,根据指令合规性和视觉质量进行批准或拒绝。

最终,Pico-Banana-400K数据集包含了通过单次编辑(单个提示)、多次编辑序列(多个迭代提示)和偏好对(成功与失败结果的比较)生成的图像。尽管承认Nanon-Banana在精细空间编辑、布局推断和排版方面的局限性,研究人员希望Pico-Banana-400K能成为训练和评估下一代文本引导图像编辑模型的坚实基础。

你可以在这篇[arXiv](https://arxiv.org)上的研究论文中找到更多细节,数据集可在[GitHub](https://github.com)上免费获取。

(以上内容均由Ai生成)

你可能还想读

三星扩大先进芯片生产,应对全球AI需求激增

三星扩大先进芯片生产,应对全球AI需求激增

快速阅读: 三星电子预计全球AI基础设施建设对内存芯片需求将超供应,计划扩大HBM芯片生产。三季度内存芯片收入创历史新高,股价上涨5.3%。 三星电子预计,全球人工智能基础设施建设对内存芯片的需求将远远超过公司的供应能力,并于周四表示,将专 […]

发布时间:2025年10月30日
UMG与Udio达成协议,推出AI音乐创作平台

UMG与Udio达成协议,推出AI音乐创作平台

快速阅读: 环球音乐集团与Udio达成协议,结束版权侵权诉讼,双方将合作推出结合音乐创作与流媒体功能的新平台,计划2026年上线,用户可在平台上创作、播放和分享音乐,但作品不可导出。 环球音乐集团(Universal Music Group […]

发布时间:2025年10月30日
Amplitude推出AI可见性工具,助力品牌优化AI搜索结果

Amplitude推出AI可见性工具,助力品牌优化AI搜索结果

快速阅读: Amplitude推出AI Visibility功能,帮助品牌了解在AI搜索结果中的表现,提供改进建议。此功能涵盖可见度评分、流量和ROI追踪等,助力品牌在AI搜索中脱颖而出。 数字分析平台Amplitude, Inc.推出了一 […]

发布时间:2025年10月30日
OpenAI筹划IPO,估值或达万亿美元

OpenAI筹划IPO,估值或达万亿美元

快速阅读: OpenAI正筹备可能估值达1万亿美元的IPO,计划最早2026下半年提交申请,目标2027年上市。此次IPO将减少对微软依赖,支持AI基础设施发展。 美国旧金山——据三位知情人士透露,OpenAI 正在为可能估值高达1万亿美元 […]

发布时间:2025年10月30日
微软大举投资AI引发投资者担忧,股价下滑

微软大举投资AI引发投资者担忧,股价下滑

快速阅读: 微软财年第一季度资本支出创350亿美元新高,Azure云业务增长40%超预期,但股价因支出担忧盘后跌4%。 微软为满足不断增长的云服务需求而增加的人工智能基础设施支出超出华尔街预期,加剧了投资者对维持这一繁荣所需成本的担忧。这家 […]

发布时间:2025年10月30日
OpenAI筹备IPO,估值或达万亿美元

OpenAI筹备IPO,估值或达万亿美元

快速阅读: OpenAI正筹备可能估值达1万亿美元的IPO,计划最早2026下半年提交申请,目标2027年上市,预计年收入200亿美元。重组后减少对微软依赖,IPO将助其扩大融资和收购能力。 据知情人士透露,OpenAI 正在为可能估值高达 […]

发布时间:2025年10月30日
美议员警告特朗普:批准英伟达芯片对华出口危及国家安全

美议员警告特朗普:批准英伟达芯片对华出口危及国家安全

快速阅读: 美国国会反对特朗普批准英伟达向中国出口Blackwell AI芯片,警告可能损害国家安全和美技术领先,比作提供先进武器,呼吁维持2022年出口管制。 美国国会强烈反对特朗普总统可能批准英伟达向中国出口Blackwell AI芯片 […]

发布时间:2025年10月30日
科技巨头豪掷800亿美元投资AI,考验投资者耐心

科技巨头豪掷800亿美元投资AI,考验投资者耐心

快速阅读: 谷歌、Meta和微软过去一季度在AI基础设施投资近800亿美元,投资者反应却较为冷淡,显示市场对巨额投入持观望态度。 谷歌、Meta和微软在过去一个季度在人工智能基础设施上投入了近800亿美元,但投资者对此反应冷淡。 (以上内容 […]

发布时间:2025年10月30日