在真实 Reddit 编辑上训练的 AI 转换图像编辑模型
快速阅读: 《AZoAI》消息,乔尔·斯坎隆(作者) 2025年2月9日
华盛顿大学的研究团队发布了REALEDIT,一个包含57,000多个真实用户编辑请求的数据集。通过在REALEDIT上微调模型,研究人员显著提升了图像编辑的准确性和实用性,模型在人类偏好排名中高出165个Elo分数。此外,该数据集还增强了深度伪造检测模型的性能。尽管存在一些隐私和人口统计学偏差的问题,REALEDIT仍有望推动AI图像编辑和内容验证的发展。
乔尔·斯坎隆(作者) 2025年2月9日
与基于合成修改的传统AI模型不同,REALEDIT捕捉真实的用户修改,使AI驱动的照片编辑更加准确、实用,并且更符合实际需求。我们展示了模型的修改。我们介绍了REALEDIT,这是一个来自Reddit的大规模图像编辑数据集,包含真实世界的用户编辑请求和人工制作的编辑。通过在REALEDIT上微调,我们的模型在人类判断中比现有模型高出多达165个Elo分数,并在线提供了对真实用户请求的实际应用价值。
图像编辑已成为个人和专业用途的重要工具,每天有数百万人对其照片进行数字修改。尽管人工智能取得了进展,但大多数AI驱动的图像编辑模型未能满足实际用户的需求。虽然现有模型在受控基准测试中表现良好,但在去除对象、提高清晰度或修复损坏照片等常见请求方面却遇到了困难。这一局限性主要源于用于训练它们的数据集,这些数据集依赖于人工生成的修改而不是反映实际用户需求的编辑。
为了解决这一差距,华盛顿大学的研究团队引入了REALEDIT,一个从Reddit的图像编辑社区收集的大规模数据集。与主要包含合成修改的传统数据集不同,REALEDIT包含了超过57,000个真实的用户请求及其相应的人工制作的编辑。该论文发布在arXiv预印本服务器上。REALEDIT的一个关键特征是其严格的多阶段验证过程,其中AI审核工具和人工审查确保只包含高质量、适当的编辑。通过使用该数据集微调AI模型,研究人员实现了显著的性能改进,其模型在人类偏好排名中比竞争对手高出165个Elo分数,并且在自动化评估指标得分中提高了92%。然而,尽管REALEDIT在实际应用测试中表现出色,但在像GenAI Arena这样的合成基准测试中的表现则具有竞争力但并非始终优于现有模型。这一模型的成功突显了在现实世界数据而非人工生成示例上训练的重要性。
当前图像编辑模型的局限性
尽管在AI生成图像方面取得了进展,现有的模型仍然难以应对实际的图像编辑任务。像Reddit的r/PhotoshopRequest和r/estoration这样的平台,用户请求并执行实际的图像编辑,揭示了广泛的需求。人们希望移除干扰物、调整颜色、修正光线、恢复旧照片。许多人甚至提供支付以获取高质量的编辑,进一步证明了对可靠的图像编辑服务的需求。当前图像编辑模型的局限性在于,它们无法满足这些实际需求。当前的数据集无法反映这些实际的图像编辑需求。它们通常包括插入随机物体或进行艺术性修改的任务,这不符合典型用户的需求。Ultra-Edit,作为用于训练AI编辑模型的最大数据集之一,主要由人工修改组成,使其不适合处理常见的任务如对象移除或增强。这一差距导致模型难以应对基本的实际请求,因为合成数据集往往更注重添加元素而不是细化或纠正现有图像。在这些数据集上训练的模型在应用于实际请求时遇到困难,进一步强调了需要像REALEDIT这样代表实际用户需求的数据集。
构建REALEDIT数据集
研究人员开发了一套细致的过程来构建能够准确捕捉现实世界图像编辑多样性的数据集。他们从Reddit的r/PhotoshopRequest和r/estoration社区收集了超过261,000个帖子和110万条评论,涵盖了近十年的用户提交内容。认识到许多用户请求包括个人故事或不必要的细节,团队使用GPT-4将其指令精炼为明确、可操作的编辑指示,确保它们简洁且相关。严格的手动验证过程确保只有高质量的示例被纳入数据集。包含不适当或模糊编辑的图像被移除,最终数据集包含48,000个训练示例和9,300个测试示例。数据集还经过过滤以与InstructPix2Pix的预训练分布对齐,确保在REALEDIT上训练的AI模型在保持结构化、以人为中心的编辑方法的同时表现良好。与以前的数据集不同,REALEDIT包含真实的用户编辑,使得在其上训练的AI模型在实际应用中表现显著更好。
在实际应用测试上评估图像编辑模型
为了评估AI驱动的图像编辑的有效性,研究人员使用REALEDIT数据集微调了领先的文本引导编辑模型InstructPix2Pix。为了提高模型处理以人为中心的编辑的能力,他们用OpenAI的一致性解码器替换了其Stable Diffusion解码器,这显著增强了面部特征、文字清晰度和纹理精度等细粒度细节。该模型与六种最先进的图像编辑模型进行了对比测试,包括MagicBrush、AURORA、HIVE和SDEdit。评估使用了自动指标和人类偏好排名。REALEDIT模型在VIEScore指标上得分4.61,而第二好的模型得分为2.4。然而,在像GenAI Arena这样的合成数据集上,该模型的表现更具竞争力但并非始终优于现有模型,表明在现实世界数据上训练可能不会完美地推广到人工策划的基准测试。为了验证其实用性,研究人员在Reddit上部署了该模型并向用户免费提供编辑服务。反馈非常积极。一位请求红眼移除的用户评论道:“非常感谢!解决了。”另一位需要移除背景物体的用户对结果印象深刻,说:“哇,看起来很棒!我喜欢你对我照明效果的平滑处理。”这些实际应用测试提供了额外的验证层,确认在REALEDIT上训练的模型在控制实验室基准之外也具有实际价值。
利用REALEDIT增强深度伪造检测
除了图像编辑,REALEDIT在检测篡改图像方面也有重要意义。研究人员与一个非营利组织合作,探索如何利用该数据集提高AI区分真实和篡改照片的能力。许多现有的深度伪造检测模型是在数字生成的假照片上训练的,但难以检测到人为编辑的图片,这些图片往往更为微妙和复杂。通过将REALEDIT纳入训练过程,研究人员增强了通用假检测(UFD)模型识别篡改图像的能力。最初,基线模型的F1分数为23.5,但在使用REALEDIT微调后,其分数提升至69——大幅提升了45.5分。当在一组实际编辑图像上测试时,模型的表现从49提升至63,展示了该数据集在提高深度伪造检测能力方面的有效性。
伦理考虑与隐私保护
由于REALEDIT源自公开的Reddit帖子,隐私和伦理问题得到了仔细处理。数据集不直接存储图像,而是引用其原始链接地址。如果用户从Reddit删除图像,它会自动从REALEDIT中移除。此外,用户可以通过在线表单请求删除其数据。为了防止不当使用,数据集使用AI审核工具和人工审查进行了过滤。排除了露骨或不道德的内容,确保数据集成为安全和伦理的AI培训资源。尽管采取了这些保护措施,研究人员承认Reddit的用户群体主要是西方、年轻和男性,这可能会引入人口统计学偏差。未来的工作将集中在扩大数据集的多样性,以更好地反映更广泛的用户需求和文化背景。
转变图像编辑和AI研究
REALEDIT通过用真实的用户请求和编辑取代人工训练数据,代表了AI驱动的图像编辑的重大转变。该数据集使模型更好地符合人类期望,从而在自动化基准测试和人类评估中实现显著改进。REALEDIT训练的模型在实际应用中的成功,如Reddit上的积极用户反馈所展示的,突显了其实用价值。除了编辑,REALEDIT的影响延伸到深度伪造检测,它已经显示出了增强AI识别篡改图像的能力。虽然该数据集已经显示出巨大的好处,未来的研究将集中于提高其适应实际和合成基准的能力,确保在其上训练的AI模型在各种使用场景中保持多功能性和有效性。通过继续完善和扩展数据集,研究人员可以进一步改善AI驱动的编辑工具,使其更易于普通用户使用。这项研究的结果强调了在真实的人类生成数据上训练AI的重要性,为未来的AI驱动图像编辑和内容验证铺平了道路。
(以上内容均由Ai生成)