Qwen图像编辑挑战Photoshop,AI文本转图像秒级完成
快速阅读: 阿里巴巴Qwen团队发布Qwen-Image Edit,通过文本输入实现复杂图像编辑,支持中英文,开源免费,降低专业视觉内容创作门槛,已在多个平台上线。
阿里巴巴旗下的Qwen团队昨日发布了一款新的开源AI模型——Qwen-Image Edit,能够仅通过文本输入完成大量类似Photoshop的图像编辑任务,这是一项显著的成就。据Photutorial报道,Photoshop是全球超过90%创意专业人士使用的软件之一。
Qwen-Image Edit基于本月早些时候发布的200亿参数Qwen-Image基础模型构建,扩展了系统在文本渲染方面的独特优势,涵盖了从细微外观调整到广泛语义转换的各种编辑任务。用户只需上传起始图片并输入想要更改的指令,Qwen-Image Edit就能返回带有相应修改的新图片。例如,在旧金山举行的VentureBeat年度Transform大会期间拍摄的一张个人照片,通过输入“让穿燕尾服的男人更显眼”的指令,即可获得修改后的图像。
这款模型现已在多个平台上发布,包括Qwen Chat、Hugging Face、ModelScope、GitHub以及通过阿里巴巴云应用程序编程接口(API)。后者允许第三方开发者或企业将此新模型集成到自己的应用程序和工作流程中。Qwen Chat上的生成次数限于每12小时约8次免费任务,付费用户可获得更多任务。
Qwen-Image Edit支持英文和中文输入,注重语义意义和视觉保真度,旨在降低专业级视觉内容创作的门槛。作为开源代码,该模型采用Apache 2.0许可证,企业可以免费下载并在自己的硬件或虚拟云/机器上设置,从而大幅节省成本,替代像Photoshop这样的专有软件。
Qwen团队研究员Junyang Lin在X上表示:“它可以去除一根头发,实现非常精细的图像修改。” 团队宣布Qwen-Image Edit不是全新的系统,而是Qwen-Image的自然延伸,直接将后者独特的文本渲染和双编码方法应用于编辑任务。
Qwen-Image Edit继承了Qwen-Image的基础,后者今年早些时候推出,是一个大规模模型,专注于图像生成和文本渲染。Qwen-Image的技术报告强调了其处理复杂任务的能力,如段落级文本渲染、中英文字符和多行布局的准确性。报告还指出了一种双编码机制,同时将图像输入Qwen2.5-VL以实现语义控制和变分自编码器(VAE)以实现重建细节,确保编辑既忠实于提示的意图,又保留原始图像的外观。
这些架构选择支撑着Qwen-Image Edit的功能,通过利用双编码,该模型可以在两个层面进行调整:改变场景含义或结构的语义编辑,以及引入或移除元素而不影响其余部分的外观编辑。语义编辑包括创建新的知识产权、旋转对象90度或180度以显示不同视角,或将输入转换为另一种风格,如宫崎骏风格的艺术作品。这些编辑通常会修改许多像素,但保留物体的基本身份。
Replicate平台的工程师Shridhar Athinarayanan使用Qwen的一个实现版本,将曼哈顿的照片改成了乐高积木玩具的效果,展示了语义编辑的潜力。
Qwen-Image Edit 专注于精确、局部的图像修改。在这些情况下,大部分图像保持不变,而特定对象则被更改。演示包括在水中添加反射标志牌、从肖像中移除散乱的头发,以及更改文本图像中单个字母的颜色。
Qwen-Image Edit 的一个好例子来自 AnswerAI 联合创始人兼首席执行官 Thomas Hill,他在 X 上发布了一组对比图,展示了他的妻子穿着婚纱站在拱门下,另一张图则是同一拱门被涂鸦覆盖。
结合 Qwen 在渲染中英文文本方面的优势,这款以编辑为重点的系统被定位为创作者需要的多功能工具,不仅限于简单的生成图像。同时控制语义范围和外观保真度意味着同一工具可以满足不同需求,从创意 IP 开发到生产级别的照片修整。
Qwen-Image Edit 另一个突出的能力是双语文本编辑。用户可以在保留字体、大小和风格的前提下,添加、删除或修改中英文文本。这进一步巩固了 Qwen-Image 在文本渲染方面的好评,尤其是在处理复杂的汉字时。
实际应用中,这使得海报、标志、T 恤或书法艺术品上的小文字细节得以准确编辑,如 Replicate 提供的一个例子所示。其中一个演示展示了如何通过逐步连锁编辑过程纠正生成的中文书法中的错误。用户可以高亮显示错误区域,指示系统修复,然后进一步细化细节,直到正确渲染字符。这种迭代方法展示了模型在需要精确性的高风险编辑任务中的应用。
Qwen 团队强调了多种潜在应用:创意设计和 IP 扩展,如生成基于吉祥物的表情包;广告和内容创作,定制标志、标志和文本密集型视觉效果;虚拟化身和艺术,风格转移支持独特的角色表示;摄影和个人用途,包括背景调整、服装变化和对象移除;文化保护,通过纠正古典书法作品来实现。
通过将精细编辑与更广泛的创意转换相结合,Qwen-Image-Edit 既满足专业人士对控制的需求,又适合休闲实验。
据 Qwen 团队介绍,公共基准测试表明,Qwen-Image-Edit 在图像编辑方面表现出色。这延续了 Qwen-Image 技术评估的整体表现,基础模型在一般图像生成和文本渲染任务中均取得了领先成果。虽然具体编辑基准数据未在发布中详细说明,但 Qwen-Image 在独立评估中排名靠前,如 AI Arena,人类评审员对不同供应商的模型输出进行了比较。
通过阿里巴巴云模型工作室,开发人员可以访问 Qwen-Image-Edit API。定价为每张图片 0.045 美元,激活后 180 天内免费提供 100 张图片的配额。该服务最初在新加坡地区提供,请求速率为每秒 5 次,每个账户最多可同时运行两个任务。开发人员需获取 Model Studio API 密钥,并可通过 HTTP 或 Python 和 Java 的 DashScope SDK 调用模型。图片可以 URL 或 Base64 格式提交,支持的分辨率范围为 512 到 4096 像素,文件大小上限为 10 MB。输出图片托管在阿里巴巴云对象存储上,链接有效期为 24 小时,用户需及时下载保存结果。
Qwen 将 Image-Edit 定位为降低视觉内容创作门槛的一步。通过使精确且风格一致的编辑更加便捷,该模型可以支持从设计工作室到个人项目优化的各种应用。该系统还反映了 AI 发展的一个更广泛趋势:从单一目的生成转向集编辑、校正和精炼于一体的工具。凭借语义灵活性和外观级精度,Qwen-Image-Edit 体现了这一转变,将大型模型的生成能力与专业编辑所需的可靠性相结合。
由于未提供具体新闻段落,无法进行润色。请提供需要润色的具体新闻内容。
(以上内容均由Ai生成)