AI

Qwen图像编辑挑战Photoshop,AI文本转图像秒级完成

发布时间:2025年8月20日    来源:szf
Qwen图像编辑挑战Photoshop,AI文本转图像秒级完成

快速阅读: 阿里巴巴Qwen团队发布Qwen-Image Edit,通过文本输入实现复杂图像编辑,支持中英文,开源免费,降低专业视觉内容创作门槛,已在多个平台上线。

阿里巴巴旗下的Qwen团队昨日发布了一款新的开源AI模型——Qwen-Image Edit,能够仅通过文本输入完成大量类似Photoshop的图像编辑任务,这是一项显著的成就。据Photutorial报道,Photoshop是全球超过90%创意专业人士使用的软件之一。

Qwen-Image Edit基于本月早些时候发布的200亿参数Qwen-Image基础模型构建,扩展了系统在文本渲染方面的独特优势,涵盖了从细微外观调整到广泛语义转换的各种编辑任务。用户只需上传起始图片并输入想要更改的指令,Qwen-Image Edit就能返回带有相应修改的新图片。例如,在旧金山举行的VentureBeat年度Transform大会期间拍摄的一张个人照片,通过输入“让穿燕尾服的男人更显眼”的指令,即可获得修改后的图像。

这款模型现已在多个平台上发布,包括Qwen Chat、Hugging Face、ModelScope、GitHub以及通过阿里巴巴云应用程序编程接口(API)。后者允许第三方开发者或企业将此新模型集成到自己的应用程序和工作流程中。Qwen Chat上的生成次数限于每12小时约8次免费任务,付费用户可获得更多任务。

Qwen-Image Edit支持英文和中文输入,注重语义意义和视觉保真度,旨在降低专业级视觉内容创作的门槛。作为开源代码,该模型采用Apache 2.0许可证,企业可以免费下载并在自己的硬件或虚拟云/机器上设置,从而大幅节省成本,替代像Photoshop这样的专有软件。

Qwen团队研究员Junyang Lin在X上表示:“它可以去除一根头发,实现非常精细的图像修改。” 团队宣布Qwen-Image Edit不是全新的系统,而是Qwen-Image的自然延伸,直接将后者独特的文本渲染和双编码方法应用于编辑任务。

Qwen-Image Edit继承了Qwen-Image的基础,后者今年早些时候推出,是一个大规模模型,专注于图像生成和文本渲染。Qwen-Image的技术报告强调了其处理复杂任务的能力,如段落级文本渲染、中英文字符和多行布局的准确性。报告还指出了一种双编码机制,同时将图像输入Qwen2.5-VL以实现语义控制和变分自编码器(VAE)以实现重建细节,确保编辑既忠实于提示的意图,又保留原始图像的外观。

这些架构选择支撑着Qwen-Image Edit的功能,通过利用双编码,该模型可以在两个层面进行调整:改变场景含义或结构的语义编辑,以及引入或移除元素而不影响其余部分的外观编辑。语义编辑包括创建新的知识产权、旋转对象90度或180度以显示不同视角,或将输入转换为另一种风格,如宫崎骏风格的艺术作品。这些编辑通常会修改许多像素,但保留物体的基本身份。

Replicate平台的工程师Shridhar Athinarayanan使用Qwen的一个实现版本,将曼哈顿的照片改成了乐高积木玩具的效果,展示了语义编辑的潜力。

Qwen-Image Edit 专注于精确、局部的图像修改。在这些情况下,大部分图像保持不变,而特定对象则被更改。演示包括在水中添加反射标志牌、从肖像中移除散乱的头发,以及更改文本图像中单个字母的颜色。

Qwen-Image Edit 的一个好例子来自 AnswerAI 联合创始人兼首席执行官 Thomas Hill,他在 X 上发布了一组对比图,展示了他的妻子穿着婚纱站在拱门下,另一张图则是同一拱门被涂鸦覆盖。

结合 Qwen 在渲染中英文文本方面的优势,这款以编辑为重点的系统被定位为创作者需要的多功能工具,不仅限于简单的生成图像。同时控制语义范围和外观保真度意味着同一工具可以满足不同需求,从创意 IP 开发到生产级别的照片修整。

Qwen-Image Edit 另一个突出的能力是双语文本编辑。用户可以在保留字体、大小和风格的前提下,添加、删除或修改中英文文本。这进一步巩固了 Qwen-Image 在文本渲染方面的好评,尤其是在处理复杂的汉字时。

实际应用中,这使得海报、标志、T 恤或书法艺术品上的小文字细节得以准确编辑,如 Replicate 提供的一个例子所示。其中一个演示展示了如何通过逐步连锁编辑过程纠正生成的中文书法中的错误。用户可以高亮显示错误区域,指示系统修复,然后进一步细化细节,直到正确渲染字符。这种迭代方法展示了模型在需要精确性的高风险编辑任务中的应用。

Qwen 团队强调了多种潜在应用:创意设计和 IP 扩展,如生成基于吉祥物的表情包;广告和内容创作,定制标志、标志和文本密集型视觉效果;虚拟化身和艺术,风格转移支持独特的角色表示;摄影和个人用途,包括背景调整、服装变化和对象移除;文化保护,通过纠正古典书法作品来实现。

通过将精细编辑与更广泛的创意转换相结合,Qwen-Image-Edit 既满足专业人士对控制的需求,又适合休闲实验。

据 Qwen 团队介绍,公共基准测试表明,Qwen-Image-Edit 在图像编辑方面表现出色。这延续了 Qwen-Image 技术评估的整体表现,基础模型在一般图像生成和文本渲染任务中均取得了领先成果。虽然具体编辑基准数据未在发布中详细说明,但 Qwen-Image 在独立评估中排名靠前,如 AI Arena,人类评审员对不同供应商的模型输出进行了比较。

通过阿里巴巴云模型工作室,开发人员可以访问 Qwen-Image-Edit API。定价为每张图片 0.045 美元,激活后 180 天内免费提供 100 张图片的配额。该服务最初在新加坡地区提供,请求速率为每秒 5 次,每个账户最多可同时运行两个任务。开发人员需获取 Model Studio API 密钥,并可通过 HTTP 或 Python 和 Java 的 DashScope SDK 调用模型。图片可以 URL 或 Base64 格式提交,支持的分辨率范围为 512 到 4096 像素,文件大小上限为 10 MB。输出图片托管在阿里巴巴云对象存储上,链接有效期为 24 小时,用户需及时下载保存结果。

Qwen 将 Image-Edit 定位为降低视觉内容创作门槛的一步。通过使精确且风格一致的编辑更加便捷,该模型可以支持从设计工作室到个人项目优化的各种应用。该系统还反映了 AI 发展的一个更广泛趋势:从单一目的生成转向集编辑、校正和精炼于一体的工具。凭借语义灵活性和外观级精度,Qwen-Image-Edit 体现了这一转变,将大型模型的生成能力与专业编辑所需的可靠性相结合。

由于未提供具体新闻段落,无法进行润色。请提供需要润色的具体新闻内容。

(以上内容均由Ai生成)

你可能还想读

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

快速阅读: Apriority宣布完成230万美元种子轮融资,由Techstars等领投。平台利用AI技术优化债务管理,帮助借款人节省利息,掌握财务控制权,尤其惠及低收入家庭。 旧金山,2025年10月23日 —— 以借款人为核心的服务平台 […]

发布时间:2025年10月23日
Cercli获1200万美元融资,加速AI劳动力平台发展

Cercli获1200万美元融资,加速AI劳动力平台发展

快速阅读: 阿联酋工作管理平台Cercli获1200万美元A轮融资,由Picus Capital领投。资金将用于产品开发、AI创新及市场扩展,目标中东、欧洲和北美。Cercli实现每月22%增长率,客户覆盖50国。 总部位于阿联酋的工作管理 […]

发布时间:2025年10月23日
扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

快速阅读: Meta宣布裁减AI部门约600名工程师,涉及FAIR等多个团队,旨在精简业务提高效率。CEO扎克伯格重申AI仍是公司核心,将继续投资高级机器学习和超级智能项目。 Meta近日宣布从其人工智能(AI)部门裁员约600名工程师,此 […]

发布时间:2025年10月23日
Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

快速阅读: 风险投资公司a16z计划筹集100亿美元,重点投资AI和国防,未提及加密货币。此举令人意外,因a16z曾是加密领域的重要支持者,近期仍积极投资相关项目。 据报道,风险投资公司安德森·霍洛维茨(a16z)正在寻求筹集约100亿美元 […]

发布时间:2025年10月23日
花旗资助香港390万港元,助力贫困青年掌握AI技能

花旗资助香港390万港元,助力贫困青年掌握AI技能

快速阅读: 花旗基金会向香港“改变年轻生命基金会”捐赠50万美元,支持为期两年的“求职挑战”项目,提升弱势青少年的人工智能技能和求职能力,增强其就业竞争力。 花旗基金会向香港“改变年轻生命基金会”拨款50万美元(约390万港元),用于为期两 […]

发布时间:2025年10月23日
AI成新界面,企业转型加速

AI成新界面,企业转型加速

快速阅读: 自动驾驶技术从微小升级到移除方向盘,彻底改变车辆设计和旅程体验,重塑汽车与环境的关系。AI发展类似,通过小步快跑实现重大转变,成为统一的用户界面,改善客户互动体验。 多年来,汽车自主驾驶功能的发展似乎只是一系列微小的升级,比如车 […]

发布时间:2025年10月23日
实博蒂克斯成立顾问委员会,推动AI技术发展

实博蒂克斯成立顾问委员会,推动AI技术发展

快速阅读: Realbotix成立顾问委员会,增强AI技术,调整董事会。成员包括谷歌萨利姆·哈桑及转任的安德鲁·德苏扎,目标推进AI与机器人技术发展。弗雷德·派退休,公司感谢其贡献。调整优化产品,强化全球市场地位。 Realbotix公司宣 […]

发布时间:2025年10月23日
OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

快速阅读: OpenAI宣布在美国扩展Stargate数据中心计划,包括威斯康星州Lighthouse项目,预计2028年完工,将开发近1吉瓦电力,采用可持续能源和环保措施,创造数千就业岗位。 该设施是OpenAI在披露美国五个Starga […]

发布时间:2025年10月23日