AI

Qwen图像编辑挑战Photoshop,AI文本转图像秒级完成

发布时间:2025年8月20日    来源:szf
Qwen图像编辑挑战Photoshop,AI文本转图像秒级完成

快速阅读: 阿里巴巴Qwen团队发布Qwen-Image Edit,通过文本输入实现复杂图像编辑,支持中英文,开源免费,降低专业视觉内容创作门槛,已在多个平台上线。

阿里巴巴旗下的Qwen团队昨日发布了一款新的开源AI模型——Qwen-Image Edit,能够仅通过文本输入完成大量类似Photoshop的图像编辑任务,这是一项显著的成就。据Photutorial报道,Photoshop是全球超过90%创意专业人士使用的软件之一。

Qwen-Image Edit基于本月早些时候发布的200亿参数Qwen-Image基础模型构建,扩展了系统在文本渲染方面的独特优势,涵盖了从细微外观调整到广泛语义转换的各种编辑任务。用户只需上传起始图片并输入想要更改的指令,Qwen-Image Edit就能返回带有相应修改的新图片。例如,在旧金山举行的VentureBeat年度Transform大会期间拍摄的一张个人照片,通过输入“让穿燕尾服的男人更显眼”的指令,即可获得修改后的图像。

这款模型现已在多个平台上发布,包括Qwen Chat、Hugging Face、ModelScope、GitHub以及通过阿里巴巴云应用程序编程接口(API)。后者允许第三方开发者或企业将此新模型集成到自己的应用程序和工作流程中。Qwen Chat上的生成次数限于每12小时约8次免费任务,付费用户可获得更多任务。

Qwen-Image Edit支持英文和中文输入,注重语义意义和视觉保真度,旨在降低专业级视觉内容创作的门槛。作为开源代码,该模型采用Apache 2.0许可证,企业可以免费下载并在自己的硬件或虚拟云/机器上设置,从而大幅节省成本,替代像Photoshop这样的专有软件。

Qwen团队研究员Junyang Lin在X上表示:“它可以去除一根头发,实现非常精细的图像修改。” 团队宣布Qwen-Image Edit不是全新的系统,而是Qwen-Image的自然延伸,直接将后者独特的文本渲染和双编码方法应用于编辑任务。

Qwen-Image Edit继承了Qwen-Image的基础,后者今年早些时候推出,是一个大规模模型,专注于图像生成和文本渲染。Qwen-Image的技术报告强调了其处理复杂任务的能力,如段落级文本渲染、中英文字符和多行布局的准确性。报告还指出了一种双编码机制,同时将图像输入Qwen2.5-VL以实现语义控制和变分自编码器(VAE)以实现重建细节,确保编辑既忠实于提示的意图,又保留原始图像的外观。

这些架构选择支撑着Qwen-Image Edit的功能,通过利用双编码,该模型可以在两个层面进行调整:改变场景含义或结构的语义编辑,以及引入或移除元素而不影响其余部分的外观编辑。语义编辑包括创建新的知识产权、旋转对象90度或180度以显示不同视角,或将输入转换为另一种风格,如宫崎骏风格的艺术作品。这些编辑通常会修改许多像素,但保留物体的基本身份。

Replicate平台的工程师Shridhar Athinarayanan使用Qwen的一个实现版本,将曼哈顿的照片改成了乐高积木玩具的效果,展示了语义编辑的潜力。

Qwen-Image Edit 专注于精确、局部的图像修改。在这些情况下,大部分图像保持不变,而特定对象则被更改。演示包括在水中添加反射标志牌、从肖像中移除散乱的头发,以及更改文本图像中单个字母的颜色。

Qwen-Image Edit 的一个好例子来自 AnswerAI 联合创始人兼首席执行官 Thomas Hill,他在 X 上发布了一组对比图,展示了他的妻子穿着婚纱站在拱门下,另一张图则是同一拱门被涂鸦覆盖。

结合 Qwen 在渲染中英文文本方面的优势,这款以编辑为重点的系统被定位为创作者需要的多功能工具,不仅限于简单的生成图像。同时控制语义范围和外观保真度意味着同一工具可以满足不同需求,从创意 IP 开发到生产级别的照片修整。

Qwen-Image Edit 另一个突出的能力是双语文本编辑。用户可以在保留字体、大小和风格的前提下,添加、删除或修改中英文文本。这进一步巩固了 Qwen-Image 在文本渲染方面的好评,尤其是在处理复杂的汉字时。

实际应用中,这使得海报、标志、T 恤或书法艺术品上的小文字细节得以准确编辑,如 Replicate 提供的一个例子所示。其中一个演示展示了如何通过逐步连锁编辑过程纠正生成的中文书法中的错误。用户可以高亮显示错误区域,指示系统修复,然后进一步细化细节,直到正确渲染字符。这种迭代方法展示了模型在需要精确性的高风险编辑任务中的应用。

Qwen 团队强调了多种潜在应用:创意设计和 IP 扩展,如生成基于吉祥物的表情包;广告和内容创作,定制标志、标志和文本密集型视觉效果;虚拟化身和艺术,风格转移支持独特的角色表示;摄影和个人用途,包括背景调整、服装变化和对象移除;文化保护,通过纠正古典书法作品来实现。

通过将精细编辑与更广泛的创意转换相结合,Qwen-Image-Edit 既满足专业人士对控制的需求,又适合休闲实验。

据 Qwen 团队介绍,公共基准测试表明,Qwen-Image-Edit 在图像编辑方面表现出色。这延续了 Qwen-Image 技术评估的整体表现,基础模型在一般图像生成和文本渲染任务中均取得了领先成果。虽然具体编辑基准数据未在发布中详细说明,但 Qwen-Image 在独立评估中排名靠前,如 AI Arena,人类评审员对不同供应商的模型输出进行了比较。

通过阿里巴巴云模型工作室,开发人员可以访问 Qwen-Image-Edit API。定价为每张图片 0.045 美元,激活后 180 天内免费提供 100 张图片的配额。该服务最初在新加坡地区提供,请求速率为每秒 5 次,每个账户最多可同时运行两个任务。开发人员需获取 Model Studio API 密钥,并可通过 HTTP 或 Python 和 Java 的 DashScope SDK 调用模型。图片可以 URL 或 Base64 格式提交,支持的分辨率范围为 512 到 4096 像素,文件大小上限为 10 MB。输出图片托管在阿里巴巴云对象存储上,链接有效期为 24 小时,用户需及时下载保存结果。

Qwen 将 Image-Edit 定位为降低视觉内容创作门槛的一步。通过使精确且风格一致的编辑更加便捷,该模型可以支持从设计工作室到个人项目优化的各种应用。该系统还反映了 AI 发展的一个更广泛趋势:从单一目的生成转向集编辑、校正和精炼于一体的工具。凭借语义灵活性和外观级精度,Qwen-Image-Edit 体现了这一转变,将大型模型的生成能力与专业编辑所需的可靠性相结合。

由于未提供具体新闻段落,无法进行润色。请提供需要润色的具体新闻内容。

(以上内容均由Ai生成)

你可能还想读

美国科技未来需投资人才与科研

美国科技未来需投资人才与科研

快速阅读: 据最新消息,美国政府拟持股英特尔10%,以强化半导体战略,但专家强调需同步加大基础科研投入并解决STEM人才短缺,方能维系科技领先地位。 近日,美国政府宣布将持有英特尔公司10%的股权,引发广泛关注。此举被视为对本国半导体制造业 […]

发布时间:2025年12月8日
康宁押注AI数据中心光纤需求激增

康宁押注AI数据中心光纤需求激增

快速阅读: 据康宁公司介绍,AI数据中心加速转向光纤互联,单节点集成72颗GPU,布线长达两英里;因算力激增与带宽需求,光通信将推动AI硬件生态结构性变革,市场或扩至三倍。 近日,人工智能硬件基础设施加速升级,数据中心内部连接技术正经历重要 […]

发布时间:2025年12月8日
智能体AI重塑政府与民众服务关系

智能体AI重塑政府与民众服务关系

快速阅读: 据最新消息,AI代理技术在能源、环保、医疗和教育等领域试点成效显著,提升地震解释准确率70%,优化垃圾清运与课程设置,推动公共服务向智能优化转型。 近日,人工智能代理技术在公共服务领域展现出显著应用潜力。今年1月,阿布扎比国家石 […]

发布时间:2025年12月8日
英警方呼吁中央统筹AI应用

英警方呼吁中央统筹AI应用

快速阅读: 据techUK发布消息称,英格兰和威尔士警方需建立中央统筹机制并加大投入,以释放AI在执法中的潜力,解决应用不均、数据质量及算法偏见等问题,推动全国协调与透明治理。 英国信息技术行业组织techUK近日发布报告指出,英格兰和威尔 […]

发布时间:2025年12月8日
Viam携手优傲机器人推AI自动化方案

Viam携手优傲机器人推AI自动化方案

快速阅读: 据最新消息,美国Viam公司与优傲机器人达成合作,基于UR系列协作机器人开发AI驱动的表面处理系统,已应用于船舶打磨,并拓展至家具、建筑等行业,推动制造智能化转型。 近日,美国纽约企业Viam宣布与泰瑞达集团旗下优傲机器人公司( […]

发布时间:2025年12月8日
AI智能体破解医疗沟通困局

AI智能体破解医疗沟通困局

快速阅读: 据最新消息,美国医疗系统因信息孤岛问题导致患者沟通受阻,AI智能体技术正通过代理式通信提升诊疗协同效率,企业Infinitus已推动该方案在随访与用药管理等场景落地。 近日,美国医疗系统在信息互通方面面临的严峻挑战引发广泛关注。 […]

发布时间:2025年12月8日
AI虚拟演员Tilly Norwood引行业争议

AI虚拟演员Tilly Norwood引行业争议

快速阅读: 据美联社报道,AI虚拟演员蒂莉·诺伍德由Particle6公司打造,旨在探索影视AI应用,团队正优化其自然表现并计划明年推出互动功能,但遭部分经纪公司抵制。 近日,人工智能虚拟演员“蒂莉·诺伍德”(Tilly Norwood)再 […]

发布时间:2025年12月8日
苹果硬件主管或离职,芯片业务面临巨变

苹果硬件主管或离职,芯片业务面临巨变

快速阅读: 据彭博社报道,苹果硬件技术主管斯鲁吉考虑离职,其主导自研M系列与A19 Pro芯片,深度支撑全系产品,潜在出走或重创苹果芯片优势并撼动行业格局。 据彭博社日前报道,苹果公司高级副总裁、硬件技术主管约翰尼·斯鲁吉正考虑离职。斯鲁吉 […]

发布时间:2025年12月8日