AI

阿里开源Qwen-Image-Edit,中文渲染超越GPT-4o,精准文本编辑与语义控制双提升

发布时间:2025年8月20日    来源:szf
阿里开源Qwen-Image-Edit,中文渲染超越GPT-4o,精准文本编辑与语义控制双提升

快速阅读: 阿里通义千问团队开源Qwen-Image-Edit图像编辑模型,具备精准文本编辑、语义与外观编辑能力,尤其在中文文本渲染上领先行业,支持多任务训练,广泛应用于广告设计、内容创作等领域。

阿里通义千问团队正式开源最新图像编辑模型 Qwen-Image-Edit,这是继 Qwen-Image 之后,通义千问系列在图像生成与编辑领域的又一力作。作为基于20B参数多模态扩散变换器(MMDiT)的图像编辑基础模型,Qwen-Image-Edit 在精准文本编辑、语义与外观编辑方面表现出色,尤其在中文文本渲染上实现了行业领先的表现。

Qwen-Image-Edit 继承了 Qwen-Image 的核心优势,在文本渲染能力上进一步升级。无论英文还是中文,模型都能实现高保真的文本编辑,支持直接在图像中添加、删除或修改文本,同时保留原有字体、大小和风格。尤其在中文场景下,模型能够处理多行布局、段落级文本生成以及书法对联等复杂排版需求,单字渲染准确率高达97.29%,远超其他顶级模型如 Seedream3.0(53.48%)和 GPT Image1(68.37%)。

Qwen-Image-Edit 能够轻松将海报上的“Hope”替换为“Qwen”,或在书法作品中修正错误字符,同时保持图像整体的视觉一致性。这种精准的文本编辑能力使其在广告设计、品牌宣传和内容创作中具有巨大潜力。

Qwen-Image-Edit 的核心技术创新在于其双重编码机制。在图像编辑过程中,输入图像同时经过 Qwen2.5-VL 模型进行语义编码,提取高层场景和对象关系特征;以及变分自编码器(VAE)进行重建编码,保留底层视觉细节如纹理和颜色。这种机制确保了模型在执行复杂编辑指令时,既能理解语义意图,又能保持视觉保真度。

例如,在语义编辑中,Qwen-Image-Edit 可以将图像中的人物姿态调整为“弯腰牵狗爪”,同时保持人物身份和背景一致;在外观编辑中,它能精确添加元素(如带有真实反射的标牌)或移除细微细节(如头发丝),而其他区域保持不变。这种“语义+外观”的双重控制使其在 IP 创作、风格迁移和新视角合成等场景中表现尤为出色。

通过增强的多任务训练范式,Qwen-Image-Edit 支持文本到图像(T2I)、图像到图像(I2I)以及文本引导图像编辑(TI2I)等多种任务。模型在 GEdit、ImgEdit 和 GSO 等图像编辑基准测试中均取得 SOTA 性能,综合评分分别达到7.56(英文)、7.52(中文),超越 GPT Image1 和 FLUX.1Kontext 等竞争对手。

值得一提的是,Qwen-Image-Edit 的“链式编辑”能力尤为突出。例如,在书法纠错场景中,模型能够通过多轮迭代逐步修正错误字符,同时保持整体风格一致。这种能力大幅提升了创作效率,降低了专业视觉内容创作的门槛。

Qwen-Image-Edit 基于 Apache2.0 协议完全开源,用户可通过 Hugging Face、ModelScope 等平台免费获取模型权重,或通过 Qwen Chat 的“Image Editing”功能在线体验。阿里还在 ComfyUI 中提供原生支持,并发布了详细的技术报告和快速上手指南,助力开发者快速集成。

社交媒体上,开发者对 Qwen-Image-Edit 的发布反响热烈,称其“将中文渲染和图像编辑能力拉到商用水准”,甚至有用户表示其效果“媲美甚至超越 GPT-4o 和 FLUX.1”。此外,模型支持多种 LoRA 模型(如 MajicBeauty LoRA),进一步扩展了其在高真实感图像生成中的应用场景。

Qwen-Image-Edit 的多功能特性使其适用于多种场景,包括但不限于:海报与广告设计、IP 内容创作、教育与培训、游戏与影视等。用户反馈显示,Qwen-Image-Edit 的直观操作和高质量输出使其成为非专业设计者的理想工具。例如,一位内容创作者表示:“Qwen-Image-Edit 让我在几分钟内完成营销视觉设计,文本渲染精准,效果堪比专业软件。”

作为阿里通义千问团队的最新力作,Qwen-Image-Edit 以其强大的文本编辑能力、双重编码机制和开源特性,为 AI 图像生成与编辑领域树立了新标杆。无论是中文渲染的断层式领先,还是语义与外观编辑的平衡表现,Qwen-Image-Edit 都展现了其作为行业顶尖模型的实力。

(以上内容均由Ai生成)

你可能还想读

欧洲报告揭示AI新闻助手准确性问题,谷歌Gemini表现最差

欧洲报告揭示AI新闻助手准确性问题,谷歌Gemini表现最差

快速阅读: 欧洲广播联盟和BBC报告显示,AI平台传播新闻存严重风险,影响新闻生态,Perplexity和谷歌AI加剧公众信任下降,研究发现来源、准确性和背景问题是主要障碍。 欧洲广播联盟和BBC发布的一份新报告显示,使用生成式人工智能平台 […]

发布时间:2025年10月23日
AI热潮推动美股大涨,ChatGPT引发21万亿市值增长

AI热潮推动美股大涨,ChatGPT引发21万亿市值增长

快速阅读: 特朗普退让提振市场情绪,但股市上涨主因是AI热潮。自2022年11月ChatGPT推出以来,美国标普500指数市值增加21万亿美元。 特朗普倾向于退让提振了市场情绪,但推动股市上涨的主要动力是围绕生成式人工智能(AI)的炒作。在 […]

发布时间:2025年10月23日
北欧Riff获1600万美元A轮融资,助力企业级AI应用开发

北欧Riff获1600万美元A轮融资,助力企业级AI应用开发

快速阅读: 挪威Riff完成1600万美元A轮融资,累计2100万美元,由Northzone领投。Riff提供AI应用开发平台,支持多行业,旨在提升商业效果和项目成功率,新资金将用于市场扩展。 总部位于奥斯陆的Riff(原名Databutt […]

发布时间:2025年10月23日
Meta裁减AI部门约600岗位,加速技术竞赛

Meta裁减AI部门约600岗位,加速技术竞赛

快速阅读: Meta Platforms 从超级智能实验室裁减约600个职位,以加速AI技术发展。AI首席Alexandr Wang通知裁员,旨在加快决策,增加员工责任。Meta继续为TBD实验室招聘,该团队聚集高薪AI人才。 据报道,Me […]

发布时间:2025年10月23日
渠道伙伴成企业AI转型关键,助力解决安全与数据挑战

渠道伙伴成企业AI转型关键,助力解决安全与数据挑战

快速阅读: Gartner预测,至2026年80%企业将部署生成式AI,但安全与数据基础设施挑战成障碍。研究显示,近半数企业因安全顾虑暂缓云迁移,超半数数据无备份,70%企业过去一年遭遇网络攻击,平均损失五周生产力。VARs在协助企业克服安 […]

发布时间:2025年10月23日
英政府推出AI工具,大幅提高咨询反馈分析效率

英政府推出AI工具,大幅提高咨询反馈分析效率

快速阅读: 英国政府宣布加速人工智能发展,采用“汉弗莱”系列中的Consult工具,每年可节省75,000个人工工作日,该工具处理50,000份咨询回复仅需2小时,效率远超人工。 英国政府宣布,将加速推进人工智能的发展。此前一项研究发现,每 […]

发布时间:2025年10月23日
IBM新Z17主机助力营收大增,AI成增长引擎

IBM新Z17主机助力营收大增,AI成增长引擎

快速阅读: IBM在生成式AI领域赢得95亿美元订单,大型机收入同比增长59%,新Z17机器贡献显著。AI基础设施增长15%,存储成为关键销售点。 克里希纳指出,IBM在生成式AI领域赢得了95亿美元的订单,这是一个显著的成绩。此外,IBM […]

发布时间:2025年10月23日
英特尔之后,消息称美国政府欲用联邦资金入股多家量子计算公司

英特尔之后,消息称美国政府欲用联邦资金入股多家量子计算公司

快速阅读: 特朗普政府正与多家量子计算公司谈判,拟通过联邦资金注资换取股权,涉及IonQ、Rigetti Computing等,每家获至少1000万美元。 感谢IT之家网友 小兴365 的线索投递! IT之家 10 月 23 日消息,据《华 […]

发布时间:2025年10月23日