阿里推出Qwen-Image-Edit，中文渲染超越GPT-4o，精准编辑文本与语义

发布时间：2025年8月20日来源：szf

快速阅读: 阿里通义千问团队发布Qwen-Image-Edit图像编辑模型，基于20B参数多模态扩散变换器，中文文本渲染准确率高达97.29%，支持精准文本编辑、语义与外观编辑，适用于广告设计、品牌宣传等领域。

阿里通义千问团队正式开源最新图像编辑模型Qwen-Image-Edit，这是继Qwen-Image之后，通义千问系列在图像生成与编辑领域的又一力作。Qwen-Image-Edit基于20B参数多模态扩散变换器（MMDiT），在精准文本编辑、语义与外观编辑方面表现出色，尤其在中文文本渲染上实现行业领先。

Qwen-Image-Edit继承了Qwen-Image的核心优势，文本渲染能力进一步提升。无论英文还是中文，Qwen-Image-Edit都能实现高保真的文本编辑，支持直接在图像中添加、删除或修改文本，同时保留原有字体、大小和风格。尤其在中文场景下，模型能够处理多行布局、段落级文本生成及书法对联等复杂排版需求，单字渲染准确率达97.29%，远超其他顶级模型如Seedream3.0（53.48%）和GPT Image1（68.37%）。

例如，Qwen-Image-Edit可以轻松将海报上的“Hope”替换为“Qwen”，或在书法作品中修正错误字符，同时保持图像整体的视觉一致性。这种精准的文本编辑能力使其在广告设计、品牌宣传和内容创作中具有巨大潜力。

Qwen-Image-Edit的核心技术创新在于双重编码机制。在图像编辑过程中，输入图像同时经过Qwen2.5-VL模型进行语义编码，提取高层场景和对象关系特征；以及变分自编码器（VAE）进行重建编码，保留底层视觉细节如纹理和颜色。这种机制确保模型在执行复杂编辑指令时，既能理解语义意图，又能保持视觉保真度。

例如，在语义编辑中，Qwen-Image-Edit可以将图像中的人物姿态调整为“弯腰牵狗爪”，同时保持人物身份和背景一致；在外观编辑中，它能精确添加元素（如带有真实反射的标牌）或移除细微细节（如头发丝），而其他区域保持不变。这种“语义+外观”的双重控制使其在IP创作、风格迁移和新视角合成等场景中表现尤为出色。

通过增强的多任务训练范式，Qwen-Image-Edit支持文本到图像（T2I）、图像到图像（I2I）以及文本引导图像编辑（TI2I）等多种任务。模型在GEdit、ImgEdit和GSO等图像编辑基准测试中均取得SOTA性能，综合评分分别达到7.56（英文）、7.52（中文），超越GPT Image1和FLUX.1Kontext等竞争对手。

值得一提的是，Qwen-Image-Edit的“链式编辑”能力尤为突出。例如，在书法纠错场景中，模型能够通过多轮迭代逐步修正错误字符，同时保持整体风格一致。这种能力大幅提升了创作效率，降低了专业视觉内容创作的门槛。

Qwen-Image-Edit基于Apache2.0协议完全开源，用户可通过Hugging Face、ModelScope等平台免费获取模型权重，或通过Qwen Chat的“Image Editing”功能在线体验。阿里还在ComfyUI中提供原生支持，并发布了详细的技术报告和快速上手指南，助力开发者快速集成。

社交媒体上，开发者对Qwen-Image-Edit的发布反响热烈，称其“将中文渲染和图像编辑能力拉到商用水准”，甚至有用户表示其效果“媲美甚至超越GPT-4o和FLUX.1”。此外，模型支持多种LoRA模型（如MajicBeauty LoRA），进一步扩展了其在高真实感图像生成中的应用场景。

Qwen-Image-Edit的多功能特性使其适用于多种场景，包括但不限于海报与广告设计、IP内容创作、教育与培训、游戏与影视等。用户反馈显示，Qwen-Image-Edit的直观操作和高质量输出使其成为非专业设计者的理想工具。例如，一位内容创作者表示：“Qwen-Image-Edit让我在几分钟内完成营销视觉设计，文本渲染精准，效果堪比专业软件。”

作为阿里通义千问团队的最新力作，Qwen-Image-Edit以其强大的文本编辑能力、双重编码机制和开源特性，为AI图像生成与编辑领域树立了新标杆。无论是中文渲染的断层式领先，还是语义与外观编辑的平衡表现，Qwen-Image-Edit都展现了其作为行业顶尖模型的实力。

(以上内容均由Ai生成)