AI

阿里推出Qwen-Image-Edit,中文渲染超越GPT-4o,精准文本编辑与语义外观双控

发布时间:2025年8月19日    来源:szf
阿里推出Qwen-Image-Edit,中文渲染超越GPT-4o,精准文本编辑与语义外观双控

快速阅读: 阿里通义千问团队发布Qwen-Image-Edit模型,基于20B参数MMDiT,实现精准文本编辑和语义外观编辑,尤其在中文文本渲染上领先行业,支持多任务训练,广泛应用于广告设计、IP创作等领域。

阿里通义千问团队正式开源最新图像编辑模型 Qwen-Image-Edit,这是继 Qwen-Image 之后,通义千问系列在图像生成与编辑领域的又一力作。Qwen-Image-Edit 基于 20B 参数多模态扩散变换器 (MMDiT),在精准文本编辑、语义与外观编辑方面表现出色,尤其在中文文本渲染上实现了行业领先。

Qwen-Image-Edit 继承了 Qwen-Image 的核心优势,在文本渲染能力上进一步升级。无论英文还是中文,都能实现高保真的文本编辑,支持直接在图像中添加、删除或修改文本,同时保留原有字体、大小和风格。尤其在中文场景下,模型能够处理多行布局、段落级文本生成及书法对联等复杂排版需求,单字渲染准确率高达 97.29%,远超其他顶级模型如 Seedream3.0(53.48%)和 GPT Image1(68.37%)。

Qwen-Image-Edit 轻松将海报上的“Hope”替换为“Qwen”,或在书法作品中修正错误字符,同时保持图像整体的视觉一致性。这种精准的文本编辑能力使其在广告设计、品牌宣传和内容创作中具有巨大潜力。

Qwen-Image-Edit 的核心技术创新在于其双重编码机制。在图像编辑过程中,输入图像同时经过 Qwen2.5-VL 模型进行语义编码,提取高层场景和对象关系特征;以及变分自编码器 (VAE) 进行重建编码,保留底层视觉细节如纹理和颜色。这种机制确保模型在执行复杂编辑指令时,既能理解语义意图,又能保持视觉保真度。

例如,在语义编辑中,Qwen-Image-Edit 可以将图像中的人物姿态调整为“弯腰牵狗爪”,同时保持人物身份和背景一致;在外观编辑中,它能精确添加元素(如带有真实反射的标牌)或移除细微细节(如头发丝),而其他区域保持不变。这种“语义+外观”的双重控制使其在 IP 创作、风格迁移和新视角合成等场景中表现尤为出色。

通过增强的多任务训练范式,Qwen-Image-Edit 支持文本到图像 (T2I)、图像到图像 (I2I) 以及文本引导图像编辑 (TI2I) 等多种任务。模型在 GEdit、ImgEdit 和 GSO 等图像编辑基准测试中均取得 SOTA 性能,综合评分分别达到 7.56(英文)、7.52(中文),超越 GPT Image1 和 FLUX.1Kontext 等竞争对手。

值得一提的是,Qwen-Image-Edit 的“链式编辑”能力尤为突出。例如,在书法纠错场景中,模型能够通过多轮迭代逐步修正错误字符,同时保持整体风格一致。这种能力大幅提升了创作效率,降低了专业视觉内容创作的门槛。

Qwen-Image-Edit 基于 Apache2.0 协议完全开源,用户可通过 Hugging Face、ModelScope 等平台免费获取模型权重,或通过 Qwen Chat 的“Image Editing”功能在线体验。阿里还在 ComfyUI 中提供原生支持,并发布了详细的技术报告和快速上手指南,助力开发者快速集成。

社交媒体上,开发者对 Qwen-Image-Edit 的发布反响热烈,称其“将中文渲染和图像编辑能力拉到商用水准”,甚至有用户表示其效果“媲美甚至超越 GPT-4o 和 FLUX.1”。此外,模型支持多种 LoRA 模型(如 MajicBeauty LoRA),进一步扩展了其在高真实感图像生成中的应用场景。

Qwen-Image-Edit 的多功能特性使其适用于多种场景,包括但不限于:

– 海报与广告设计:生成具有视觉冲击力的宣传海报,支持复杂文本排版和风格迁移。

– IP 内容创作:基于品牌吉祥物(如 Qwen 的 Capybara)生成 MBTI 主题表情包,保持角色一致性。

– 教育与培训:快速生成高质量插图和图表,提升课程内容的视觉吸引力。

– 游戏与影视:支持角色设计、背景生成和新视角合成,优化资产开发流程。

用户反馈显示,Qwen-Image-Edit 的直观操作和高质量输出使其成为非专业设计者的理想工具。例如,一位内容创作者表示:“Qwen-Image-Edit 让我在几分钟内完成营销视觉设计,文本渲染精准,效果堪比专业软件。”

作为阿里通义千问团队的最新力作,Qwen-Image-Edit 以其强大的文本编辑能力、双重编码机制和开源特性,为 AI 图像生成与编辑领域树立了新标杆。无论是中文渲染的断层式领先,还是语义与外观编辑的平衡表现,Qwen-Image-Edit 都展现了其作为行业顶尖模型的实力。

(以上内容均由Ai生成)

你可能还想读

芯纬内部人士抛售超10亿美元股票引发警报

芯纬内部人士抛售超10亿美元股票引发警报

快速阅读: 纳斯达克上市公司CoreWeave因内部人士大量抛售股票受关注,10月交易超10亿美元,股价承压下跌,引发投资者对该公司信心的质疑。 纳斯达克上市的CoreWeave (CRVW)因内部人士大量抛售股票而受到广泛关注。10月,一 […]

发布时间:2025年10月24日
升腾首席分析与AI官:用数学背景解决医疗问题

升腾首席分析与AI官:用数学背景解决医疗问题

快速阅读: 安森斯首席分析与人工智能官卡提克·拉贾强调,人工智能是一类问题而非单一事物,需识别并应用正确方法解决。他领导团队利用AI优化医疗流程,提高决策效率,同时注重人才培养和道德领导。 卡提克·拉贾,这家覆盖16个州的大型医疗系统首席分 […]

发布时间:2025年10月24日
格拉斯利宣布法官使用AI致法庭命令出错,实施新政

格拉斯利宣布法官使用AI致法庭命令出错,实施新政

快速阅读: 美国参议院司法委员会主席格拉斯利宣布收到法官们关于AI导致法院命令出错的回应,法官温盖特和尼尔斯承认错误并实施新政策,确保命令准确性,同时法院行政办公室成立AI咨询工作组,发布临时指导方针。 美国参议院司法委员会主席查克·格拉斯 […]

发布时间:2025年10月24日
AI视频生成系统不断进步,ChatGPT创始人更新发展计划

AI视频生成系统不断进步,ChatGPT创始人更新发展计划

快速阅读: 本周,顶尖开发者公布人工智能视频生成系统的最新进展,包括即将推出的安卓应用。该技术融合多种特性,引发艺术与伦理讨论,但仍不断进步,输出效果惊人。 基于人工智能的视频生成系统集多种特性于一身。的确,它们引发了关于艺术、创作者角色及 […]

发布时间:2025年10月24日
美法官承认职员用AI起草错误命令

美法官承认职员用AI起草错误命令

快速阅读: 美国地方法官温盖特承认其法律助理使用AI程序起草了有误的法院命令,引发争议。温盖特表示将加强审查流程,避免类似错误。参议员格拉斯利呼吁制定更明确的AI使用政策。 密西西比州的一名联邦法官承认,其工作人员使用人工智能起草了一份有误 […]

发布时间:2025年10月24日
ChatGPT遭遇重大故障,用户报告服务中断

ChatGPT遭遇重大故障,用户报告服务中断

快速阅读: ChatGPT遭遇重大技术故障,OpenAI确认“高频率错误”,用户反馈广泛。故障始于周四上午11时(美国东部时间),Downdetector数据显示问题激增。 受连续强降雨影响,南部多地出现洪水,相关部门紧急启动防汛响应。Ch […]

发布时间:2025年10月24日
OpenAI推新浏览器Atlas,挑战Google Chrome

OpenAI推新浏览器Atlas,挑战Google Chrome

快速阅读: OpenAI推出ChatGPT Atlas浏览器,挑战谷歌Chrome,集成AI功能助用户高效完成任务,计划近期增加标签组和广告拦截器等新特性。 萨姆·阿尔特曼的OpenAI继续将其生成式AI模型整合到全球大多数人的日常工具—— […]

发布时间:2025年10月24日
ChatGPT短暂故障后恢复,医疗咨询模式引关注

ChatGPT短暂故障后恢复,医疗咨询模式引关注

快速阅读: 医学研究人员报告AI医疗失误案例,患者因咨询ChatGPT致溴化物中毒精神错乱。专家长期担忧此问题,OpenAI推出专门医疗建议模式应对。 几周前,一位医学研究人员报告了一起由AI引发的医疗失误案例,详细描述了一名患者因咨询Ch […]

发布时间:2025年10月24日