AI

阿里开源Qwen-Image-Edit,中文渲染超GPT-4o,精准文本编辑与语义外观双控

发布时间:2025年8月19日    来源:szf
阿里开源Qwen-Image-Edit,中文渲染超GPT-4o,精准文本编辑与语义外观双控

快速阅读: 阿里通义千问团队正式开源图像编辑模型Qwen-Image-Edit,基于20B参数MMDiT,精准文本编辑、语义与外观编辑表现卓越,尤其在中文文本渲染上实现行业领先。

阿里通义千问团队正式开源了其 最新 图像编辑模型 Qwen-Image-Edit ,这是继 Qwen-Image 之后,通义千问系列在图像生成与编辑领域的又一重磅力作。作为一个基于20B 参数多模态扩散变换器(MMDiT)的图像编辑基础模型,Qwen-Image-Edit 在精准文本编辑、语义与外观编辑方面展现出卓越性能,尤其在中文文本渲染上实现了行业领先的表现。

突破性文本编辑:中英文双语精准渲染 Qwen-Image-Edit 继承了 Qwen-Image 的核心优势,在文本渲染能力上进一步升级。无论是英文还是中文,它都能实现高保真的文本编辑,支持直接在图像中添加、删除或修改文本,同时保留原有字体、大小和风格。尤其在中文场景下,模型能够处理多行布局、段落级文本生成以及书法对联等复杂排版需求,单字渲染准确率高达97.29%,远超其他 顶级 模型如 Seedream3.0(53.48%)和 GPT Image1(68.37%)。

例如,Qwen-Image-Edit 可以轻松将海报上的“Hope”替换为“Qwen”,或在书法作品中修正错误字符,同时保持图像整体的视觉一致性。这种精准的文本编辑能力使其在广告设计、品牌宣传和内容创作中具有巨大潜力。

双重编码机制:语义与外观完美平衡 Qwen-Image-Edit 的核心技术创新在于其 双重编码机制 。在图像编辑过程中,输入图像同时经过 Qwen2.5-VL 模型进行语义编码,提取高层场景和对象关系特征;以及变分自编码器(VAE)进行重建编码,保留底层视觉细节如纹理和颜色。这种机制确保了模型在执行复杂编辑指令时,既能理解语义意图,又能保持视觉保真度。

例如,在语义编辑中,Qwen-Image-Edit 可以将图像中的人物姿态调整为“弯腰牵狗爪”,同时保持人物身份和背景一致;在外观编辑中,它能精确添加元素(如带有真实反射的标牌)或移除细微细节(如头发丝),而其他区域保持不变。这种“语义+外观”的双重控制使其在 IP 创作、风格迁移和新视角合成等场景中表现尤为出色。

多任务训练:编辑一致性行业领先 通过增强的多任务训练范式,Qwen-Image-Edit 支持文本到图像(T2I)、图像到图像(I2I)以及文本引导图像编辑(TI2I)等多种任务。模型在 GEdit、ImgEdit 和 GSO 等图像编辑基准测试中均取得 SOTA 性能,综合评分分别达到7.56(英文)、7.52(中文),超越 GPT Image1和 FLUX.1Kontext 等竞争对手。

值得一提的是,Qwen-Image-Edit 的“链式编辑”能力尤为突出。例如,在书法纠错场景中,模型能够通过多轮迭代逐步修正错误字符,同时保持整体风格一致。这种能力大幅提升了创作效率,降低了专业视觉内容创作的门槛。

开源赋能:推动全球AI创作生态 Qwen-Image-Edit 基于 Apache2.0协议完全开源,用户可通过 Hugging Face、ModelScope 等平台免费获取模型权重,或通过 Qwen Chat 的“Image Editing”功能在线体验。阿里还在 ComfyUI 中提供原生支持,并发布了详细的技术报告和快速上手指南,助力开发者快速集成。

社交媒体上,开发者对 Qwen-Image-Edit 的发布反响热烈,称其“将中文渲染和图像编辑能力拉到商用水准”,甚至有用户表示其效果“媲美甚至超越 GPT-4o 和 FLUX.1”。此外,模型支持多种 LoRA 模型(如 MajicBeauty LoRA),进一步扩展了其在高真实感图像生成中的应用场景。

应用场景:从创意设计到商业落地 Qwen-Image-Edit 的多功能特性使其适用于多种场景,包括但不限于: 海报与广告设计 :生成具有视觉冲击力的宣传海报,支持复杂文本排版和风格迁移。

IP 内容创作 :基于品牌吉祥物(如 Qwen 的 Capybara)生成 MBTI 主题表情包,保持角色一致性。

教育与培训 :快速生成高质量插图和图表,提升课程内容的视觉吸引力。

游戏与影视 :支持角色设计、背景生成和新视角合成,优化资产开发流程。

用户反馈显示,Qwen-Image-Edit 的直观操作和高质量输出使其成为非专业设计者的理想工具。例如,一位内容创作者表示:“Qwen-Image-Edit 让我在几分钟内完成营销视觉设计,文本渲染精准,效果堪比专业软件。” 作为阿里通义千问团队的 最新 力作,Qwen-Image-Edit 以其强大的文本编辑能力、双重编码机制和开源特性,为 AI 图像生成与编辑领域树立了新标杆。无论是中文渲染的断层式领先,还是语义与外观编辑的平衡表现,Qwen-Image-Edit 都展现了其作为行业 顶尖 模型的实力。

github:https://github.com/QwenLM/Qwen-Image

(以上内容均由Ai生成)

你可能还想读

英伟达4B小模型登顶ARC评测,成本仅GPT-5 Pro的136

英伟达4B小模型登顶ARC评测,成本仅GPT-5 Pro的136

快速阅读: 12月8日消息,英伟达推出4B参数小模型NVARC,在ARC-AGI2评测中以27.64%准确率超越GPT-5Pro,单任务推理成本仅0.2美元,凭借零预训练策略和合成数据实现高效低成本部署。 近日,英伟达研发的4B参数小模型N […]

发布时间:2025年12月8日
Meta收购Limitless加码AI可穿戴设备

Meta收购Limitless加码AI可穿戴设备

快速阅读: 据最新消息,Meta收购AI可穿戴设备公司Limitless,后者以无屏幕智能吊坠著称,具备语音交互与实时转录功能;收购后团队并入Meta,专注AI硬件研发,现有产品将停售但提供一年技术支持。 日前,美国科技企业Meta宣布收购 […]

发布时间:2025年12月8日
沐曦股份科创板申购中签率公布

沐曦股份科创板申购中签率公布

快速阅读: 12月8日消息,沐曦集成电路科创板IPO网上申购户数达517.52万户,启动回拨后最终中签率升至0.03348913%,拟募资39.04亿元用于高性能GPU研发及产业化。 12月8日,国产GPU企业沐曦集成电路(上海)股份有限公 […]

发布时间:2025年12月8日
阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

阿里推Qwen3-TTS:49音色10语9方言,WER碾压商用模型

快速阅读: 12月8日消息,阿里巴巴推出通义千问Qwen3-TTS语音合成模型,支持49种音色、10种语言及9种方言,免费开放每月百万字符额度,并在上海120所中小学试点教育应用。 今日,阿里巴巴正式推出通义千问Qwen3系列新成员——Qw […]

发布时间:2025年12月8日
京东云JoyBuilder千卡训练提速3.5倍

京东云JoyBuilder千卡训练提速3.5倍

快速阅读: 12月8日消息,京东云JoyBuilder平台完成关键升级,支持GR00T N1.5千卡训练,兼容LeRobot框架,训练效率提升3.5倍,亿级数据训练从15小时缩短至22分钟。 日前,京东云JoyBuilder模型开发平台完成 […]

发布时间:2025年12月8日
麦肯锡:AI将取代8亿岗位,同时创造新机遇

麦肯锡:AI将取代8亿岗位,同时创造新机遇

快速阅读: 据麦肯锡全球研究院消息,到2030年全球或有8亿岗位被人工智能取代,同时创造1.3亿至2.3亿新岗位,冲击驾驶、物流、医疗、法律等多个行业,专家呼吁加强再培训与政策应对。 日前,人工智能技术快速发展引发全球关注。加州大学伯克利分 […]

发布时间:2025年12月8日
可灵AI上线主体库,角色跨场景“永不变脸”

可灵AI上线主体库,角色跨场景“永不变脸”

快速阅读: 12月8日消息,快手旗下可灵AI发布“主体库”,为O1视频模型新增长期记忆能力,用户上传单图即可跨场景调用一致角色,主体一致性超96%,并推分级服务与2025年多人功能规划。 今日,快手旗下可灵AI正式发布“主体库”(Subje […]

发布时间:2025年12月8日
n1n.ai 重塑大模型API成本与体验

n1n.ai 重塑大模型API成本与体验

快速阅读: 据最新消息,大模型API平台n1n.ai整合近500种开源与闭源模型,价格低至官方十分之一,响应快、稳定性高,已助企业降本超70%并提升用户满意度。 近日,大模型API服务平台n1n.ai凭借高性价比、高稳定性及丰富模型选择,正 […]

发布时间:2025年12月8日