AI

阿里推出Qwen-Image-Edit,中文渲染超越GPT-4o,精准编辑文本与语义

发布时间:2025年8月20日    来源:szf
阿里推出Qwen-Image-Edit,中文渲染超越GPT-4o,精准编辑文本与语义

快速阅读: 阿里通义千问团队发布Qwen-Image-Edit图像编辑模型,基于20B参数多模态扩散变换器,中文文本渲染准确率高达97.29%,支持精准文本编辑、语义与外观编辑,适用于广告设计、品牌宣传等领域。

阿里通义千问团队正式开源最新图像编辑模型Qwen-Image-Edit,这是继Qwen-Image之后,通义千问系列在图像生成与编辑领域的又一力作。Qwen-Image-Edit基于20B参数多模态扩散变换器(MMDiT),在精准文本编辑、语义与外观编辑方面表现出色,尤其在中文文本渲染上实现行业领先。

Qwen-Image-Edit继承了Qwen-Image的核心优势,文本渲染能力进一步提升。无论英文还是中文,Qwen-Image-Edit都能实现高保真的文本编辑,支持直接在图像中添加、删除或修改文本,同时保留原有字体、大小和风格。尤其在中文场景下,模型能够处理多行布局、段落级文本生成及书法对联等复杂排版需求,单字渲染准确率达97.29%,远超其他顶级模型如Seedream3.0(53.48%)和GPT Image1(68.37%)。

例如,Qwen-Image-Edit可以轻松将海报上的“Hope”替换为“Qwen”,或在书法作品中修正错误字符,同时保持图像整体的视觉一致性。这种精准的文本编辑能力使其在广告设计、品牌宣传和内容创作中具有巨大潜力。

Qwen-Image-Edit的核心技术创新在于双重编码机制。在图像编辑过程中,输入图像同时经过Qwen2.5-VL模型进行语义编码,提取高层场景和对象关系特征;以及变分自编码器(VAE)进行重建编码,保留底层视觉细节如纹理和颜色。这种机制确保模型在执行复杂编辑指令时,既能理解语义意图,又能保持视觉保真度。

例如,在语义编辑中,Qwen-Image-Edit可以将图像中的人物姿态调整为“弯腰牵狗爪”,同时保持人物身份和背景一致;在外观编辑中,它能精确添加元素(如带有真实反射的标牌)或移除细微细节(如头发丝),而其他区域保持不变。这种“语义+外观”的双重控制使其在IP创作、风格迁移和新视角合成等场景中表现尤为出色。

通过增强的多任务训练范式,Qwen-Image-Edit支持文本到图像(T2I)、图像到图像(I2I)以及文本引导图像编辑(TI2I)等多种任务。模型在GEdit、ImgEdit和GSO等图像编辑基准测试中均取得SOTA性能,综合评分分别达到7.56(英文)、7.52(中文),超越GPT Image1和FLUX.1Kontext等竞争对手。

值得一提的是,Qwen-Image-Edit的“链式编辑”能力尤为突出。例如,在书法纠错场景中,模型能够通过多轮迭代逐步修正错误字符,同时保持整体风格一致。这种能力大幅提升了创作效率,降低了专业视觉内容创作的门槛。

Qwen-Image-Edit基于Apache2.0协议完全开源,用户可通过Hugging Face、ModelScope等平台免费获取模型权重,或通过Qwen Chat的“Image Editing”功能在线体验。阿里还在ComfyUI中提供原生支持,并发布了详细的技术报告和快速上手指南,助力开发者快速集成。

社交媒体上,开发者对Qwen-Image-Edit的发布反响热烈,称其“将中文渲染和图像编辑能力拉到商用水准”,甚至有用户表示其效果“媲美甚至超越GPT-4o和FLUX.1”。此外,模型支持多种LoRA模型(如MajicBeauty LoRA),进一步扩展了其在高真实感图像生成中的应用场景。

Qwen-Image-Edit的多功能特性使其适用于多种场景,包括但不限于海报与广告设计、IP内容创作、教育与培训、游戏与影视等。用户反馈显示,Qwen-Image-Edit的直观操作和高质量输出使其成为非专业设计者的理想工具。例如,一位内容创作者表示:“Qwen-Image-Edit让我在几分钟内完成营销视觉设计,文本渲染精准,效果堪比专业软件。”

作为阿里通义千问团队的最新力作,Qwen-Image-Edit以其强大的文本编辑能力、双重编码机制和开源特性,为AI图像生成与编辑领域树立了新标杆。无论是中文渲染的断层式领先,还是语义与外观编辑的平衡表现,Qwen-Image-Edit都展现了其作为行业顶尖模型的实力。

(以上内容均由Ai生成)

你可能还想读

杭州率先为具身智能机器人立法,将明确从业者的伦理“红线”

杭州率先为具身智能机器人立法,将明确从业者的伦理“红线”

快速阅读: 杭州将率先为“具身智能机器人”立法,促进产业发展。《条例(草案)》经市政府常务会议审议通过,涵盖技术创新、基础设施建设、伦理规范等内容,旨在提升产业核心竞争力,推动产品应用落地。 因包括宇树科技在内的“杭州六小龙”爆火出圈而备受 […]

发布时间:2025年10月23日
以AI为纽带,第三期人工智能能力建设研讨班在上海人工智能研究院顺利举行

以AI为纽带,第三期人工智能能力建设研讨班在上海人工智能研究院顺利举行

快速阅读: 10月23日,上海人工智能研究院举办第三期人工智能能力建设研讨班,来自38个国家的政府官员参与。研讨班旨在落实联合国决议,推动AI国际合作,展示中国AI创新成果,促进全球AI普惠发展。 上海人工智能研究院院长 全球工业人工智能联 […]

发布时间:2025年10月23日
Airbnb称赞阿里开源AI模型:快速且经济

Airbnb称赞阿里开源AI模型:快速且经济

快速阅读: Airbnb首席执行官Brian Chesky称赞阿里巴巴Qwen模型,因其速度快、成本低,助力Airbnb客服代理提升效率,计划扩展多语言支持。中国科技企业开源AI策略获国际认可。 家庭住宿预订平台Airbnb赞扬了阿里巴巴的 […]

发布时间:2025年10月23日
比利时考虑对AI数据中心设电力限制

比利时考虑对AI数据中心设电力限制

快速阅读: 比利时电网运营商Elia考虑限制数据中心电力分配,以防其他用户受影响。自2022年以来,数据中心电力需求激增,2034年预留容量超计划两倍。目前数据中心耗电占全国4%,预计2035年将增至10%以上。 比利时电网运营商Elia正 […]

发布时间:2025年10月23日
荣耀YOYO智能体一键领券,Magic8系列轻松比价购物

荣耀YOYO智能体一键领券,Magic8系列轻松比价购物

快速阅读: 荣耀发布自进化AI原生手机Magic8系列,YOYO智能体实现自动领券、比价等功能,简化购物流程,提升用户体验,覆盖购物、美食、出行等多场景。 10 月 15 日,荣耀发布了首款自进化 AI 原生手机 —— 荣耀 Magic8 […]

发布时间:2025年10月23日
阿里Qwen升级Deep Research:一键生成报告、网页及播客

阿里Qwen升级Deep Research:一键生成报告、网页及播客

快速阅读: 阿里巴巴Qwen团队升级Deep Research工具,集成网页版Qwen Chat,提供研究至发布的全流程体验。新功能支持生成研究报告、交互式网页和多说话者播客,涵盖代码生成、图像渲染和语音合成功能,用户可直接使用无需配置基础 […]

发布时间:2025年10月23日
亚马逊测试AI配送眼镜,包裹导航与风险检测一镜完成

亚马逊测试AI配送眼镜,包裹导航与风险检测一镜完成

快速阅读: 亚马逊开发AI智能眼镜,提升送货司机配送效率与安全性,集成AI传感、计算机视觉等功能,支持自动调光与处方镜片定制,正在北美测试并将逐步推广。 【AIbase 报道】亚马逊周三宣布,正为旗下送货司机开发一款 AI 智能眼镜 ,旨在 […]

发布时间:2025年10月23日
通用汽车明年起搭载Google Gemini AI助手,提升驾驶体验

通用汽车明年起搭载Google Gemini AI助手,提升驾驶体验

快速阅读: 通用汽车宣布将在其2015年及以后车型中集成Google Gemini驱动的AI助手,提供导航、消息发送等服务,强调用户体验和隐私保护,标志着汽车行业智能化新阶段。 通用汽车周三在纽约 GM Forward 大会上宣布,将从明年 […]

发布时间:2025年10月23日