阿里巴巴开源Z-Image:高效图像生成支持中英双语
快速阅读: 阿里巴巴通义实验室开源Z-Image图像生成模型,参数仅6B,性能媲美20B参数模型。采用单流DiT架构,具备快速推理、基础开发、图像编辑三大变体,支持中英双语文字渲染,显存占用低,适配消费级显卡。
近日,阿里巴巴通义实验室重磅开源了全新的图像生成模型 Z-Image。该模型以仅 6B 的参数规模,实现了高效的图像生成与编辑,其视觉质量接近国际领先商业模型(约 20B 参数)的水平。Z-Image 在生成速度和资源占用方面表现出色,有望大幅推动 AI 图像生成工具向消费级应用转型。
Z-Image 采用单流 DiT(Diffusion Transformer)架构,包含 Z-Image-Turbo(专注于快速推理)、Z-Image-Base(基础开发)和 Z-Image-Edit(图像编辑)三大核心变体,以满足不同应用需求。通过解耦 DMD 和 DMDR 等创新技术,该模型仅需 8 个采样步骤即可输出高清逼真的图像,显存占用控制在 16GB 以下,使其能够在 NVIDIA RTX30 系列等消费级显卡上流畅运行,在 H800 GPU 上甚至可实现亚秒级的生成速度。
Z-Image 的关键优势在于其强大的提示增强与推理能力,能够超越表面的文字描述,融入“世界知识”进行语义对齐,确保输出图像的光影自然、细节丰富。该模型不仅支持复杂指令理解和多模态编辑任务,还在中英双语文字渲染方面展现出高精度,有效解决了传统 AI 图像模型在文本处理上的痛点。
业内测试显示,Z-Image 在人像生成、场景构图和编辑一致性上表现突出,特别是在 ComfyUI 框架下的测试中超越了部分 SDXL 基线模型,尤其在中文海报渲染和 NSFW 内容处理上表现出优异的稳定性。
此次 Z-Image 的发布正值全球图像生成模型竞赛加剧之际,其轻量高效的设计策略与日前黑森林实验室发布的 32B 参数的 Flux.2 等大型模型形成鲜明对比,彰显了中国 AI 企业在资源优化和降本增效方面的创新路径。分析人士认为,Z-Image 的 Apache 2.0 开源许可及其在 GitHub、Hugging Face 和 ModelScope 平台的全面可用性,极大地降低了开发者和创意人员的微调门槛。随着此类高效模型的迭代,AI 图像工具预计将在 2026 年加速渗透至移动端和边缘设备,全面赋能电商、影视和游戏等产业。
项目官网:https://tongyi-mai.github.io/Z-Image-homepage/
GitHub 仓库:https://github.com/Tongyi-MAI/Z-Image
(以上内容均由Ai生成)