阿里巴巴开源Z-Image：高效图像生成支持中英双语

发布时间：2025年11月27日来源：szf

快速阅读: 阿里巴巴通义实验室开源Z-Image图像生成模型，参数仅6B，性能媲美20B参数模型。采用单流DiT架构，具备快速推理、基础开发、图像编辑三大变体，支持中英双语文字渲染，显存占用低，适配消费级显卡。

近日，阿里巴巴通义实验室重磅开源了全新的图像生成模型 Z-Image。该模型以仅 6B 的参数规模，实现了高效的图像生成与编辑，其视觉质量接近国际领先商业模型（约 20B 参数）的水平。Z-Image 在生成速度和资源占用方面表现出色，有望大幅推动 AI 图像生成工具向消费级应用转型。

Z-Image 采用单流 DiT（Diffusion Transformer）架构，包含 Z-Image-Turbo（专注于快速推理）、Z-Image-Base（基础开发）和 Z-Image-Edit（图像编辑）三大核心变体，以满足不同应用需求。通过解耦 DMD 和 DMDR 等创新技术，该模型仅需 8 个采样步骤即可输出高清逼真的图像，显存占用控制在 16GB 以下，使其能够在 NVIDIA RTX30 系列等消费级显卡上流畅运行，在 H800 GPU 上甚至可实现亚秒级的生成速度。

Z-Image 的关键优势在于其强大的提示增强与推理能力，能够超越表面的文字描述，融入“世界知识”进行语义对齐，确保输出图像的光影自然、细节丰富。该模型不仅支持复杂指令理解和多模态编辑任务，还在中英双语文字渲染方面展现出高精度，有效解决了传统 AI 图像模型在文本处理上的痛点。

业内测试显示，Z-Image 在人像生成、场景构图和编辑一致性上表现突出，特别是在 ComfyUI 框架下的测试中超越了部分 SDXL 基线模型，尤其在中文海报渲染和 NSFW 内容处理上表现出优异的稳定性。

此次 Z-Image 的发布正值全球图像生成模型竞赛加剧之际，其轻量高效的设计策略与日前黑森林实验室发布的 32B 参数的 Flux.2 等大型模型形成鲜明对比，彰显了中国 AI 企业在资源优化和降本增效方面的创新路径。分析人士认为，Z-Image 的 Apache 2.0 开源许可及其在 GitHub、Hugging Face 和 ModelScope 平台的全面可用性，极大地降低了开发者和创意人员的微调门槛。随着此类高效模型的迭代，AI 图像工具预计将在 2026 年加速渗透至移动端和边缘设备，全面赋能电商、影视和游戏等产业。

项目官网：https://tongyi-mai.github.io/Z-Image-homepage/

GitHub 仓库：https://github.com/Tongyi-MAI/Z-Image

(以上内容均由Ai生成)