阿里通义开源新ControlNet模型，6亿参数引领图像生成潮流

发布时间：2025年12月3日来源：szf

快速阅读: 阿里巴巴通义实验室开源Z-Image-Turbo-Fun-Controlnet-Union模型，扩展Z-Image系列图像生成能力，支持多条件控制融合、高效兼容性及4-bit量化，适用于电商、影视等领域，降低AI图像生成门槛，增强创作效率。

阿里巴巴通义实验室今日正式开源了 Z-Image-Turbo-Fun-Controlnet-Union，这一全新 ControlNet 模型标志着 Z-Image 系列图像生成生态的重大扩展。作为 AIbase 独家追踪的开源 AI 动态，此次发布进一步巩固了 Z-Image-Turbo 在精确控制与创意生成方面的领先地位，迅速引起全球开发者和创作者的广泛关注。

该模型已在 Hugging Face 平台上架，采用 Apache 2.0 许可，适用于商业用途。Z-Image 系列自11月底首次发布以来，迅速登顶 Hugging Face 趋势榜，首日下载量超过50万次。该系列以单流扩散架构为核心，尽管只有6亿参数，却实现了照片级别的真实感渲染，包括皮肤纹理、发丝细节以及光影美学优化。Z-Image-Turbo 作为快速推理版本，仅需8步采样即可生成1024×1024分辨率的图像，推理时间低至9秒（RTX4080硬件），并且支持中英混合文本渲染，显著提高了创作效率。

此次推出的 Z-Image-Turbo-Fun-Controlnet-Union 是对 Z-Image-Turbo 的深度扩展。它在模型的6个核心模块上集成了 ControlNet 结构，兼容 Canny 边缘检测、HED 边界提取及 Depth 深度映射等多种控制条件。该模型专门针对复杂场景设计，例如人物姿态的精确生成和基于线稿的建筑设计，目前通过 Python 代码实现集成，ComfyUI 等工作流的支持也即将跟进。

其核心功能和应用亮点包括：

– **多条件控制融合**：支持姿态、边缘与深度信息的联合输入，实现“零失真”图像操控。开发者可以轻松构建从草图到成品的自动化流程，适用于电商视觉设计、影视特效及游戏原型制作。

– **高效兼容性**：继承了 Z-Image-Turbo 的轻量架构，仅需6GB VRAM 即可运行，远低于传统 ControlNet 模型的硬件要求。测试显示，在低端 GPU 上生成速度可达250秒/5步，平衡了质量和实时性。

– **开源生态赋能**：提供了4-bit 量化版本（如 MFLUX 兼容），便于在 Mac 等消费级设备上部署。同时，Z-Image-Edit 变体增强了复合编辑指令的理解，保持画面的一致性。

这些功能不仅降低了 AI 图像生成的门槛，还为非专业用户打开了专业级创作的大门。社区反馈表明，该模型在广告素材生成中的提示词忠实度超过了 OVIS Image 等竞争对手。

开源社区对 Z-Image-Turbo-Fun-Controlnet-Union 的反应非常热烈，Reddit 和 X 平台上出现了大量基准测试，包括名人面部识别和 K-pop 偶像生成实验，结果显示其在辨识度和自然度方面表现优异。开发者称赞其“按着 Flux 打”的效率优势，特别是在低 CFG Scale (2-3) 下的稳定输出。

AIbase 分析认为，此次发布加强了阿里巴巴在全球开源 AI 领域的竞争力。未来，预计该模型将与 Z-Image-Base 版本联动，形成完整的图像生成-编辑-控制闭环。更多信息请访问 Hugging Face 页面。

(以上内容均由Ai生成)