阿里Z-Image轻量模型挑战巨头,16G显存实现高效出图
快速阅读: 阿里通义实验室发布Z-Image-Turbo,仅用2.3秒在RTX4090上渲染出1024×1024霓虹汉服图,显存13GB。6亿参数模型性能超越20亿参数旗舰,支持低配显卡,细节表现优异,跻身开源榜首。
昨晚,阿里通义实验室发布的Z-Image-Turbo在RTX4090上仅用2.3秒渲染完成了一张1024×1024的霓虹汉服图片,显存占用稳定在13GB。这款模型仅有6亿参数,却能与超过20亿参数的闭源旗舰模型抗衡,甚至略胜一筹,令围观者惊叹不已。
Z-Image-Turbo以实际效果证明了其强大性能:只需8步采样即可达到印刷级画质,即使是消费级显卡3060 6GB也能运行,最大显存需求仅为16GB。该模型能够准确理解复杂的中文描述,从“夜晚的阳光”到“左手拿奶茶,右手持手机显示今日新闻”,都能自动纠正偏差,确保中英文字符清晰可辨。此外,皮肤毛孔、玻璃反射、雨雾逆光及电影景深等细节均表现优异,在Elo人工偏好排行榜上,Z-Image-Turbo跻身开源领域第一梯队。
这一成就得益于全新的S3-DiT架构,将文本、视觉语义和图像标记串联成单一数据流,参数量减少至竞争对手的三分之一,而推理效率显著提升。团队还推出了Z-Image-Edit工具,允许用户通过简单的自然语言指令实现图像的“换头改景”。该模型已在ModelScope和Hugging Face平台上架,且已合并至diffusers主分支,用户只需一行pip命令即可安装使用。随着企业版API定价的公布,Midjourney和Flux等竞争对手可能需要考虑调整价格策略。
Z-Image的问世标志着图像生成技术进入“轻量化高质量”时代,算力的普及不再是空谈——如今,哪家显卡还不到16GB呢?项目详情可访问:https://github.com/Tongyi-MAI/Z-Image
(以上内容均由Ai生成)