最真实的文生图模型 Z-Image
Z-Image 官方文档
Z-Image 介绍
Z-Image 是阿里开源的一款图像生成模型,具有以下特点:
- 照片非常真实,没有 flux 那样的塑料皮肤感
- 中英文渲染能力不错
- 指令遵循性强,即听话
Z-Image 模型分类
Z-Image-Turbo
Z-Image 的简化版模型,已开源。
- 生图速度较快,官方工作流在 4090 上仅需 5s
- 显存要求低,仅要求 16G 显存
Z-Image-Base
Z-Image 完整版模型,待开源。
Z-Image-Edit
Z-Image 图像编辑模型,待开源。支持根据自然语言提示实现精确编辑,且指令遵循性强。
Z-Image 模型下载
- text_encoder 模型文件:下载 qwen_3_4b.safetensors 文件,放置到 ComfyUI/models/text_encoders/ 下
- diffusion 模型文件:下载 z_image_turbo_bf16.safetensors,之后放置到 ComfyUI/models/diffusion_models/ 下
- vae 模型文件:下载 ae.safetensors 文件 ,之后为了方便使用,重命名为 flux_ae.safetensors,放置到 ComfyUI/models/vae/flux/ 下
搭建工作流
Z-Image 最简工作流

Z-Image 伪图生图工作流

说明:通常的图生图工作流,是将上传的图片,经过 vae 编码,传入采样器的 latent_image 节点。在 Z-Image 中使用该方式,发现几乎不奏效,说明不支持图生图,所以现阶段引入了 JoyCaption2 来对参考图片进行提示词反推,之后使用该提示词进行图片生成,是一种“伪图生图”的方式。
文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!
