Skip to content

最真实的文生图模型 Z-Image

Z-Image 介绍

Z-Image 是阿里开源的一款图像生成模型,具有以下特点:

  1. 照片非常真实,没有 flux 那样的塑料皮肤感
  2. 中英文渲染能力不错
  3. 指令遵循性强,即听话

Z-Image 模型分类

Z-Image-Turbo

Z-Image 的简化版模型,已开源。

  • 生图速度较快,官方工作流在 4090 上仅需 5s
  • 显存要求低,仅要求 16G 显存

Z-Image-Base

Z-Image 完整版模型,待开源。

Z-Image-Edit

Z-Image 图像编辑模型,待开源。支持根据自然语言提示实现精确编辑,且指令遵循性强。

Z-Image 模型下载

  • text_encoder 模型文件:下载 qwen_3_4b.safetensors 文件,放置到 ComfyUI/models/text_encoders/ 下
  • diffusion 模型文件:下载 z_image_turbo_bf16.safetensors,之后放置到 ComfyUI/models/diffusion_models/ 下
  • vae 模型文件:下载 ae.safetensors 文件 ,之后为了方便使用,重命名为 flux_ae.safetensors,放置到 ComfyUI/models/vae/flux/ 下

搭建工作流

Z-Image 最简工作流

img.png

Z-Image 伪图生图工作流

img_1.png

说明:通常的图生图工作流,是将上传的图片,经过 vae 编码,传入采样器的 latent_image 节点。在 Z-Image 中使用该方式,发现几乎不奏效,说明不支持图生图,所以现阶段引入了 JoyCaption2 来对参考图片进行提示词反推,之后使用该提示词进行图片生成,是一种“伪图生图”的方式。

文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!