Skip to content

DreamO:字节开源的统一图像定制框架

功能介绍

DreamO 是基于 Flux.1-dev 构建的统一图像定制框架,支持主体(脸部特征+身体+衣服等)/身份(脸部特征)/风格/试穿衣服/多图融合等多种任务。其中面部特征能力在保持面部细节上超越了 PuLID。下面分别演示下5种功能。

  • 功能一:IP 任务(主体参考) img.png

  • 功能二:ID 任务(面部特征) img.png

  • 功能三:style 任务(风格参考) img.png

  • 功能四:虚拟试穿 img.png 说明:以上是虚拟试穿的一种方式(ip+ip),两件衣服;还可以是id(模特)+ip(衣服/穿衣服的人物),生成 id 脸的模特穿着 ip 的衣服

  • 功能五:多图融合 img.png

安装应用

为了方便使用,制作了一键整合包,关注本公众号,回复dreamo,获取下载链接,下载后,选择DreamO.7z.001,右击选择“7-zip” => “extract here” 进行解压,解压完成后,先双击“模型下载.bat”下载 Flux.1-dev 模型,之后双击“启动.bat”文件即可。

系统要求:需要 GPU 支持,且显存大小需要 16G 以上。

下面以 Windows11 为例,演示安装流程,在 cmd 中依次输入以下命令

shell
# 下载代码
git clone https://github.com/bytedance/DreamO.git
cd DreamO

# 创建环境
conda create -n dreamo python=3.12 -y
conda activate dreamo

# 安装依赖
pip install -r requirements.txt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

下载模型

DreamO 需要以下 4 类模型,均会自动下载:

  1. Flux.1-dev
  2. BEN2_Base.pth
  3. 四个 DreamO 模型
  4. FLUX-turbo-lora 模型

其中 Flux.1-dev 需要登录 huggingFace 才能下载,可以使用如下命令下载:(命令中的 token 在 huggingFace 的个人中心可见)

shell
huggingface-cli download --token ${token} --resume-download black-forest-labs/FLUX.1-dev

启动应用

在 cmd 中输入以下命令

shell
python app.py --int8

启动参数:

  • --no_turbo:DreamO 与推理加速 Lora FLUX-turbo 高度兼容,因此默认启用,可以将推理步骤减少至 12 步(默认为 25 步以上)。可以通过 --no_turbo 来禁用 Turbo ,但官方的评估结果好坏参半;因此官方建议保持 Turbo 启用状态。
  • --int8:使用该量化模式,24G 显存可用
  • --int8 --offload:开启该命令后,可以在 16G 显存的情况下使用,--offload 会显著降低推理速度

在 cmd 中看到如下日志,表示成功

shell
* Running on local URL:  http://0.0.0.0:8080

此时浏览器输入 http://127.0.0.1:8080,展示界面如下(界面包含:参数说明/操作区/示例区,以下仅贴出操作区)

img.png

重要参数:

  • WidthHeight:图像的宽高
  • Number of steps: 推理步数,开启 turbo,默认为 12 步,不开启,则需要 25 步以上
  • Guidance: 默认是 3.5,如果脸部过于光滑优塑料感(尤其是 ID 任务),可考虑降低该值(例如,到 3);如果有肢体变形或者不遵循 prompt 语义,则考虑升高该值(例如,到 4)
  • task for ref image x:任务类型
    • ip:会去除背景,保留主体风格;
    • id:仅参考脸部;
    • style:会保留整图进行参考,提示语必须以 generate a same style image.开头

文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!