顶级图像编辑模型 Qwen-Image-Edit-2511

Qwen-Image 官方文档

https://github.com/QwenLM/Qwen-Image

模型特性

Qwen-Image-Edit-2511 是顶级图像编辑模型 Qwen-Image-Edit-2509 的升级版本。核心增强了以下五个方面的能力：

增强角色的一致性
内置集成了经典 Lora
减轻图像漂移
增强工业设计生成
增强几何推理能力

全面测试

下面进行13个场景的测试（与2509一致），左边为原图，右边为编辑后的图。

整体结论（与2509对比）：

三视图/旋转视图：2509 无法做到在保持原本姿势的情况下获得旋转视图，2511可以；
风格转换方面：2509 在动漫转真人方面比较弱，需要配合lora使用，2511可以模型直出，不用外接lora；
人物一致性保持：多人合照2509不完美（部分人物ID保持不足，即脸部不像）；2511不错，依然不敌 nano-banana-pro-2k；
字体生成：相较于2509，字体生成的正确性方面有所提升，依然不稳定；字体与其他物体融合程度不如2509

具体例子如下：

物体删除

prompt： 去除水印

效果：观察图片右下角的水印，去除的很完美。

物体修改

prompt：将女孩的衣服换成运动背心，牛仔裤

效果：完美。

物体新增

prompt：女孩的左腹部添加玫瑰花形状的纹身

效果：完美。

物体三视图生成（物体旋转）

prompt：获得后视图，保持人物的姿势

效果：完美（2509 无法做到在保持原本姿势的情况下获得旋转视图）。

风格转换

动漫转真人

prompt：转变成真实人物风格，皮肤皙白

真人转动漫

prompt：转变成韩漫风格

效果：无需增加lora，动漫转真人效果完美（2509需要增加lora进行转换，否则效果一般）；真人转动漫效果完美。

语义编辑

语义编辑：在保持原始图像视觉语义不变的前提下，对图像内容进行修改。

prompt：女孩两只手摆出一个爱心的形状

效果：完美。

双人合照

prompt：两个人愉快的合照

效果：任务一致性的保持相较于2509具有质的飞跃。但是依然不敌 nano-banana-pro-2k，其效果如下：

人景合照

prompt：image1中的人物站在image2的花丛前

效果：完美。

人品合照

prompt：image1中的人物戴上image2女孩的项链

效果：完美。

获取图片的 ControlNet 图片

prompt：获取图中女孩的深度图

效果：完美。（canny/openpose 等也是同样操作）

原生支持 controlNet 生图

prompt：一个女孩。微笑，柔光，夕阳

效果：完美。

文字生成

prompt：将女孩的衣服换成纯白色，上衣胸部写着“qwen不错”，文字需要与衣服贴合

效果：文字有概率错，尤其是 qwen（2509是错的），与衣服的贴合效果不如2509

文字编辑（字体/色彩/材质修改）

prompt：将“不错”两个字改为银色，行书，金属材质

效果：完美。

模型下载

text_encoders：文本编码器，下载文件 qwen_2.5_vl_7b_fp8_scaled.safetensors，将其放置到 ComfyUI/models/text_encoders/ 下
diffusion_models：扩散模型，下载以下文件任意一个，将其放置到 ComfyUI/models/diffusion_models/ 下
- qwen_image_edit_2511_bf16.safetensors：精度更高，更占显存，但是可以使用共享内存来承接，所以如果不是太小的显存，推荐优先使用该模型进行尝试；
- qwen_image_edit_2511_fp8mixed.safetensors：如果 bf16 会 oom，则使用该显存
vae：下载文件 qwen_image_vae.safetensors，将其放置到 ComfyUI/models/vae/ 下
LoRA 加速模型：下载以下文件任意一个，放置到 ComfyUI/models/loras/ 下
- Qwen-Image-Edit-2511-Lightning-4steps-V1.0-fp32.safetensors：精度更高，优先使用
- Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors

性能

测试的机器规格： RTX4090 24G 显存；64G 内存（其中 32G 共享 GPU 内存）。

推理场景1

条件：使用 bf16 模型 + 不加 lora 加速模型 + 20步 + CFG:4

效果：生图 68s，占用42G显存（独显+共享显存）

推理场景2

条件：使用 bf16 模型 + 加 lora 加速模型（fp32） + 4步 + CFG:1

效果：生图 20s（保持同样的输入不变，再次生成，需要10s），占用42G显存（独显+共享显存）

搭建工作流

文章的最后，如果您觉得本文对您有用，请打赏一杯咖啡！感谢！

顶级图像编辑模型 Qwen-Image-Edit-2511 ​

模型特性 ​

全面测试 ​

物体删除 ​

物体修改 ​

物体新增 ​

物体三视图生成（物体旋转） ​

风格转换 ​

语义编辑 ​

双人合照 ​

人景合照 ​

人品合照 ​

获取图片的 ControlNet 图片 ​

原生支持 controlNet 生图 ​

文字生成 ​

文字编辑（字体/色彩/材质修改） ​

模型下载 ​

性能 ​

推理场景1 ​

推理场景2 ​

搭建工作流 ​

顶级图像编辑模型 Qwen-Image-Edit-2511

模型特性

全面测试

物体删除

物体修改

物体新增

物体三视图生成（物体旋转）

风格转换

语义编辑

双人合照

人景合照

人品合照

获取图片的 ControlNet 图片

原生支持 controlNet 生图

文字生成

文字编辑（字体/色彩/材质修改）

模型下载

性能

推理场景1

推理场景2

搭建工作流