顶级图像编辑模型 Qwen-Image-Edit-2511
Qwen-Image 官方文档
模型特性
Qwen-Image-Edit-2511 是 顶级图像编辑模型 Qwen-Image-Edit-2509 的升级版本。 核心增强了以下五个方面的能力:
- 增强角色的一致性
- 内置集成了经典 Lora
- 减轻图像漂移
- 增强工业设计生成
- 增强几何推理能力
全面测试
下面进行13个场景的测试(与2509一致),左边为原图,右边为编辑后的图。
整体结论(与2509对比):
- 三视图/旋转视图:2509 无法做到在保持原本姿势的情况下获得旋转视图,2511可以;
- 风格转换方面:2509 在动漫转真人方面比较弱,需要配合lora使用,2511可以模型直出,不用外接lora;
- 人物一致性保持:多人合照2509不完美(部分人物ID保持不足,即脸部不像);2511不错,依然不敌
nano-banana-pro-2k; - 字体生成:相较于2509,字体生成的正确性方面有所提升,依然不稳定;字体与其他物体融合程度不如2509
具体例子如下:
物体删除

prompt: 去除水印
效果:观察图片右下角的水印,去除的很完美。
物体修改

prompt:将女孩的衣服换成运动背心,牛仔裤
效果:完美。
物体新增

prompt:女孩的左腹部添加玫瑰花形状的纹身
效果:完美。
物体三视图生成(物体旋转)

prompt:获得后视图,保持人物的姿势
效果:完美(2509 无法做到在保持原本姿势的情况下获得旋转视图)。
风格转换
动漫转真人 
prompt:转变成真实人物风格,皮肤皙白
真人转动漫 
prompt:转变成韩漫风格
效果:无需增加lora,动漫转真人效果完美(2509需要增加lora进行转换,否则效果一般);真人转动漫效果完美。
语义编辑
语义编辑:在保持原始图像视觉语义不变的前提下,对图像内容进行修改。

prompt:女孩两只手摆出一个爱心的形状
效果:完美。
双人合照

prompt:两个人愉快的合照
效果:任务一致性的保持相较于2509具有质的飞跃。但是依然不敌 nano-banana-pro-2k,其效果如下:

人景合照

prompt:image1中的人物站在image2的花丛前
效果:完美。
人品合照

prompt:image1中的人物戴上image2女孩的项链
效果:完美。
获取图片的 ControlNet 图片

prompt:获取图中女孩的深度图
效果:完美。(canny/openpose 等也是同样操作)
原生支持 controlNet 生图

prompt:一个女孩。微笑,柔光,夕阳
效果:完美。
文字生成

prompt:将女孩的衣服换成纯白色,上衣胸部写着“qwen不错”,文字需要与衣服贴合
效果:文字有概率错,尤其是 qwen(2509是错的),与衣服的贴合效果不如2509
文字编辑(字体/色彩/材质修改)

prompt:将“不错”两个字改为银色,行书,金属材质
效果:完美。
模型下载
- text_encoders:文本编码器,下载文件 qwen_2.5_vl_7b_fp8_scaled.safetensors,将其放置到
ComfyUI/models/text_encoders/下 - diffusion_models:扩散模型,下载以下文件任意一个,将其放置到
ComfyUI/models/diffusion_models/下- qwen_image_edit_2511_bf16.safetensors:精度更高,更占显存,但是可以使用共享内存来承接,所以如果不是太小的显存,推荐优先使用该模型进行尝试;
- qwen_image_edit_2511_fp8mixed.safetensors:如果 bf16 会 oom,则使用该显存
- vae:下载文件 qwen_image_vae.safetensors,将其放置到
ComfyUI/models/vae/下 - LoRA 加速模型:下载以下文件任意一个,放置到
ComfyUI/models/loras/下
性能
测试的机器规格: RTX4090 24G 显存;64G 内存(其中 32G 共享 GPU 内存)。
推理场景1
条件:使用 bf16 模型 + 不加 lora 加速模型 + 20步 + CFG:4
效果:生图 68s,占用42G显存(独显+共享显存)

推理场景2
条件:使用 bf16 模型 + 加 lora 加速模型(fp32) + 4步 + CFG:1
效果:生图 20s(保持同样的输入不变,再次生成,需要10s),占用42G显存(独显+共享显存)
搭建工作流

文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!
