Skip to content

顶级图像编辑模型 Qwen-Image-Edit-2511

模型特性

Qwen-Image-Edit-2511 是 顶级图像编辑模型 Qwen-Image-Edit-2509 的升级版本。 核心增强了以下五个方面的能力:

  • 增强角色的一致性
  • 内置集成了经典 Lora
  • 减轻图像漂移
  • 增强工业设计生成
  • 增强几何推理能力

全面测试

下面进行13个场景的测试(与2509一致),左边为原图,右边为编辑后的图。

整体结论(与2509对比):

  1. 三视图/旋转视图:2509 无法做到在保持原本姿势的情况下获得旋转视图,2511可以;
  2. 风格转换方面:2509 在动漫转真人方面比较弱,需要配合lora使用,2511可以模型直出,不用外接lora;
  3. 人物一致性保持:多人合照2509不完美(部分人物ID保持不足,即脸部不像);2511不错,依然不敌 nano-banana-pro-2k
  4. 字体生成:相较于2509,字体生成的正确性方面有所提升,依然不稳定;字体与其他物体融合程度不如2509

具体例子如下:

物体删除

img.png

prompt: 去除水印

效果:观察图片右下角的水印,去除的很完美。

物体修改

img_1.png

prompt:将女孩的衣服换成运动背心,牛仔裤

效果:完美。

物体新增

img_2.png

prompt:女孩的左腹部添加玫瑰花形状的纹身

效果:完美。

物体三视图生成(物体旋转)

img_3.png

prompt:获得后视图,保持人物的姿势

效果:完美(2509 无法做到在保持原本姿势的情况下获得旋转视图)。

风格转换

动漫转真人 img_4.png

prompt:转变成真实人物风格,皮肤皙白

真人转动漫 img_6.png

prompt:转变成韩漫风格

效果:无需增加lora,动漫转真人效果完美(2509需要增加lora进行转换,否则效果一般);真人转动漫效果完美。

语义编辑

语义编辑:在保持原始图像视觉语义不变的前提下,对图像内容进行修改。

img_7.png

prompt:女孩两只手摆出一个爱心的形状

效果:完美。

双人合照

img_8.png

prompt:两个人愉快的合照

效果:任务一致性的保持相较于2509具有质的飞跃。但是依然不敌 nano-banana-pro-2k,其效果如下:

img_8.png

人景合照

img_9.png

prompt:image1中的人物站在image2的花丛前

效果:完美。

人品合照

img_10.png

prompt:image1中的人物戴上image2女孩的项链

效果:完美。

获取图片的 ControlNet 图片

img_11.png

prompt:获取图中女孩的深度图

效果:完美。(canny/openpose 等也是同样操作)

原生支持 controlNet 生图

img_12.png

prompt:一个女孩。微笑,柔光,夕阳

效果:完美。

文字生成

img_13.png

prompt:将女孩的衣服换成纯白色,上衣胸部写着“qwen不错”,文字需要与衣服贴合

效果:文字有概率错,尤其是 qwen(2509是错的),与衣服的贴合效果不如2509

文字编辑(字体/色彩/材质修改)

img_14.png

prompt:将“不错”两个字改为银色,行书,金属材质

效果:完美。

模型下载

性能

测试的机器规格: RTX4090 24G 显存;64G 内存(其中 32G 共享 GPU 内存)

推理场景1

条件:使用 bf16 模型 + 不加 lora 加速模型 + 20步 + CFG:4

效果:生图 68s,占用42G显存(独显+共享显存)

img.png

推理场景2

条件:使用 bf16 模型 + 加 lora 加速模型(fp32) + 4步 + CFG:1

效果:生图 20s(保持同样的输入不变,再次生成,需要10s),占用42G显存(独显+共享显存)

搭建工作流

img_1.png

文章的最后,如果您觉得本文对您有用,请打赏一杯咖啡!感谢!