feat: support 🔥Qwen-Image-Layered (#615)

DefTruth · web-flow · commit d958b77d95c1 · 2025-12-25T17:05:06.000+08:00
* feat: support Qwen-Image-Layered

* feat: support Qwen-Image-Layered

* feat: support Qwen-Image-Layered

* feat: support Qwen-Image-Layered

* feat: support Qwen-Image-Layered

* feat: support Qwen-Image-Layered
diff --git a/README.md b/README.md
@@ -80,8 +80,9 @@ You can install the stable release of cache-dit from PyPI, or the latest develop
 
 <div align="center">
 
-| 📚Supported DiTs: `🤗60+` | Cache  | C-P | T-P | TE-P | CN-P | VAE-P |
+| 📚Supported DiTs: `🤗65+` | Cache  | C-P | T-P | TE-P | CN-P | VAE-P |
 |:---:|:---:|:---:|:---:|:---:|:---:|:---:|
+| Qwen-Image-Layered | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
 | Qwen-Image-Edit-2511-Lightning | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
 | Qwen-Image-Edit-2511 | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
 | LongCat-Image | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
diff --git a/examples/README.md b/examples/README.md
@@ -49,6 +49,7 @@ python3 generate.py list  # list all available examples
 [generate.py:53] - ✅ qwen_image_edit_lightning      - Defalut: lightx2v/Qwen-Image-Lightning
 [generate.py:53] - ✅ qwen_image_edit                - Defalut: Qwen/Qwen-Image-Edit-2509
 [generate.py:53] - ✅ qwen_image_controlnet          - Defalut: InstantX/Qwen-Image-ControlNet-Inpainting
+[generate.py:53] - ✅ qwen_image_layered             - Defalut: Qwen/Qwen-Image-Layered
 [generate.py:53] - ✅ skyreels_v2                    - Defalut: Skywork/SkyReels-V2-T2V-14B-720P-Diffusers
 [generate.py:53] - ✅ wan2.2_t2v                     - Defalut: Wan-AI/Wan2.2-T2V-A14B-Diffusers
 [generate.py:53] - ✅ wan2.1_t2v                     - Defalut: Wan-AI/Wan2.1-T2V-1.3B-Diffusers
diff --git a/examples/base.py b/examples/base.py
@@ -64,6 +64,11 @@ class ExampleInputData:
     control_image: Optional[Union[List[Image.Image], Image.Image]] = None
     control_mask: Optional[Union[List[Image.Image], Image.Image]] = None
     controlnet_conditioning_scale: Optional[float] = None
+    # Specific inputs for Qwen Image Layered
+    layers: Optional[int] = None
+    resolution: Optional[int] = None
+    cfg_normalize: Optional[bool] = None
+    use_en_prompt: Optional[bool] = None
     # Other inputs
     seed: Optional[int] = None
     generator: torch.Generator = torch.Generator("cpu").manual_seed(0)
@@ -203,7 +208,9 @@ class ExampleOutputData:
     model_tag: Optional[str] = None
     strify_tag: Optional[str] = None
     # Generated image or video
-    image: Optional[Image.Image] = None  # Single PIL Images
+    image: Optional[Image.Image | List[Image.Image]] = (
+        None  # Single PIL Images or list of PIL Images
+    )
     video: Optional[List[Image.Image]] = None  # List of PIL Images or video frames
     # Performance metrics
     load_time: Optional[float] = None
@@ -223,8 +230,16 @@ def save(self, args: argparse.Namespace) -> None:
                 return
 
         if self.image is not None:
-            self.image.save(save_path)
-            logger.info(f"Image saved to {save_path}")
+            if isinstance(self.image, Image.Image):
+                self.image.save(save_path)
+                logger.info(f"Image saved to {save_path}")
+            elif isinstance(self.image, list):
+                save_pre = ".".join(save_path.split(".")[:-1])
+                save_ext = save_path.split(".")[-1]
+                for i, img in enumerate(self.image):
+                    img_save_path = f"{save_pre}_{i}.{save_ext}"
+                    img.save(img_save_path)
+                    logger.info(f"Image {i} saved to {img_save_path}")
 
         if self.video is not None:
             export_to_video(self.video, save_path, fps=8)
diff --git a/examples/data/yarn-art-pikachu.png b/examples/data/yarn-art-pikachu.png
diff --git a/examples/helpers.py b/examples/helpers.py
@@ -4,6 +4,7 @@ def activate_all_examples():
     from registers import qwen_image_example  # noqa: F403, F401
     from registers import qwen_image_controlnet_example  # noqa: F403, F401
     from registers import qwen_image_edit_example  # noqa: F403, F401
+    from registers import qwen_image_layered_example  # noqa: F403, F401
     from registers import skyreels_v2_example  # noqa: F403, F401
     from registers import wan_example  # noqa: F403, F401
     from registers import wan_i2v_example  # noqa: F403, F401
diff --git a/examples/registers.py b/examples/registers.py
@@ -28,6 +28,7 @@
     "qwen_image_example",
     "qwen_image_controlnet_example",
     "qwen_image_edit_example",
+    "qwen_image_layered_example",
     "skyreels_v2_example",
     "wan_example",
     "wan_i2v_example",
@@ -54,6 +55,7 @@
     "QWEN_IMAGE_EDIT_2511_DIR": "Qwen/Qwen-Image-Edit-2511",
     "QWEN_IMAGE_EDIT_2511_LIGHT_DIR": "lightx2v/Qwen-Image-Edit-2511-Lightning",
     "QWEN_IMAGE_CONTROLNET_DIR": "InstantX/Qwen-Image-ControlNet-Inpainting",
+    "QWEN_IMAGE_LAYERED_DIR": "Qwen/Qwen-Image-Layered",
     "SKYREELS_V2_DIR": "Skywork/SkyReels-V2-T2V-14B-720P-Diffusers",
     "WAN_DIR": "Wan2.1-T2V-1.3B-Diffusers",
     "WAN_2_2_DIR": "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
@@ -408,6 +410,35 @@ def qwen_image_controlnet_example(args: argparse.Namespace, **kwargs) -> Example
     )
 
 
+@ExampleRegister.register("qwen_image_layered", default="Qwen/Qwen-Image-Layered")
+def qwen_image_layered_example(args: argparse.Namespace, **kwargs) -> Example:
+    from diffusers import QwenImageLayeredPipeline
+
+    model_name_or_path = _path("Qwen/Qwen-Image-Layered", args=args)
+    return Example(
+        args=args,
+        init_config=ExampleInitConfig(
+            task_type=ExampleType.T2I,  # Text to Image
+            model_name_or_path=model_name_or_path,
+            pipeline_class=QwenImageLayeredPipeline,
+            bnb_4bit_components=["text_encoder", "transformer"],
+            extra_optimize_kwargs={
+                "enable_separate_cfg": False,  # negative prompt is not used in example
+            },
+        ),
+        input_data=ExampleInputData(
+            image=load_image("./data/yarn-art-pikachu.png").convert("RGBA"),
+            prompt="",
+            num_inference_steps=50,
+            true_cfg_scale=4.0,
+            layers=4,
+            resolution=640,
+            cfg_normalize=False,
+            use_en_prompt=True,
+        ),
+    )
+
+
 @ExampleRegister.register("skyreels_v2", default="Skywork/SkyReels-V2-T2V-14B-720P-Diffusers")
 def skyreels_v2_example(args: argparse.Namespace, **kwargs) -> Example:
     from diffusers import AutoModel, SkyReelsV2Pipeline, UniPCMultistepScheduler