feat: support ⚡️Z-Image-Turbo Nunchaku (#623)

DefTruth · web-flow · commit 44ee074f2895 · 2025-12-26T15:23:49.000+08:00
* feat: support Z-Image Nunchaku

* feat: support Z-Image Nunchaku

* feat: support Z-Image Nunchaku

* feat: support Z-Image Nunchaku

* feat: support Z-Image Nunchaku

* feat: support Z-Image Nunchaku
diff --git a/README.md b/README.md
@@ -76,12 +76,13 @@ You can install the stable release of cache-dit from PyPI, or the latest develop
 ## 🔥Supported DiTs
 
 > [!Tip]   
-> One Model Series may contain many pipelines. cache-dit applies optimizations at the Transformer level; thus, any pipelines that include the supported transformer are already supported by cache-dit. ✅: supported now; ✖️: not supported now; **[`Q`](https://github.com/nunchaku-tech/nunchaku)**: [nunchaku](https://github.com/nunchaku-tech/nunchaku); **[C-P](./)**: Context Parallelism; **[T-P](./)**: Tensor Parallelism; **[TE-P](./)**: Text Encoder Parallelism; **[CN-P](./)**: ControlNet Parallelism;  **[VAE-P](./)**: VAE Parallelism (TODO).
+> One Model Series may contain many pipelines. cache-dit applies optimizations at the Transformer level; thus, any pipelines that include the supported transformer are already supported by cache-dit. ✅: supported now; ✖️: not supported now; **[C-P](./)**: Context Parallelism; **[T-P](./)**: Tensor Parallelism; **[TE-P](./)**: Text Encoder Parallelism; **[CN-P](./)**: ControlNet Parallelism;  **[VAE-P](./)**: VAE Parallelism (TODO).
 
 <div align="center">
 
 | 📚Supported DiTs: `🤗65+` | Cache  | C-P | T-P | TE-P | CN-P | VAE-P |
 |:---:|:---:|:---:|:---:|:---:|:---:|:---:|
+| Z-Image-Turbo `⚡️Nunchaku` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
 | Qwen-Image-Layered | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
 | Qwen-Image-Edit-2511-Lightning | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
 | Qwen-Image-Edit-2511 | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
@@ -113,14 +114,14 @@ You can install the stable release of cache-dit from PyPI, or the latest develop
 | HunyuanImage-2.1 | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
 | HunyuanVideo-1.5 | ✅ | ✖️ | ✖️ | ✅ | ✖️ | ✖️ |
 | HunyuanVideo | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
-| FLUX.1-dev `Q` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
-| FLUX.1-Fill-dev `Q` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
-| Qwen-Image `Q` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
-| Qwen-Image-Edit `Q` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
-| Qwen-Image-Edit-2509 `Q` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
-| Qwen-Image-Lightning `Q` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
-| Qwen-Image-Edit-Lightning `Q` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
-| Qwen-Image-Edit-2509-Lightning `Q` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
+| FLUX.1-dev `⚡️Nunchaku` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
+| FLUX.1-Fill-dev `⚡️Nunchaku` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
+| Qwen-Image `⚡️Nunchaku` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
+| Qwen-Image-Edit `⚡️Nunchaku` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
+| Qwen-Image-Edit-2509 `⚡️Nunchaku` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
+| Qwen-Image-Lightning `⚡️Nunchaku` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
+| Qwen...Edit-Lightning `⚡️Nunchaku` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
+| Qwen...Edit-2509-Lightning `⚡️Nunchaku` | ✅ | ✅ | ✖️ | ✅ | ✖️ | ✖️ |
 | SkyReels-V2-T2V | ✅ | ✅  | ✅  | ✅ | ✖️ | ✖️ |
 | LongCat-Video | ✅ | ✖️ | ✖️ | ✅ | ✖️ | ✖️ |
 | ChronoEdit-14B | ✅ | ✅ | ✅ | ✅ | ✖️ | ✖️ |
diff --git a/examples/README.md b/examples/README.md
@@ -58,6 +58,7 @@ python3 generate.py list  # list all available examples
 [generate.py:53] - ✅ wan2.2_vace                    - Defalut: linoyts/Wan2.2-VACE-Fun-14B-diffusers
 [generate.py:53] - ✅ wan2.1_vace                    - Defalut: Wan-AI/Wan2.1-VACE-1.3B-diffusers
 [generate.py:53] - ✅ ovis_image                     - Defalut: AIDC-AI/Ovis-Image-7B
+[generate.py:53] - ✅ zimage_nunchaku                - Defalut: nunchaku/nunchaku-z-image-turbo
 [generate.py:53] - ✅ zimage                         - Defalut: Tongyi-MAI/Z-Image-Turbo
 [generate.py:53] - ✅ zimage_controlnet_2.0          - Defalut: alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union-2.0
 [generate.py:53] - ✅ zimage_controlnet_2.1          - Defalut: alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union-2.1
@@ -81,6 +82,7 @@ python3 generate.py qwen_image
 python3 generate.py skyreels_v2
 python3 generate.py wan2.2
 python3 generate.py zimage 
+python3 generate.py zimage_nunchaku 
 python3 generate.py zimage_controlnet_2.1 
 python3 generate.py generate longcat_image
 python3 generate.py generate longcat_image_edit
diff --git a/examples/registers.py b/examples/registers.py
@@ -64,6 +64,7 @@
     "WAN_VACE_DIR": "Wan-AI/Wan2.1-VACE-1.3B-diffusers",
     "WAN_2_2_VACE_DIR": "linoyts/Wan2.2-VACE-Fun-14B-diffusers",
     "ZIMAGE_DIR": "Tongyi-MAI/Z-Image-Turbo",
+    "NUNCHAKU_ZIMAGE_DIR": "nunchaku-tech/nunchaku-z-image-turbo",
     "Z_IMAGE_CONTROLNET_2_1_DIR": "alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union-2.1",
     "Z_IMAGE_CONTROLNET_2_0_DIR": "alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union-2.0",
     "LONGCAT_IMAGE_DIR": "meituan-longcat/LongCat-Image",
@@ -804,20 +805,36 @@ def _zimage_turbo_steps_mask(
 
 
 @ExampleRegister.register("zimage", default="Tongyi-MAI/Z-Image-Turbo")
+@ExampleRegister.register("zimage_nunchaku", default="nunchaku/nunchaku-z-image-turbo")
 def zimage_example(args: argparse.Namespace, **kwargs) -> Example:
     from diffusers import ZImagePipeline
 
     if args.cache:
         # Only warmup 4 steps (total 9 steps) for distilled models
         args.max_warmup_steps = min(4, args.max_warmup_steps)
 
+    if "nunchaku" in args.example.lower():
+        from nunchaku import NunchakuZImageTransformer2DModel
+
+        nunchaku_zimage_dir = _path(
+            "nunchaku-tech/nunchaku-z-image-turbo",
+            args=args,
+            transformer=True,
+        )
+        transformer = NunchakuZImageTransformer2DModel.from_pretrained(
+            f"{nunchaku_zimage_dir}/svdq-int4_r128-z-image-turbo.safetensors"
+        )
+    else:
+        transformer = None
+
     steps_computation_mask = _zimage_turbo_steps_mask(args)
     return Example(
         args=args,
         init_config=ExampleInitConfig(
             task_type=ExampleType.T2I,  # Text to Image
             model_name_or_path=_path("Tongyi-MAI/Z-Image-Turbo"),
             pipeline_class=ZImagePipeline,
+            transformer=transformer,  # maybe use Nunchaku zimage transformer
             bnb_4bit_components=["text_encoder"],
             extra_optimize_kwargs={
                 "steps_computation_mask": steps_computation_mask,
diff --git a/src/cache_dit/parallelism/transformers/context_parallelism/__init__.py b/src/cache_dit/parallelism/transformers/context_parallelism/__init__.py
@@ -101,8 +101,6 @@ def _maybe_patch_native_parallel_config(
     if not cls_name.startswith("Nunchaku"):
         return transformer
 
-    from diffusers import FluxTransformer2DModel, QwenImageTransformer2DModel
-
     try:
         from nunchaku.models.transformers.transformer_flux_v2 import (
             NunchakuFluxTransformer2DModelV2,
@@ -114,42 +112,54 @@ def _maybe_patch_native_parallel_config(
             NunchakuQwenImageNaiveFA2Processor,
             NunchakuQwenImageTransformer2DModel,
         )
+        from nunchaku.models.transformers.transformer_zimage import (
+            NunchakuZImageTransformer2DModel,
+            NunchakuZSingleStreamAttnProcessor,
+            NunchakuZImageAttention,
+        )
     except ImportError:
         raise ImportError(
-            "NunchakuFluxTransformer2DModelV2 or NunchakuQwenImageTransformer2DModel "
-            "requires the 'nunchaku' package. Please install nunchaku before using "
-            "the context parallelism for nunchaku 4-bits models."
+            "NunchakuZImageTransformer2DModel, NunchakuFluxTransformer2DModelV2 and "
+            "NunchakuQwenImageTransformer2DModel requires the 'nunchaku' package. "
+            "Please install nunchaku>=1.10 before using the context parallelism for "
+            "nunchaku 4-bits models."
         )
+
     assert isinstance(
         transformer,
         (
             NunchakuFluxTransformer2DModelV2,
-            FluxTransformer2DModel,
-        ),
-    ) or isinstance(
-        transformer,
-        (
             NunchakuQwenImageTransformer2DModel,
-            QwenImageTransformer2DModel,
+            NunchakuZImageTransformer2DModel,
         ),
-    ), (
-        "transformer must be an instance of NunchakuFluxTransformer2DModelV2 "
-        f"or NunchakuQwenImageTransformer2DModel, but got {type(transformer)}"
     )
-    config = transformer._parallel_config
+    config = getattr(transformer, "_parallel_config", None)
+    if config is None:
+        raise logger.warning(
+            f"The transformer {cls_name} does not have _parallel_config attribute. "
+            "Skipping patching native parallel config."
+        )
 
     attention_classes = (
         NunchakuFluxAttention,
         NunchakuFluxFA2Processor,
         NunchakuQwenAttention,
         NunchakuQwenImageNaiveFA2Processor,
+        NunchakuZImageAttention,
+        NunchakuZSingleStreamAttnProcessor,
     )
     for module in transformer.modules():
         if not isinstance(module, attention_classes):
             continue
         processor = getattr(module, "processor", None)
         if processor is None or not hasattr(processor, "_parallel_config"):
             continue
+        if getattr(processor, "_parallel_config", None) is not None:
+            logger.warning(
+                f"The attention processor {processor.__class__.__name__} already has "
+                "_parallel_config attribute set. Skipping patching native parallel config."
+            )
+            continue
         processor._parallel_config = config
 
     return transformer
diff --git a/src/cache_dit/parallelism/transformers/context_parallelism/cp_plan_nunchaku.py b/src/cache_dit/parallelism/transformers/context_parallelism/cp_plan_nunchaku.py
@@ -19,11 +19,17 @@
         NunchakuQwenImageNaiveFA2Processor,
         NunchakuQwenImageTransformer2DModel,
     )
+    from nunchaku.models.transformers.transformer_zimage import (
+        NunchakuZImageTransformer2DModel,
+        NunchakuZSingleStreamAttnProcessor,
+        NunchakuZImageAttention,
+    )
 except ImportError:
     raise ImportError(
-        "NunchakuFluxTransformer2DModelV2 or NunchakuQwenImageTransformer2DModel "
-        "requires the 'nunchaku' package. Please install nunchaku before using "
-        "the context parallelism for nunchaku 4-bits models."
+        "NunchakuZImageTransformer2DModel, NunchakuFluxTransformer2DModelV2 and "
+        "NunchakuQwenImageTransformer2DModel requires the 'nunchaku' package. "
+        "Please install nunchaku>=1.10 before using the context parallelism for "
+        "nunchaku 4-bits models."
     )
 
 try:
@@ -43,6 +49,7 @@
     ContextParallelismPlannerRegister,
 )
 
+from cache_dit.parallelism.attention import _maybe_patch_find_submodule
 from cache_dit.logger import init_logger
 
 logger = init_logger(__name__)
@@ -383,3 +390,139 @@ def __patch_NunchakuQwenImageNaiveFA2Processor__call__(
     txt_attn_output = attn.to_add_out(txt_attn_output)
 
     return img_attn_output, txt_attn_output
+
+
+@ContextParallelismPlannerRegister.register("NunchakuZImageTransformer2DModel")
+class NunchakuZImageContextParallelismPlanner(ContextParallelismPlanner):
+    def apply(
+        self,
+        transformer: Optional[torch.nn.Module | ModelMixin] = None,
+        **kwargs,
+    ) -> ContextParallelModelPlan:
+
+        # NOTE: Diffusers native CP plan still not supported for ZImageTransformer2DModel
+        self._cp_planner_preferred_native_diffusers = False
+
+        if transformer is not None and self._cp_planner_preferred_native_diffusers:
+            assert isinstance(
+                transformer, NunchakuZImageTransformer2DModel
+            ), "Transformer must be an instance of NunchakuZImageTransformer2DModel"
+            if hasattr(transformer, "_cp_plan"):
+                if transformer._cp_plan is not None:
+                    return transformer._cp_plan
+
+        # NOTE: This only a temporary workaround for ZImage to make context parallelism
+        # work compatible with DBCache FnB0. The better way is to make DBCache fully
+        # compatible with diffusers native context parallelism, e.g., check the split/gather
+        # hooks in each block/layer in the initialization of DBCache.
+        # Issue: https://github.com/vipshop/cache-dit/issues/498
+        _maybe_patch_find_submodule()
+        if not hasattr(NunchakuZSingleStreamAttnProcessor, "_parallel_config"):
+            NunchakuZSingleStreamAttnProcessor._parallel_config = None
+        if not hasattr(NunchakuZSingleStreamAttnProcessor, "_attention_backend"):
+            NunchakuZSingleStreamAttnProcessor._attention_backend = None
+        if not hasattr(NunchakuZImageAttention, "_parallel_config"):
+            NunchakuZImageAttention._parallel_config = None
+        if not hasattr(NunchakuZImageAttention, "_attention_backend"):
+            NunchakuZImageAttention._attention_backend = None
+
+        n_noise_refiner_layers = len(transformer.noise_refiner)  # 2
+        n_context_refiner_layers = len(transformer.context_refiner)  # 2
+        n_layers = len(transformer.layers)  # 30
+        # controlnet layer idx: [0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28]
+        # num_controlnet_samples = len(transformer.layers) // 2  # 15
+        has_controlnet = kwargs.get("has_controlnet", None)
+        if not has_controlnet:
+            # cp plan for ZImageTransformer2DModel if no controlnet
+            _cp_plan = {
+                # 0. Hooks for noise_refiner layers, 2
+                "noise_refiner.0": {
+                    "x": ContextParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                },
+                "noise_refiner.*": {
+                    "freqs_cis": ContextParallelInput(
+                        split_dim=1, expected_dims=3, split_output=False
+                    ),
+                },
+                f"noise_refiner.{n_noise_refiner_layers - 1}": ContextParallelOutput(
+                    gather_dim=1, expected_dims=3
+                ),
+                # 1. Hooks for context_refiner layers, 2
+                "context_refiner.0": {
+                    "x": ContextParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                },
+                "context_refiner.*": {
+                    "freqs_cis": ContextParallelInput(
+                        split_dim=1, expected_dims=3, split_output=False
+                    ),
+                },
+                f"context_refiner.{n_context_refiner_layers - 1}": ContextParallelOutput(
+                    gather_dim=1, expected_dims=3
+                ),
+                # 2. Hooks for main transformer layers, num_layers=30
+                "layers.0": {
+                    "x": ContextParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                },
+                "layers.*": {
+                    "freqs_cis": ContextParallelInput(
+                        split_dim=1, expected_dims=3, split_output=False
+                    ),
+                },
+                # NEED: call _maybe_patch_find_submodule to support ModuleDict like 'all_final_layer'
+                "all_final_layer": ContextParallelOutput(gather_dim=1, expected_dims=3),
+                # NOTE: The 'all_final_layer' is a ModuleDict of several final layers,
+                # each for a specific patch size combination, so we do not add hooks for it here.
+                # So, we have to gather the output of the last transformer layer.
+                # f"layers.{num_layers - 1}": ContextParallelOutput(gather_dim=1, expected_dims=3),
+            }
+        else:
+            # Special cp plan for NunchakuZImageTransformer2DModel with ZImageControlNetModel
+            logger.warning(
+                "Using special context parallelism plan for NunchakuZImageTransformer2DModel "
+                "due to the 'has_controlnet' flag is set to True."
+            )
+            _cp_plan = {
+                # zimage controlnet shared the same refiner as zimage, so, we need to
+                # add gather hooks for all layers in noise_refiner and context_refiner.
+                # 0. Hooks for noise_refiner layers, 2
+                # Insert gather hook after each layers due to the ops: (controlnet)
+                # - x = x + noise_refiner_block_samples[layer_idx]
+                "noise_refiner.*": {
+                    "x": ContextParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                    "freqs_cis": ContextParallelInput(
+                        split_dim=1, expected_dims=3, split_output=False
+                    ),
+                },
+                **{
+                    f"noise_refiner.{i}": ContextParallelOutput(gather_dim=1, expected_dims=3)
+                    for i in range(n_noise_refiner_layers)
+                },
+                # 1. Hooks for context_refiner layers, 2
+                "context_refiner.0": {
+                    "x": ContextParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                },
+                "context_refiner.*": {
+                    "freqs_cis": ContextParallelInput(
+                        split_dim=1, expected_dims=3, split_output=False
+                    ),
+                },
+                f"context_refiner.{n_context_refiner_layers - 1}": ContextParallelOutput(
+                    gather_dim=1, expected_dims=3
+                ),
+                # 2. Hooks for main transformer layers, num_layers=30
+                # Insert gather hook after each layers due to the ops: (main transformer)
+                # - unified + controlnet_block_samples[layer_idx]
+                "layers.*": {
+                    "x": ContextParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                    "freqs_cis": ContextParallelInput(
+                        split_dim=1, expected_dims=3, split_output=False
+                    ),
+                },
+                **{
+                    f"layers.{i}": ContextParallelOutput(gather_dim=1, expected_dims=3)
+                    for i in range(n_layers)
+                },
+                # NEED: call _maybe_patch_find_submodule to support ModuleDict like 'all_final_layer'
+                "all_final_layer": ContextParallelOutput(gather_dim=1, expected_dims=3),
+            }
+        return _cp_plan
diff --git a/src/cache_dit/parallelism/transformers/context_parallelism/cp_planners.py b/src/cache_dit/parallelism/transformers/context_parallelism/cp_planners.py
@@ -96,6 +96,9 @@ def _activate_cp_planners():
         from .cp_plan_nunchaku import (  # noqa: F401
             NunchakuQwenImageContextParallelismPlanner,
         )
+        from .cp_plan_nunchaku import (  # noqa: F401
+            NunchakuZImageContextParallelismPlanner,
+        )
 
 
 __all__ = ["_activate_cp_planners"]

Original file line number	Diff line number	Diff line change
`@@ -96,6 +96,9 @@ def _activate_cp_planners():`
`96`	`96`	`from .cp_plan_nunchaku import ( # noqa: F401`
`97`	`97`	`NunchakuQwenImageContextParallelismPlanner,`
`98`	`98`	`)`
	`99`	`+ from .cp_plan_nunchaku import ( # noqa: F401`
	`100`	`+ NunchakuZImageContextParallelismPlanner,`
	`101`	`+ )`
`99`	`102`
`100`	`103`
`101`	`104`	`__all__ = ["_activate_cp_planners"]`