pipeline-level quant config

stevhliu · stevhliu · commit df85f8408a16 · 2025-05-19T11:14:58.000-07:00
diff --git a/docs/source/en/api/pipelines/cogvideox.md b/docs/source/en/api/pipelines/cogvideox.md
@@ -39,17 +39,16 @@ The quantized CogVideoX 5B model below requires ~16GB of VRAM.
 
 ```py
 import torch
-from diffusers import CogVideoXPipeline, AutoModel, TorchAoConfig
+from diffusers import CogVideoXPipeline, AutoModel
+from diffusers.quantizers import PipelineQuantizationConfig
 from diffusers.hooks import apply_group_offloading
 from diffusers.utils import export_to_video
 
 # quantize weights to int8 with torchao
-quantization_config = TorchAoConfig("int8wo")
-transformer = AutoModel.from_pretrained(
-    "THUDM/CogVideoX-5b",
-    subfolder="transformer",
-    quantization_config=quantization_config,
-    torch_dtype=torch.bfloat16,
+pipeline_quant_config = PipelineQuantizationConfig(
+  quant_backend="torchao",
+  quant_kwargs={"quant_type": "int8wo"},
+  components_to_quantize=["transformer"]
 )
 
 # fp8 layerwise weight-casting
@@ -65,6 +64,7 @@ transformer.enable_layerwise_casting(
 pipeline = CogVideoXPipeline.from_pretrained(
     "THUDM/CogVideoX-5b",
     transformer=transformer,
+    quantization_config=pipeline_quant_config,
     torch_dtype=torch.bfloat16
 )
 pipeline.to("cuda")
diff --git a/docs/source/en/api/pipelines/hunyuan_video.md b/docs/source/en/api/pipelines/hunyuan_video.md
@@ -40,22 +40,25 @@ The quantized HunyuanVideo model below requires ~14GB of VRAM.
 
 ```py
 import torch
-from diffusers import BitsAndBytesConfig as DiffusersBitsAndBytesConfig, AutoModel, HunyuanVideoPipeline
+from diffusers import AutoModel, HunyuanVideoPipeline
+from diffusers.quantizers import PipelineQuantizationConfig
 from diffusers.utils import export_to_video
 
 # quantize weights to int4 with bitsandbytes
-quant_config = DiffusersBitsAndBytesConfig(load_in_4bit=True)
-transformer = AutoModel.from_pretrained(
-    "hunyuanvideo-community/HunyuanVideo",
-    subfolder="transformer",
-    quantization_config=quant_config,
-    torch_dtype=torch.bfloat16,
+pipeline_quant_config = PipelineQuantizationConfig(
+  quant_backend="bitsandbytes_4bit",
+  quant_kwargs={
+    "load_in_4bit": True,
+    "bnb_4bit_quant_type": "nf4",
+    "bnb_4bit_compute_dtype": torch.bfloat16
+    },
+  components_to_quantize=["transformer"]
 )
 
 pipeline = HunyuanVideoPipeline.from_pretrained(
     "hunyuanvideo-community/HunyuanVideo",
-    transformer=transformer,
-    torch_dtype=torch.float16,
+    quantization_config=pipeline_quant_config,
+    torch_dtype=torch.bfloat16,
 )
 
 # model-offloading and tiling
@@ -74,22 +77,25 @@ Compilation is slow the first time but subsequent calls to the pipeline are fast
 
 ```py
 import torch
-from diffusers import BitsAndBytesConfig as DiffusersBitsAndBytesConfig, AutoModel, HunyuanVideoPipeline
+from diffusers import AutoModel, HunyuanVideoPipeline
+from diffusers.quantizers import PipelineQuantizationConfig
 from diffusers.utils import export_to_video
 
 # quantize weights to int4 with bitsandbytes
-quant_config = DiffusersBitsAndBytesConfig(load_in_4bit=True)
-transformer = AutoModel.from_pretrained(
-    "hunyuanvideo-community/HunyuanVideo",
-    subfolder="transformer",
-    quantization_config=quant_config,
-    torch_dtype=torch.bfloat16,
+pipeline_quant_config = PipelineQuantizationConfig(
+  quant_backend="bitsandbytes_4bit",
+  quant_kwargs={
+    "load_in_4bit": True,
+    "bnb_4bit_quant_type": "nf4",
+    "bnb_4bit_compute_dtype": torch.bfloat16
+    },
+  components_to_quantize=["transformer"]
 )
 
 pipeline = HunyuanVideoPipeline.from_pretrained(
     "hunyuanvideo-community/HunyuanVideo",
-    transformer=transformer,
-    torch_dtype=torch.float16,
+    quantization_config=pipeline_quant_config,
+    torch_dtype=torch.bfloat16,
 )
 
 # model-offloading and tiling
@@ -116,22 +122,25 @@ export_to_video(video, "output.mp4", fps=15)
 
   ```py
   import torch
-  from diffusers import BitsAndBytesConfig as DiffusersBitsAndBytesConfig, AutoModel, HunyuanVideoPipeline
+  from diffusers import AutoModel, HunyuanVideoPipeline
+  from diffusers.quantizers import PipelineQuantizationConfig
   from diffusers.utils import export_to_video
 
   # quantize weights to int4 with bitsandbytes
-  quant_config = DiffusersBitsAndBytesConfig(load_in_4bit=True)
-  transformer = AutoModel.from_pretrained(
-      "hunyuanvideo-community/HunyuanVideo",
-      subfolder="transformer",
-      quantization_config=quant_config,
-      torch_dtype=torch.bfloat16,
+  pipeline_quant_config = PipelineQuantizationConfig(
+    quant_backend="bitsandbytes_4bit",
+    quant_kwargs={
+      "load_in_4bit": True,
+      "bnb_4bit_quant_type": "nf4",
+      "bnb_4bit_compute_dtype": torch.bfloat16
+      },
+    components_to_quantize=["transformer"]
   )
 
   pipeline = HunyuanVideoPipeline.from_pretrained(
       "hunyuanvideo-community/HunyuanVideo",
-      transformer=transformer,
-      torch_dtype=torch.float16,
+      quantization_config=pipeline_quant_config,
+      torch_dtype=torch.bfloat16,
   )
 
   # load LoRA weights
diff --git a/docs/source/en/api/pipelines/wan.md b/docs/source/en/api/pipelines/wan.md
@@ -41,6 +41,7 @@ The Wan2.1 text-to-video model below requires ~13GB of VRAM.
 import torch
 import numpy as np
 from diffusers import AutoModel, WanPipeline
+from diffusers.quantizers import PipelineQuantizationConfig
 from diffusers.hooks.group_offloading import apply_group_offloading
 from diffusers.utils import export_to_video, load_image
 from transformers import UMT5EncoderModel
diff --git a/docs/source/en/using-diffusers/text-img2vid.md b/docs/source/en/using-diffusers/text-img2vid.md
@@ -86,22 +86,25 @@ export_to_video(output, "output.mp4", fps=16)
 
 ```py
 import torch
-from diffusers import BitsAndBytesConfig as DiffusersBitsAndBytesConfig, AutoModel, HunyuanVideoPipeline
+from diffusers importAutoModel, HunyuanVideoPipeline
+from diffusers.quantizers import PipelineQuantizationConfig
 from diffusers.utils import export_to_video
 
 # quantize weights to int4 with bitsandbytes
-quant_config = DiffusersBitsAndBytesConfig(load_in_4bit=True)
-transformer = AutoModel.from_pretrained(
-    "hunyuanvideo-community/HunyuanVideo",
-    subfolder="transformer",
-    quantization_config=quant_config,
-    torch_dtype=torch.bfloat16,
+pipeline_quant_config = PipelineQuantizationConfig(
+  quant_backend="bitsandbytes_4bit",
+  quant_kwargs={
+    "load_in_4bit": True,
+    "bnb_4bit_quant_type": "nf4",
+    "bnb_4bit_compute_dtype": torch.bfloat16
+    },
+  components_to_quantize=["transformer"]
 )
 
 pipeline = HunyuanVideoPipeline.from_pretrained(
     "hunyuanvideo-community/HunyuanVideo",
-    transformer=transformer,
-    torch_dtype=torch.float16,
+    quantization_config=pipeline_quant_config,
+    torch_dtype=torch.bfloat16,
 )
 
 # model-offloading and tiling
@@ -360,33 +363,24 @@ The example below uses [bitsandbytes](../quantization/bitsandbytes) to quantize
 
 import torch
 from diffusers import WanPipeline
-from diffusers import BitsAndBytesConfig as DiffusersBitsAndBytesConfig, AutoModel, WanPipeline
+from diffusers import AutoModel, WanPipeline
+from diffusers.quantizers import PipelineQuantizationConfig
 from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
 from transformers import UMT5EncoderModel
 from diffusers.utils import export_to_video
 
 # quantize transformer and text encoder weights with bitsandbytes
-quant_config = DiffusersBitsAndBytesConfig(load_in_4bit=True)
-transformer = AutoModel.from_pretrained(
-    "Wan-AI/Wan2.1-T2V-14B-Diffusers",
-    subfolder="transformer",
-    quantization_config=quant_config,
-    torch_dtype=torch.bfloat16,
-)
-
-quant_config = DiffusersBitsAndBytesConfig(load_in_4bit=True)
-text_encoder = UMT5EncoderModel.from_pretrained(
-    "Wan-AI/Wan2.1-T2V-14B-Diffusers",
-    subfolder="text_encoder",
-    quantization_config=quant_config,
-    torch_dtype=torch.bfloat16,
+pipeline_quant_config = PipelineQuantizationConfig(
+  quant_backend="bitsandbytes_4bit",
+  quant_kwargs={"load_in_4bit": True},
+  components_to_quantize=["transformer", "text_encoder"]
 )
 
 vae = AutoModel.from_pretrained(
   "Wan-AI/Wan2.1-T2V-14B-Diffusers", subfolder="vae", torch_dtype=torch.float32
 )
 pipeline = WanPipeline.from_pretrained(
-  "Wan-AI/Wan2.1-T2V-14B-Diffusers", transformer=transformer, text_encoder=text_encoder, vae=vae, torch_dtype=torch.bfloat16
+  "Wan-AI/Wan2.1-T2V-14B-Diffusers", vae=vae, quantization_config=pipeline_quant_config, torch_dtype=torch.bfloat16
 )
 pipeline.scheduler = UniPCMultistepScheduler.from_config(
   pipeline.scheduler.config, flow_shift=5.0