_always_upcast_modules -> _precision_sensitive_module_patterns

a-r-r-o-w · a-r-r-o-w · commit a263e1a09416 · 2025-01-21T14:00:09.000+01:00
diff --git a/src/diffusers/models/autoencoders/autoencoder_asym_kl.py b/src/diffusers/models/autoencoders/autoencoder_asym_kl.py
@@ -60,7 +60,7 @@ class AsymmetricAutoencoderKL(ModelMixin, ConfigMixin):
             Synthesis with Latent Diffusion Models](https://arxiv.org/abs/2112.10752) paper.
     """
 
-    _always_upcast_modules = ["decoder"]
+    _precision_sensitive_module_patterns = ["decoder"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/autoencoders/vq_model.py b/src/diffusers/models/autoencoders/vq_model.py
@@ -71,7 +71,7 @@ class VQModel(ModelMixin, ConfigMixin):
             Type of normalization layer to use. Can be one of `"group"` or `"spatial"`.
     """
 
-    _always_upcast_modules = ["quantize"]
+    _precision_sensitive_module_patterns = ["quantize"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/modeling_utils.py b/src/diffusers/models/modeling_utils.py
@@ -163,7 +163,7 @@ class ModelMixin(torch.nn.Module, PushToHubMixin):
     _keys_to_ignore_on_load_unexpected = None
     _no_split_modules = None
     _keep_in_fp32_modules = None
-    _always_upcast_modules = None
+    _precision_sensitive_module_patterns = None
 
     def __init__(self):
         super().__init__()
@@ -344,10 +344,11 @@ def enable_layerwise_upcasting(
         memory footprint from model weights, but may lead to some quality degradation in the outputs. Most degradations
         are negligible, mostly stemming from weight casting in normalization and modulation layers.
 
-        By default, most models in diffusers set the `_always_upcast_modules` attribute to ignore patch embedding,
-        positional embedding and normalization layers. This is because these layers are most likely precision-critical
-        for quality. If you wish to change this behavior, you can set the `_always_upcast_modules` attribute to `None`,
-        or call [`~hooks.layerwise_upcasting.apply_layerwise_upcasting`] with custom arguments.
+        By default, most models in diffusers set the `_precision_sensitive_module_patterns` attribute to ignore patch
+        embedding, positional embedding and normalization layers. This is because these layers are most likely
+        precision-critical for quality. If you wish to change this behavior, you can set the
+        `_precision_sensitive_module_patterns` attribute to `None`, or call
+        [`~hooks.layerwise_upcasting.apply_layerwise_upcasting`] with custom arguments.
 
         Example:
             Using [`~models.ModelMixin.enable_layerwise_upcasting`]:
@@ -386,8 +387,8 @@ def enable_layerwise_upcasting(
             user_provided_patterns = False
         if self._keep_in_fp32_modules is not None:
             skip_modules_pattern += tuple(self._keep_in_fp32_modules)
-        if self._always_upcast_modules is not None:
-            skip_modules_pattern += tuple(self._always_upcast_modules)
+        if self._precision_sensitive_module_patterns is not None:
+            skip_modules_pattern += tuple(self._precision_sensitive_module_patterns)
         skip_modules_pattern = tuple(set(skip_modules_pattern))
 
         if is_peft_available() and not user_provided_patterns:
diff --git a/src/diffusers/models/transformers/auraflow_transformer_2d.py b/src/diffusers/models/transformers/auraflow_transformer_2d.py
@@ -276,7 +276,7 @@ class AuraFlowTransformer2DModel(ModelMixin, ConfigMixin, FromOriginalModelMixin
     """
 
     _no_split_modules = ["AuraFlowJointTransformerBlock", "AuraFlowSingleTransformerBlock", "AuraFlowPatchEmbed"]
-    _always_upcast_modules = ["pos_embed", "norm"]
+    _precision_sensitive_module_patterns = ["pos_embed", "norm"]
     _supports_gradient_checkpointing = True
 
     @register_to_config
diff --git a/src/diffusers/models/transformers/cogvideox_transformer_3d.py b/src/diffusers/models/transformers/cogvideox_transformer_3d.py
@@ -212,7 +212,7 @@ class CogVideoXTransformer3DModel(ModelMixin, ConfigMixin, PeftAdapterMixin):
             Scaling factor to apply in 3D positional embeddings across temporal dimensions.
     """
 
-    _always_upcast_modules = ["patch_embed", "norm"]
+    _precision_sensitive_module_patterns = ["patch_embed", "norm"]
     _supports_gradient_checkpointing = True
     _no_split_modules = ["CogVideoXBlock", "CogVideoXPatchEmbed"]
 
diff --git a/src/diffusers/models/transformers/dit_transformer_2d.py b/src/diffusers/models/transformers/dit_transformer_2d.py
@@ -64,7 +64,7 @@ class DiTTransformer2DModel(ModelMixin, ConfigMixin):
             A small constant added to the denominator in normalization layers to prevent division by zero.
     """
 
-    _always_upcast_modules = ["pos_embed", "norm"]
+    _precision_sensitive_module_patterns = ["pos_embed", "norm"]
     _supports_gradient_checkpointing = True
 
     @register_to_config
diff --git a/src/diffusers/models/transformers/hunyuan_transformer_2d.py b/src/diffusers/models/transformers/hunyuan_transformer_2d.py
@@ -244,7 +244,7 @@ class HunyuanDiT2DModel(ModelMixin, ConfigMixin):
             Whether or not to use style condition and image meta size. True for version <=1.1, False for version >= 1.2
     """
 
-    _always_upcast_modules = ["pos_embed", "norm", "pooler"]
+    _precision_sensitive_module_patterns = ["pos_embed", "norm", "pooler"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/latte_transformer_3d.py b/src/diffusers/models/transformers/latte_transformer_3d.py
@@ -65,7 +65,7 @@ class LatteTransformer3DModel(ModelMixin, ConfigMixin):
             The number of frames in the video-like data.
     """
 
-    _always_upcast_modules = ["pos_embed", "norm"]
+    _precision_sensitive_module_patterns = ["pos_embed", "norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/lumina_nextdit2d.py b/src/diffusers/models/transformers/lumina_nextdit2d.py
@@ -221,7 +221,7 @@ class LuminaNextDiT2DModel(ModelMixin, ConfigMixin):
             overall scale of the model's operations.
     """
 
-    _always_upcast_modules = ["patch_embedder", "norm", "ffn_norm"]
+    _precision_sensitive_module_patterns = ["patch_embedder", "norm", "ffn_norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/pixart_transformer_2d.py b/src/diffusers/models/transformers/pixart_transformer_2d.py
@@ -79,7 +79,7 @@ class PixArtTransformer2DModel(ModelMixin, ConfigMixin):
 
     _supports_gradient_checkpointing = True
     _no_split_modules = ["BasicTransformerBlock", "PatchEmbed"]
-    _always_upcast_modules = ["pos_embed", "norm", "adaln_single"]
+    _precision_sensitive_module_patterns = ["pos_embed", "norm", "adaln_single"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/sana_transformer.py b/src/diffusers/models/transformers/sana_transformer.py
@@ -222,7 +222,7 @@ class SanaTransformer2DModel(ModelMixin, ConfigMixin, PeftAdapterMixin):
 
     _supports_gradient_checkpointing = True
     _no_split_modules = ["SanaTransformerBlock", "PatchEmbed"]
-    _always_upcast_modules = ["patch_embed", "norm"]
+    _precision_sensitive_module_patterns = ["patch_embed", "norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/stable_audio_transformer.py b/src/diffusers/models/transformers/stable_audio_transformer.py
@@ -211,6 +211,7 @@ class StableAudioDiTModel(ModelMixin, ConfigMixin):
     """
 
     _supports_gradient_checkpointing = True
+    _precision_sensitive_module_patterns = ["preprocess_conv", "postprocess_conv", "^proj_in$", "^proj_out$", "norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/transformer_2d.py b/src/diffusers/models/transformers/transformer_2d.py
@@ -66,7 +66,7 @@ class Transformer2DModel(LegacyModelMixin, LegacyConfigMixin):
 
     _supports_gradient_checkpointing = True
     _no_split_modules = ["BasicTransformerBlock"]
-    _always_upcast_modules = ["latent_image_embedding", "norm"]
+    _precision_sensitive_module_patterns = ["latent_image_embedding", "norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/transformer_allegro.py b/src/diffusers/models/transformers/transformer_allegro.py
@@ -222,7 +222,7 @@ class AllegroTransformer3DModel(ModelMixin, ConfigMixin):
     """
 
     _supports_gradient_checkpointing = True
-    _always_upcast_modules = ["pos_embed", "norm", "adaln_single"]
+    _precision_sensitive_module_patterns = ["pos_embed", "norm", "adaln_single"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/transformer_cogview3plus.py b/src/diffusers/models/transformers/transformer_cogview3plus.py
@@ -166,7 +166,7 @@ class CogView3PlusTransformer2DModel(ModelMixin, ConfigMixin):
     """
 
     _supports_gradient_checkpointing = True
-    _always_upcast_modules = ["patch_embed", "norm"]
+    _precision_sensitive_module_patterns = ["patch_embed", "norm"]
     _no_split_modules = ["CogView3PlusTransformerBlock", "CogView3PlusPatchEmbed"]
 
     @register_to_config
diff --git a/src/diffusers/models/transformers/transformer_flux.py b/src/diffusers/models/transformers/transformer_flux.py
@@ -262,7 +262,7 @@ class FluxTransformer2DModel(
 
     _supports_gradient_checkpointing = True
     _no_split_modules = ["FluxTransformerBlock", "FluxSingleTransformerBlock"]
-    _always_upcast_modules = ["pos_embed", "norm"]
+    _precision_sensitive_module_patterns = ["pos_embed", "norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/transformer_hunyuan_video.py b/src/diffusers/models/transformers/transformer_hunyuan_video.py
@@ -542,7 +542,7 @@ class HunyuanVideoTransformer3DModel(ModelMixin, ConfigMixin, PeftAdapterMixin,
     """
 
     _supports_gradient_checkpointing = True
-    _always_upcast_modules = ["x_embedder", "context_embedder", "norm"]
+    _precision_sensitive_module_patterns = ["x_embedder", "context_embedder", "norm"]
     _no_split_modules = [
         "HunyuanVideoTransformerBlock",
         "HunyuanVideoSingleTransformerBlock",
diff --git a/src/diffusers/models/transformers/transformer_ltx.py b/src/diffusers/models/transformers/transformer_ltx.py
@@ -295,7 +295,7 @@ class LTXVideoTransformer3DModel(ModelMixin, ConfigMixin, FromOriginalModelMixin
     """
 
     _supports_gradient_checkpointing = True
-    _always_upcast_modules = ["norm"]
+    _precision_sensitive_module_patterns = ["norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/transformer_mochi.py b/src/diffusers/models/transformers/transformer_mochi.py
@@ -336,7 +336,7 @@ class MochiTransformer3DModel(ModelMixin, ConfigMixin, PeftAdapterMixin, FromOri
 
     _supports_gradient_checkpointing = True
     _no_split_modules = ["MochiTransformerBlock"]
-    _always_upcast_modules = ["patch_embed", "norm"]
+    _precision_sensitive_module_patterns = ["patch_embed", "norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/transformer_sd3.py b/src/diffusers/models/transformers/transformer_sd3.py
@@ -127,7 +127,7 @@ class SD3Transformer2DModel(
     """
 
     _supports_gradient_checkpointing = True
-    _always_upcast_modules = ["pos_embed", "norm"]
+    _precision_sensitive_module_patterns = ["pos_embed", "norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/transformers/transformer_temporal.py b/src/diffusers/models/transformers/transformer_temporal.py
@@ -67,7 +67,7 @@ class TransformerTemporalModel(ModelMixin, ConfigMixin):
             The maximum length of the sequence over which to apply positional embeddings.
     """
 
-    _always_upcast_modules = ["norm"]
+    _precision_sensitive_module_patterns = ["norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/unets/unet_1d.py b/src/diffusers/models/unets/unet_1d.py
@@ -71,7 +71,7 @@ class UNet1DModel(ModelMixin, ConfigMixin):
             Experimental feature for using a UNet without upsampling.
     """
 
-    _always_upcast_modules = ["norm"]
+    _precision_sensitive_module_patterns = ["norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/unets/unet_2d.py b/src/diffusers/models/unets/unet_2d.py
@@ -90,7 +90,7 @@ class UNet2DModel(ModelMixin, ConfigMixin):
     """
 
     _supports_gradient_checkpointing = True
-    _always_upcast_modules = ["norm"]
+    _precision_sensitive_module_patterns = ["norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/unets/unet_2d_condition.py b/src/diffusers/models/unets/unet_2d_condition.py
@@ -166,7 +166,7 @@ class conditioning with `class_embed_type` equal to `None`.
 
     _supports_gradient_checkpointing = True
     _no_split_modules = ["BasicTransformerBlock", "ResnetBlock2D", "CrossAttnUpBlock2D"]
-    _always_upcast_modules = ["norm"]
+    _precision_sensitive_module_patterns = ["norm"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/unets/unet_3d_condition.py b/src/diffusers/models/unets/unet_3d_condition.py
@@ -97,7 +97,7 @@ class UNet3DConditionModel(ModelMixin, ConfigMixin, UNet2DConditionLoadersMixin)
     """
 
     _supports_gradient_checkpointing = False
-    _always_upcast_modules = ["norm", "time_embedding"]
+    _precision_sensitive_module_patterns = ["norm", "time_embedding"]
 
     @register_to_config
     def __init__(
diff --git a/src/diffusers/models/unets/unet_motion_model.py b/src/diffusers/models/unets/unet_motion_model.py
@@ -1301,7 +1301,7 @@ class UNetMotionModel(ModelMixin, ConfigMixin, UNet2DConditionLoadersMixin, Peft
     """
 
     _supports_gradient_checkpointing = True
-    _always_upcast_modules = ["norm"]
+    _precision_sensitive_module_patterns = ["norm"]
 
     @register_to_config
     def __init__(
diff --git a/tests/models/test_modeling_common.py b/tests/models/test_modeling_common.py
@@ -1355,8 +1355,8 @@ def test_layerwise_upcasting_inference(self):
 
         def check_linear_dtype(module, storage_dtype, compute_dtype):
             patterns_to_check = DEFAULT_SKIP_MODULES_PATTERN
-            if getattr(module, "_always_upcast_modules", None) is not None:
-                patterns_to_check += tuple(module._always_upcast_modules)
+            if getattr(module, "_precision_sensitive_module_patterns", None) is not None:
+                patterns_to_check += tuple(module._precision_sensitive_module_patterns)
             for name, submodule in module.named_modules():
                 if not isinstance(submodule, SUPPORTED_PYTORCH_LAYERS):
                     continue