remove hunyuan_common.py

neph1 · neph1 · commit 9d43e8aa325d · 2025-04-13T18:39:10.000+02:00
diff --git a/examples/formats/hunyuan_video/convert_to_original_format.py b/examples/formats/hunyuan_video/convert_to_original_format.py
@@ -108,6 +108,17 @@ def convert_lora_sd(diffusers_lora_sd):
             elif "proj_out" in key:
                 new_key = key.replace("proj_out", "linear2").replace(single_block_pattern, prefix + "single_blocks")
                 converted_lora_sd[new_key] = diffusers_lora_sd[key]
+        elif "x_embedder" in key:
+            new_key = key.replace("x_embedder", "img_in").replace(double_block_pattern, prefix + "")
+            if "lora_A" in key:
+                embed = diffusers_lora_sd[key]
+                sizes = embed.size()
+                x_reshaped = embed.view(sizes[0], 16, sizes[2], sizes[3], sizes[4], 2)
+                x_meaned = x_reshaped.mean(dim=2)
+                converted_lora_sd[new_key] = x_meaned
+            else:
+                converted_lora_sd[new_key] = diffusers_lora_sd[key]
+            print(new_key, diffusers_lora_sd[key].size())
 
         else:
             print(f"unknown or not implemented: {key}")
diff --git a/finetrainers/models/hunyuan_video/base_specification.py b/finetrainers/models/hunyuan_video/base_specification.py
@@ -13,8 +13,6 @@
 from diffusers.models.autoencoders.vae import DiagonalGaussianDistribution
 from transformers import AutoTokenizer, CLIPTextModel, CLIPTokenizer, LlamaModel
 
-from finetrainers.models.hunyuan_video import hunyuan_common
-
 import finetrainers.functional as FF
 from finetrainers.data import VideoArtifact
 from finetrainers.logging import get_logger
@@ -132,11 +130,102 @@ def __init__(
     def _resolution_dim_keys(self):
         return {"latents": (2, 3, 4)}
 
-    load_condition_models = hunyuan_common.load_condition_models
+    def load_condition_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
+        if self.tokenizer_id is not None:
+            tokenizer = AutoTokenizer.from_pretrained(self.tokenizer_id, **common_kwargs)
+        else:
+            tokenizer = AutoTokenizer.from_pretrained(
+                self.pretrained_model_name_or_path, subfolder="tokenizer", **common_kwargs
+            )
+
+        if self.tokenizer_2_id is not None:
+            tokenizer_2 = AutoTokenizer.from_pretrained(self.tokenizer_2_id, **common_kwargs)
+        else:
+            tokenizer_2 = CLIPTokenizer.from_pretrained(
+                self.pretrained_model_name_or_path, subfolder="tokenizer_2", **common_kwargs
+            )
+
+        if self.text_encoder_id is not None:
+            text_encoder = LlamaModel.from_pretrained(
+                self.text_encoder_id, torch_dtype=self.text_encoder_dtype, **common_kwargs
+            )
+        else:
+            text_encoder = LlamaModel.from_pretrained(
+                self.pretrained_model_name_or_path,
+                subfolder="text_encoder",
+                torch_dtype=self.text_encoder_dtype,
+                **common_kwargs,
+            )
+
+        if self.text_encoder_2_id is not None:
+            text_encoder_2 = CLIPTextModel.from_pretrained(
+                self.text_encoder_2_id, torch_dtype=self.text_encoder_2_dtype, **common_kwargs
+            )
+        else:
+            text_encoder_2 = CLIPTextModel.from_pretrained(
+                self.pretrained_model_name_or_path,
+                subfolder="text_encoder_2",
+                torch_dtype=self.text_encoder_2_dtype,
+                **common_kwargs,
+            )
+
+        return {
+            "tokenizer": tokenizer,
+            "tokenizer_2": tokenizer_2,
+            "text_encoder": text_encoder,
+            "text_encoder_2": text_encoder_2,
+        }
+
+    def load_latent_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
+        if self.vae_id is not None:
+            vae = AutoencoderKLHunyuanVideo.from_pretrained(self.vae_id, torch_dtype=self.vae_dtype, **common_kwargs)
+        else:
+            vae = AutoencoderKLHunyuanVideo.from_pretrained(
+                self.pretrained_model_name_or_path, subfolder="vae", torch_dtype=self.vae_dtype, **common_kwargs
+            )
+
+        return {"vae": vae}
 
-    load_latent_models = hunyuan_common.load_latent_models
+    def load_pipeline(
+        self,
+        tokenizer: Optional[AutoTokenizer] = None,
+        tokenizer_2: Optional[CLIPTokenizer] = None,
+        text_encoder: Optional[LlamaModel] = None,
+        text_encoder_2: Optional[CLIPTextModel] = None,
+        transformer: Optional[torch.Module] = None,
+        vae: Optional[AutoencoderKLHunyuanVideo] = None,
+        scheduler: Optional[FlowMatchEulerDiscreteScheduler] = None,
+        enable_slicing: bool = False,
+        enable_tiling: bool = False,
+        enable_model_cpu_offload: bool = False,
+        training: bool = False,
+        **kwargs,
+    ) -> HunyuanVideoPipeline:
+        components = {
+            "tokenizer": tokenizer,
+            "tokenizer_2": tokenizer_2,
+            "text_encoder": text_encoder,
+            "text_encoder_2": text_encoder_2,
+            "transformer": transformer,
+            "vae": vae,
+            "scheduler": scheduler,
+        }
+        components = get_non_null_items(components)
+
+        pipe = HunyuanVideoPipeline.from_pretrained(
+            self.pretrained_model_name_or_path, **components, revision=self.revision, cache_dir=self.cache_dir
+        )
+        pipe.text_encoder.to(self.text_encoder_dtype)
+        pipe.text_encoder_2.to(self.text_encoder_2_dtype)
+        pipe.vae.to(self.vae_dtype)
 
-    load_pipeline = hunyuan_common.load_pipeline
+        _enable_vae_memory_optimizations(pipe.vae, enable_slicing, enable_tiling)
+        if not training:
+            pipe.transformer.to(self.transformer_dtype)
 
     def load_diffusion_models(self) -> Dict[str, torch.nn.Module]:
         common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
diff --git a/finetrainers/models/hunyuan_video/control_specification.py b/finetrainers/models/hunyuan_video/control_specification.py
@@ -4,6 +4,7 @@
 
 import safetensors
 import torch
+from torch.nn import Module
 from accelerate import init_empty_weights
 from diffusers import (
     FlowMatchEulerDiscreteScheduler,
@@ -14,21 +15,23 @@
 from diffusers.models.autoencoders.vae import DiagonalGaussianDistribution
 from transformers import AutoTokenizer, CLIPTextModel, CLIPTokenizer, LlamaModel
 from finetrainers.data._artifact import VideoArtifact
-from finetrainers.models.hunyuan_video import hunyuan_common
 from finetrainers.models.utils import _expand_conv3d_with_zeroed_weights
+from finetrainers.trainer.control_trainer.config import FrameConditioningType
 from finetrainers.utils.serialization import safetensors_torch_save_function
 
 from ... import data
 from ... import functional as FF
 from ...logging import get_logger
 from ...patches.dependencies.diffusers.control import control_channel_concat
 from ...processors import ProcessorMixin
-from ...typing import ArtifactType, FrameConditioningType, SchedulerType
+from ...typing import ArtifactType, SchedulerType
 from ...utils import get_non_null_items
 from ..modeling_utils import ControlModelSpecification
 from .base_specification import HunyuanLatentEncodeProcessor
 from ...processors import CLIPPooledProcessor, LlamaProcessor, ProcessorMixin
 
+from ...utils import _enable_vae_memory_optimizations, get_non_null_items
+
 logger = get_logger()
 
 
@@ -88,11 +91,102 @@ def control_injection_layer_name(self) -> str:
     def _resolution_dim_keys(self):
         return {"latents": (2, 3, 4)}
 
-    load_condition_models = hunyuan_common.load_condition_models
+    def load_condition_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
+        if self.tokenizer_id is not None:
+            tokenizer = AutoTokenizer.from_pretrained(self.tokenizer_id, **common_kwargs)
+        else:
+            tokenizer = AutoTokenizer.from_pretrained(
+                self.pretrained_model_name_or_path, subfolder="tokenizer", **common_kwargs
+            )
+
+        if self.tokenizer_2_id is not None:
+            tokenizer_2 = AutoTokenizer.from_pretrained(self.tokenizer_2_id, **common_kwargs)
+        else:
+            tokenizer_2 = CLIPTokenizer.from_pretrained(
+                self.pretrained_model_name_or_path, subfolder="tokenizer_2", **common_kwargs
+            )
+
+        if self.text_encoder_id is not None:
+            text_encoder = LlamaModel.from_pretrained(
+                self.text_encoder_id, torch_dtype=self.text_encoder_dtype, **common_kwargs
+            )
+        else:
+            text_encoder = LlamaModel.from_pretrained(
+                self.pretrained_model_name_or_path,
+                subfolder="text_encoder",
+                torch_dtype=self.text_encoder_dtype,
+                **common_kwargs,
+            )
+
+        if self.text_encoder_2_id is not None:
+            text_encoder_2 = CLIPTextModel.from_pretrained(
+                self.text_encoder_2_id, torch_dtype=self.text_encoder_2_dtype, **common_kwargs
+            )
+        else:
+            text_encoder_2 = CLIPTextModel.from_pretrained(
+                self.pretrained_model_name_or_path,
+                subfolder="text_encoder_2",
+                torch_dtype=self.text_encoder_2_dtype,
+                **common_kwargs,
+            )
+
+        return {
+            "tokenizer": tokenizer,
+            "tokenizer_2": tokenizer_2,
+            "text_encoder": text_encoder,
+            "text_encoder_2": text_encoder_2,
+        }
+
+    def load_latent_models(self) -> Dict[str, torch.nn.Module]:
+        common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
+
+        if self.vae_id is not None:
+            vae = AutoencoderKLHunyuanVideo.from_pretrained(self.vae_id, torch_dtype=self.vae_dtype, **common_kwargs)
+        else:
+            vae = AutoencoderKLHunyuanVideo.from_pretrained(
+                self.pretrained_model_name_or_path, subfolder="vae", torch_dtype=self.vae_dtype, **common_kwargs
+            )
+
+        return {"vae": vae}
 
-    load_latent_models = hunyuan_common.load_latent_models
+    def load_pipeline(
+        self,
+        tokenizer: Optional[AutoTokenizer] = None,
+        tokenizer_2: Optional[CLIPTokenizer] = None,
+        text_encoder: Optional[LlamaModel] = None,
+        text_encoder_2: Optional[CLIPTextModel] = None,
+        transformer: Optional[Module] = None,
+        vae: Optional[AutoencoderKLHunyuanVideo] = None,
+        scheduler: Optional[FlowMatchEulerDiscreteScheduler] = None,
+        enable_slicing: bool = False,
+        enable_tiling: bool = False,
+        enable_model_cpu_offload: bool = False,
+        training: bool = False,
+        **kwargs,
+    ) -> HunyuanVideoPipeline:
+        components = {
+            "tokenizer": tokenizer,
+            "tokenizer_2": tokenizer_2,
+            "text_encoder": text_encoder,
+            "text_encoder_2": text_encoder_2,
+            "transformer": transformer,
+            "vae": vae,
+            "scheduler": scheduler,
+        }
+        components = get_non_null_items(components)
+
+        pipe = HunyuanVideoPipeline.from_pretrained(
+            self.pretrained_model_name_or_path, **components, revision=self.revision, cache_dir=self.cache_dir
+        )
+        pipe.text_encoder.to(self.text_encoder_dtype)
+        pipe.text_encoder_2.to(self.text_encoder_2_dtype)
+        pipe.vae.to(self.vae_dtype)
 
-    load_pipeline = hunyuan_common.load_pipeline
+        _enable_vae_memory_optimizations(pipe.vae, enable_slicing, enable_tiling)
+        if not training:
+            pipe.transformer.to(self.transformer_dtype)
 
     def load_diffusion_models(self, new_in_features: int) -> Dict[str, torch.nn.Module]:
         common_kwargs = {"revision": self.revision, "cache_dir": self.cache_dir}
diff --git a/finetrainers/models/hunyuan_video/hunyuan_common.py b/finetrainers/models/hunyuan_video/hunyuan_common.py