@hlky t2v->i2v

linoytsaban · linoytsaban · commit f351017fae1f · 2025-03-18T15:17:02.000+02:00
diff --git a/src/diffusers/loaders/lora_pipeline.py b/src/diffusers/loaders/lora_pipeline.py
@@ -4249,6 +4249,31 @@ def lora_state_dict(
 
         return state_dict
 
+    @classmethod
+    def maybe_expand_t2v_lora_for_i2v(
+            cls,
+            transformer: torch.nn.Module,
+            state_dict,
+    ):
+        num_blocks = len({k.split("blocks.")[1].split(".")[0] for k in state_dict})
+        is_i2v_lora = any("k_img" in k for k in state_dict) and any("v_img" in k for k in state_dict)
+        if not is_i2v_lora:
+            return state_dict
+
+        if transformer.config.image_dim is None:
+            return state_dict
+
+        for i in range(num_blocks):
+            for o, c in zip(["k_img", "v_img"], ["add_k_proj", "add_v_proj"]):
+                state_dict[f"blocks.{i}.attn2.{c}.lora_A.weight"] = torch.zeros_like(
+                    state_dict[f"blocks.{i}.attn2.{o.replace('_img', '')}.lora_A.weight"]
+                )
+                state_dict[f"blocks.{i}.attn2.{c}.lora_B.weight"] = torch.zeros_like(
+                    state_dict[f"blocks.{i}.attn2.{o.replace('_img', '')}.lora_B.weight"]
+                )
+
+        return state_dict
+
     # Copied from diffusers.loaders.lora_pipeline.CogVideoXLoraLoaderMixin.load_lora_weights
     def load_lora_weights(
         self, pretrained_model_name_or_path_or_dict: Union[str, Dict[str, torch.Tensor]], adapter_name=None, **kwargs
@@ -4287,7 +4312,10 @@ def load_lora_weights(
 
         # First, ensure that the checkpoint is a compatible one and can be successfully loaded.
         state_dict = self.lora_state_dict(pretrained_model_name_or_path_or_dict, **kwargs)
-
+        state_dict = self._maybe_expand_t2v_lora_for_i2v(
+                        transformer = getattr(self, self.transformer_name) if not hasattr(self,
+                                                               "transformer") else self.transformer,
+                        state_dict = state_dict)
         is_correct_format = all("lora" in key for key in state_dict.keys())
         if not is_correct_format:
             raise ValueError("Invalid LoRA checkpoint.")