image2video

a-r-r-o-w · a-r-r-o-w · commit 1f008fc93a10 · 2024-11-29T09:54:51.000+01:00
diff --git a/docs/source/en/api/pipelines/ltx.md b/docs/source/en/api/pipelines/ltx.md
@@ -28,6 +28,12 @@ Make sure to check out the Schedulers [guide](../../using-diffusers/schedulers.m
   - all
   - __call__
 
+## LTXImageToVideoPipeline
+
+[[autodoc]] LTXImageToVideoPipeline
+  - all
+  - __call__
+
 ## LTXPipelineOutput
 
 [[autodoc]] pipelines.ltx.pipeline_output.LTXPipelineOutput
diff --git a/src/diffusers/__init__.py b/src/diffusers/__init__.py
@@ -317,6 +317,7 @@
             "LDMTextToImagePipeline",
             "LEditsPPPipelineStableDiffusion",
             "LEditsPPPipelineStableDiffusionXL",
+            "LTXImageToVideoPipeline",
             "LTXPipeline",
             "LuminaText2ImgPipeline",
             "MarigoldDepthPipeline",
@@ -790,6 +791,7 @@
             LDMTextToImagePipeline,
             LEditsPPPipelineStableDiffusion,
             LEditsPPPipelineStableDiffusionXL,
+            LTXImageToVideoPipeline,
             LTXPipeline,
             LuminaText2ImgPipeline,
             MarigoldDepthPipeline,
diff --git a/src/diffusers/models/autoencoders/autoencoder_kl_ltx.py b/src/diffusers/models/autoencoders/autoencoder_kl_ltx.py
@@ -802,7 +802,7 @@ def __init__(
         )
 
         latents_mean = torch.zeros((latent_channels,), requires_grad=False)
-        latents_std = torch.zeros((latent_channels,), requires_grad=False)
+        latents_std = torch.ones((latent_channels,), requires_grad=False)
         self.register_buffer("latents_mean", latents_mean, persistent=True)
         self.register_buffer("latents_std", latents_std, persistent=True)
 
diff --git a/src/diffusers/models/transformers/transformer_ltx.py b/src/diffusers/models/transformers/transformer_ltx.py
@@ -116,7 +116,12 @@ def __init__(
         self.theta = theta
 
     def forward(
-        self, hidden_states: torch.Tensor, num_frames: int, height: int, width: int, rope_interpolation_scale: Optional[Tuple[torch.Tensor, float, float]] = None
+        self,
+        hidden_states: torch.Tensor,
+        num_frames: int,
+        height: int,
+        width: int,
+        rope_interpolation_scale: Optional[Tuple[torch.Tensor, float, float]] = None,
     ) -> Tuple[torch.Tensor, torch.Tensor]:
         batch_size = hidden_states.size(0)
 
diff --git a/src/diffusers/pipelines/__init__.py b/src/diffusers/pipelines/__init__.py
@@ -245,7 +245,7 @@
         ]
     )
     _import_structure["latte"] = ["LattePipeline"]
-    _import_structure["ltx"] = ["LTXPipeline"]
+    _import_structure["ltx"] = ["LTXPipeline", "LTXImageToVideoPipeline"]
     _import_structure["lumina"] = ["LuminaText2ImgPipeline"]
     _import_structure["marigold"].extend(
         [
@@ -578,7 +578,7 @@
             LEditsPPPipelineStableDiffusion,
             LEditsPPPipelineStableDiffusionXL,
         )
-        from .ltx import LTXPipeline
+        from .ltx import LTXImageToVideoPipeline, LTXPipeline
         from .lumina import LuminaText2ImgPipeline
         from .marigold import (
             MarigoldDepthPipeline,
diff --git a/src/diffusers/pipelines/ltx/__init__.py b/src/diffusers/pipelines/ltx/__init__.py
@@ -23,6 +23,7 @@
     _dummy_objects.update(get_objects_from_module(dummy_torch_and_transformers_objects))
 else:
     _import_structure["pipeline_ltx"] = ["LTXPipeline"]
+    _import_structure["pipeline_ltx_image2video"] = ["LTXImageToVideoPipeline"]
 
 if TYPE_CHECKING or DIFFUSERS_SLOW_IMPORT:
     try:
@@ -33,6 +34,7 @@
         from ...utils.dummy_torch_and_transformers_objects import *
     else:
         from .pipeline_ltx import LTXPipeline
+        from .pipeline_ltx_image2video import LTXImageToVideoPipeline
 
 else:
     import sys
diff --git a/src/diffusers/pipelines/ltx/pipeline_ltx.py b/src/diffusers/pipelines/ltx/pipeline_ltx.py
@@ -415,6 +415,24 @@ def _unpack_latents(
         latents = latents.permute(0, 4, 1, 5, 2, 6, 3, 7).flatten(6, 7).flatten(4, 5).flatten(2, 3)
         return latents
 
+    @staticmethod
+    def _normalize_latents(
+        latents: torch.Tensor, latents_mean: torch.Tensor, latents_std: torch.Tensor, scaling_factor: float = 1.0
+    ) -> torch.Tensor:
+        latents_mean = latents_mean.view(1, -1, 1, 1, 1).to(latents.device, latents.dtype)
+        latents_std = latents_std.view(1, -1, 1, 1, 1).to(latents.device, latents.dtype)
+        latents = (latents - latents_mean) * scaling_factor / latents_std
+        return latents
+
+    @staticmethod
+    def _denormalize_latents(
+        latents: torch.Tensor, latents_mean: torch.Tensor, latents_std: torch.Tensor, scaling_factor: float = 1.0
+    ) -> torch.Tensor:
+        latents_mean = latents_mean.view(1, -1, 1, 1, 1).to(latents.device, latents.dtype)
+        latents_std = latents_std.view(1, -1, 1, 1, 1).to(latents.device, latents.dtype)
+        latents = latents * latents_std / scaling_factor + latents_mean
+        return latents
+
     def prepare_latents(
         self,
         batch_size: int = 1,
@@ -443,7 +461,9 @@ def prepare_latents(
             )
 
         latents = randn_tensor(shape, generator=generator, device=device, dtype=dtype)
-        latents = self._pack_latents(latents, self.transformer_spatial_patch_size, self.transformer_temporal_patch_size)
+        latents = self._pack_latents(
+            latents, self.transformer_spatial_patch_size, self.transformer_temporal_patch_size
+        )
         return latents
 
     @property
@@ -709,15 +729,17 @@ def __call__(
         if output_type == "latent":
             video = latents
         else:
-            latents = self._unpack_latents(latents, latent_num_frames, latent_height, latent_width, self.transformer_spatial_patch_size, self.transformer_temporal_patch_size)
-            # unscale/denormalize the latents
-            latents_mean = self.vae.latents_mean.view(1, self.vae.config.latent_channels, 1, 1, 1).to(
-                latents.device, latents.dtype
+            latents = self._unpack_latents(
+                latents,
+                latent_num_frames,
+                latent_height,
+                latent_width,
+                self.transformer_spatial_patch_size,
+                self.transformer_temporal_patch_size,
             )
-            latents_std = self.vae.latents_std.view(1, self.vae.config.latent_channels, 1, 1, 1).to(
-                latents.device, latents.dtype
+            latents = self._denormalize_latents(
+                latents, self.vae.latents_mean, self.vae.latents_std, self.vae.config.scaling_factor
             )
-            latents = latents * latents_std / self.vae.config.scaling_factor + latents_mean
             video = self.vae.decode(latents, return_dict=False)[0]
             video = self.video_processor.postprocess_video(video, output_type=output_type)
 
diff --git a/src/diffusers/pipelines/ltx/pipeline_ltx_image2video.py b/src/diffusers/pipelines/ltx/pipeline_ltx_image2video.py
diff --git a/tests/pipelines/ltx/test_ltx_image2video.py b/tests/pipelines/ltx/test_ltx_image2video.py

Original file line number	Diff line number	Diff line change
`@@ -802,7 +802,7 @@ def __init__(`
`802`	`802`	`)`
`803`	`803`
`804`	`804`	`latents_mean = torch.zeros((latent_channels,), requires_grad=False)`
`805`		`- latents_std = torch.zeros((latent_channels,), requires_grad=False)`
	`805`	`+ latents_std = torch.ones((latent_channels,), requires_grad=False)`
`806`	`806`	`self.register_buffer("latents_mean", latents_mean, persistent=True)`
`807`	`807`	`self.register_buffer("latents_std", latents_std, persistent=True)`
`808`	`808`
Original file line number	Diff line number	Diff line change
`@@ -245,7 +245,7 @@`
`245`	`245`	`]`
`246`	`246`	`)`
`247`	`247`	`_import_structure["latte"] = ["LattePipeline"]`
`248`		`- _import_structure["ltx"] = ["LTXPipeline"]`
	`248`	`+ _import_structure["ltx"] = ["LTXPipeline", "LTXImageToVideoPipeline"]`
`249`	`249`	`_import_structure["lumina"] = ["LuminaText2ImgPipeline"]`
`250`	`250`	`_import_structure["marigold"].extend(`
`251`	`251`	`[`
`@@ -578,7 +578,7 @@`
`578`	`578`	`LEditsPPPipelineStableDiffusion,`
`579`	`579`	`LEditsPPPipelineStableDiffusionXL,`
`580`	`580`	`)`
`581`		`- from .ltx import LTXPipeline`
	`581`	`+ from .ltx import LTXImageToVideoPipeline, LTXPipeline`
`582`	`582`	`from .lumina import LuminaText2ImgPipeline`
`583`	`583`	`from .marigold import (`
`584`	`584`	`MarigoldDepthPipeline,`