huggingface
diff --git a/‎README.md‎
Lines changed: 179 additions & 112 deletions b/‎README.md‎
Lines changed: 179 additions & 112 deletions
diff --git a/‎assets/CogVideoX-LoRA.webm‎
472 KB b/‎assets/CogVideoX-LoRA.webm‎
472 KB
diff --git a/‎assets/lora_2b.png‎
104 KB b/‎assets/lora_2b.png‎
104 KB
diff --git a/‎assets/lora_5b.png‎
107 KB b/‎assets/lora_5b.png‎
107 KB
diff --git a/‎assets/sft_2b.png‎
85.4 KB b/‎assets/sft_2b.png‎
85.4 KB
diff --git a/‎assets/sft_5b.png‎
87.8 KB b/‎assets/sft_5b.png‎
87.8 KB
diff --git a/‎prepare_dataset.sh‎
Lines changed: 1 addition & 1 deletion b/‎prepare_dataset.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎training/cogvideox_image_to_video_lora.py‎
Lines changed: 18 additions & 29 deletions b/‎training/cogvideox_image_to_video_lora.py‎
Lines changed: 18 additions & 29 deletions
diff --git a/‎training/cogvideox_text_to_video_lora.py‎
Lines changed: 18 additions & 28 deletions b/‎training/cogvideox_text_to_video_lora.py‎
Lines changed: 18 additions & 28 deletions
diff --git a/‎training/cogvideox_text_to_video_sft.py‎
Lines changed: 16 additions & 26 deletions b/‎training/cogvideox_text_to_video_sft.py‎
Lines changed: 16 additions & 26 deletions
@@ -6,7 +6,7 @@ NUM_GPUS=8
 
 # For more details on the expected data format, please refer to the README.
 DATA_ROOT="/path/to/my/datasets/video-dataset"  # This needs to be the path to the base directory where your videos are located.
-CAPTION_COLUMN="prompts.txt"
+CAPTION_COLUMN="prompt.txt"
 VIDEO_COLUMN="videos.txt"
 OUTPUT_DIR="/path/to/my/datasets/preprocessed-dataset"
 HEIGHT=480
 
@@ -107,7 +107,7 @@ def save_model_card(
 from diffusers.utils import export_to_video, load_image
 
 pipe = CogVideoXImageToVideoPipeline.from_pretrained("THUDM/CogVideoX-5b-I2V", torch_dtype=torch.bfloat16).to("cuda")
-pipe.load_lora_weights("{repo_id}", weight_name="pytorch_lora_weights.safetensors", adapter_name=["cogvideox-lora"])
+pipe.load_lora_weights("{repo_id}", weight_name="pytorch_lora_weights.safetensors", adapter_name="cogvideox-lora")
 
 # The LoRA adapter weights are determined by what was used for training.
 # In this case, we assume `--lora_alpha` is 32 and `--rank` is 64.
@@ -465,36 +465,25 @@ def load_model_hook(models, input_dir):
     )
 
     # Dataset and DataLoader
-    if not args.video_reshape_mode:
-        train_dataset = VideoDatasetWithResizing(
-            data_root=args.data_root,
-            dataset_file=args.dataset_file,
-            caption_column=args.caption_column,
-            video_column=args.video_column,
-            max_num_frames=args.max_num_frames,
-            id_token=args.id_token,
-            height_buckets=args.height_buckets,
-            width_buckets=args.width_buckets,
-            frame_buckets=args.frame_buckets,
-            load_tensors=args.load_tensors,
-            random_flip=args.random_flip,
-            image_to_video=True,
-        )
+    dataset_init_kwargs = {
+        "data_root": args.data_root,
+        "dataset_file": args.dataset_file,
+        "caption_column": args.caption_column,
+        "video_column": args.video_column,
+        "max_num_frames": args.max_num_frames,
+        "id_token": args.id_token,
+        "height_buckets": args.height_buckets,
+        "width_buckets": args.width_buckets,
+        "frame_buckets": args.frame_buckets,
+        "load_tensors": args.load_tensors,
+        "random_flip": args.random_flip,
+        "image_to_video": True,
+    }
+    if args.video_reshape_mode is None:
+        train_dataset = VideoDatasetWithResizing(**dataset_init_kwargs)
     else:
         train_dataset = VideoDatasetWithResizeAndRectangleCrop(
-            video_reshape_mode=args.video_reshape_mode,
-            data_root=args.data_root,
-            dataset_file=args.dataset_file,
-            caption_column=args.caption_column,
-            video_column=args.video_column,
-            max_num_frames=args.max_num_frames,
-            id_token=args.id_token,
-            height_buckets=args.height_buckets,
-            width_buckets=args.width_buckets,
-            frame_buckets=args.frame_buckets,
-            load_tensors=args.load_tensors,
-            random_flip=args.random_flip,
-            image_to_video=True,
+            video_reshape_mode=args.video_reshape_mode, **dataset_init_kwargs
         )
 
     def collate_fn(data):
 
@@ -103,10 +103,10 @@ def save_model_card(
 ```py
 import torch
 from diffusers import CogVideoXPipeline
-from diffusers import export_to_video
+from diffusers.utils import export_to_video
 
 pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-5b", torch_dtype=torch.bfloat16).to("cuda")
-pipe.load_lora_weights("{repo_id}", weight_name="pytorch_lora_weights.safetensors", adapter_name=["cogvideox-lora"])
+pipe.load_lora_weights("{repo_id}", weight_name="pytorch_lora_weights.safetensors", adapter_name="cogvideox-lora")
 
 # The LoRA adapter weights are determined by what was used for training.
 # In this case, we assume `--lora_alpha` is 32 and `--rank` is 64.
@@ -462,34 +462,24 @@ def load_model_hook(models, input_dir):
     )
 
     # Dataset and DataLoader
-    if not args.video_reshape_mode:
-        train_dataset = VideoDatasetWithResizing(
-            data_root=args.data_root,
-            dataset_file=args.dataset_file,
-            caption_column=args.caption_column,
-            video_column=args.video_column,
-            max_num_frames=args.max_num_frames,
-            id_token=args.id_token,
-            height_buckets=args.height_buckets,
-            width_buckets=args.width_buckets,
-            frame_buckets=args.frame_buckets,
-            load_tensors=args.load_tensors,
-            random_flip=args.random_flip,
-        )
+    dataset_init_kwargs = {
+        "data_root": args.data_root,
+        "dataset_file": args.dataset_file,
+        "caption_column": args.caption_column,
+        "video_column": args.video_column,
+        "max_num_frames": args.max_num_frames,
+        "id_token": args.id_token,
+        "height_buckets": args.height_buckets,
+        "width_buckets": args.width_buckets,
+        "frame_buckets": args.frame_buckets,
+        "load_tensors": args.load_tensors,
+        "random_flip": args.random_flip,
+    }
+    if args.video_reshape_mode is None:
+        train_dataset = VideoDatasetWithResizing(**dataset_init_kwargs)
     else:
         train_dataset = VideoDatasetWithResizeAndRectangleCrop(
-            video_reshape_mode=args.video_reshape_mode,
-            data_root=args.data_root,
-            dataset_file=args.dataset_file,
-            caption_column=args.caption_column,
-            video_column=args.video_column,
-            max_num_frames=args.max_num_frames,
-            id_token=args.id_token,
-            height_buckets=args.height_buckets,
-            width_buckets=args.width_buckets,
-            frame_buckets=args.frame_buckets,
-            load_tensors=args.load_tensors,
-            random_flip=args.random_flip,
+            video_reshape_mode=args.video_reshape_mode, **dataset_init_kwargs
         )
 
     def collate_fn(data):
 
@@ -426,34 +426,24 @@ def load_model_hook(models, input_dir):
     )
 
     # Dataset and DataLoader
-    if not args.video_reshape_mode:
-        train_dataset = VideoDatasetWithResizing(
-            data_root=args.data_root,
-            dataset_file=args.dataset_file,
-            caption_column=args.caption_column,
-            video_column=args.video_column,
-            max_num_frames=args.max_num_frames,
-            id_token=args.id_token,
-            height_buckets=args.height_buckets,
-            width_buckets=args.width_buckets,
-            frame_buckets=args.frame_buckets,
-            load_tensors=args.load_tensors,
-            random_flip=args.random_flip,
-        )
+    dataset_init_kwargs = {
+        "data_root": args.data_root,
+        "dataset_file": args.dataset_file,
+        "caption_column": args.caption_column,
+        "video_column": args.video_column,
+        "max_num_frames": args.max_num_frames,
+        "id_token": args.id_token,
+        "height_buckets": args.height_buckets,
+        "width_buckets": args.width_buckets,
+        "frame_buckets": args.frame_buckets,
+        "load_tensors": args.load_tensors,
+        "random_flip": args.random_flip,
+    }
+    if args.video_reshape_mode is None:
+        train_dataset = VideoDatasetWithResizing(**dataset_init_kwargs)
     else:
         train_dataset = VideoDatasetWithResizeAndRectangleCrop(
-            video_reshape_mode=args.video_reshape_mode,
-            data_root=args.data_root,
-            dataset_file=args.dataset_file,
-            caption_column=args.caption_column,
-            video_column=args.video_column,
-            max_num_frames=args.max_num_frames,
-            id_token=args.id_token,
-            height_buckets=args.height_buckets,
-            width_buckets=args.width_buckets,
-            frame_buckets=args.frame_buckets,
-            load_tensors=args.load_tensors,
-            random_flip=args.random_flip,
+            video_reshape_mode=args.video_reshape_mode, **dataset_init_kwargs
         )
 
     def collate_fn(data):