[misc] Polish V1 training code (#469)

Edenzzzz · web-flow · commit 7f654e3332da · 2025-06-03T22:02:03.000-05:00
diff --git a/fastvideo/distill.py b/fastvideo/distill.py
@@ -242,7 +242,7 @@ def main(args):
     noise_random_generator = None
 
     # Handle the repository creation
-    if rank <= 0 and args.output_dir is not None:
+    if rank == 0 and args.output_dir is not None:
         os.makedirs(args.output_dir, exist_ok=True)
 
     # For mixed precision training we cast all non-trainable weights to half-precision
@@ -391,7 +391,7 @@ def main(args):
         len(train_dataloader) / args.gradient_accumulation_steps * args.sp_size / args.train_sp_batch_size)
     args.num_train_epochs = math.ceil(args.max_train_steps / num_update_steps_per_epoch)
 
-    if rank <= 0:
+    if rank == 0:
         project = args.tracker_project_name or "fastvideo"
         wandb.init(project=project, config=args)
 
@@ -493,7 +493,7 @@ def get_num_phases(multi_phased_distill_schedule, step):
             "phases": num_phases,
         })
         progress_bar.update(1)
-        if rank <= 0:
+        if rank == 0:
             wandb.log(
                 {
                     "train_loss": loss,
diff --git a/fastvideo/distill_adv.py b/fastvideo/distill_adv.py
@@ -296,7 +296,7 @@ def main(args):
     noise_random_generator = None
 
     # Handle the repository creation
-    if rank <= 0 and args.output_dir is not None:
+    if rank == 0 and args.output_dir is not None:
         os.makedirs(args.output_dir, exist_ok=True)
 
     # For mixed precision training we cast all non-trainable weights to half-precision
@@ -462,7 +462,7 @@ def main(args):
         len(train_dataloader) / args.gradient_accumulation_steps * args.sp_size / args.train_sp_batch_size)
     args.num_train_epochs = math.ceil(args.max_train_steps / num_update_steps_per_epoch)
 
-    if rank <= 0:
+    if rank == 0:
         project = args.tracker_project_name or "fastvideo"
         wandb.init(project=project, config=args)
 
@@ -559,7 +559,7 @@ def get_num_phases(multi_phased_distill_schedule, step):
             "step_time": f"{step_time:.2f}s",
         })
         progress_bar.update(1)
-        if rank <= 0:
+        if rank == 0:
             wandb.log(
                 {
                     "generator_loss": generator_loss,
diff --git a/fastvideo/sample/sample_t2v_hunyuan_hf.py b/fastvideo/sample/sample_t2v_hunyuan_hf.py
@@ -86,7 +86,7 @@ def inference(args):
                     num_inference_steps=args.num_inference_steps,
                     generator=generator,
                 ).frames
-                if nccl_info.global_rank <= 0:
+                if nccl_info.global_rank == 0:
                     os.makedirs(args.output_path, exist_ok=True)
                     suffix = prompt.split(".")[0]
                     export_to_video(
@@ -107,7 +107,7 @@ def inference(args):
                 generator=generator,
             ).frames
 
-        if nccl_info.global_rank <= 0:
+        if nccl_info.global_rank == 0:
             export_to_video(videos[0], args.output_path + ".mp4", fps=24)
 
 
diff --git a/fastvideo/sample/sample_t2v_mochi.py b/fastvideo/sample/sample_t2v_mochi.py
@@ -94,7 +94,7 @@ def main(args):
                     guidance_scale=args.guidance_scale,
                     generator=generator,
                 ).frames
-                if nccl_info.global_rank <= 0:
+                if nccl_info.global_rank == 0:
                     os.makedirs(args.output_path, exist_ok=True)
                     suffix = prompt.split(".")[0]
                     export_to_video(
@@ -116,7 +116,7 @@ def main(args):
                 generator=generator,
             ).frames
 
-        if nccl_info.global_rank <= 0:
+        if nccl_info.global_rank == 0:
             export_to_video(videos[0], args.output_path + ".mp4", fps=30)
 
 
diff --git a/fastvideo/train.py b/fastvideo/train.py
@@ -185,7 +185,7 @@ def main(args):
     noise_random_generator = None
 
     # Handle the repository creation
-    if rank <= 0 and args.output_dir is not None:
+    if rank == 0 and args.output_dir is not None:
         os.makedirs(args.output_dir, exist_ok=True)
 
     # For mixed precision training we cast all non-trainable weights to half-precision
@@ -316,7 +316,7 @@ def main(args):
         len(train_dataloader) / args.gradient_accumulation_steps * args.sp_size / args.train_sp_batch_size)
     args.num_train_epochs = math.ceil(args.max_train_steps / num_update_steps_per_epoch)
 
-    if rank <= 0:
+    if rank == 0:
         project = args.tracker_project_name or "fastvideo"
         wandb.init(project=project, config=args)
 
@@ -393,7 +393,7 @@ def main(args):
             "grad_norm": grad_norm,
         })
         progress_bar.update(1)
-        if rank <= 0:
+        if rank == 0:
             wandb.log(
                 {
                     "train_loss": loss,
diff --git a/fastvideo/utils/checkpoint.py b/fastvideo/utils/checkpoint.py
@@ -32,7 +32,7 @@ def save_checkpoint_optimizer(model, optimizer, rank, output_dir, step, discrimi
     save_dir = os.path.join(output_dir, f"checkpoint-{step}")
     os.makedirs(save_dir, exist_ok=True)
     # save using safetensors
-    if rank <= 0 and not discriminator:
+    if rank == 0 and not discriminator:
         weight_path = os.path.join(save_dir, "diffusion_pytorch_model.safetensors")
         save_file(cpu_state, weight_path)
         config_dict = dict(model.config)
@@ -60,7 +60,7 @@ def save_checkpoint(transformer, rank, output_dir, step):
     ):
         cpu_state = transformer.state_dict()
     # todo move to get_state_dict
-    if rank <= 0:
+    if rank == 0:
         save_dir = os.path.join(output_dir, f"checkpoint-{step}")
         os.makedirs(save_dir, exist_ok=True)
         # save using safetensors
@@ -98,7 +98,7 @@ def save_checkpoint_generator_discriminator(
     hf_weight_dir = os.path.join(save_dir, "hf_weights")
     os.makedirs(hf_weight_dir, exist_ok=True)
     # save using safetensors
-    if rank <= 0:
+    if rank == 0:
         config_dict = dict(model.config)
         config_path = os.path.join(hf_weight_dir, "config.json")
         # save dict as json
@@ -139,7 +139,7 @@ def save_checkpoint_generator_discriminator(
         optim_state = FSDP.optim_state_dict(discriminator, discriminator_optimizer)
         model_state = discriminator.state_dict()
         state_dict = {"optimizer": optim_state, "model": model_state}
-        if rank <= 0:
+        if rank == 0:
             discriminator_fsdp_state_fil = os.path.join(discriminator_fsdp_state_dir, "discriminator_state.pt")
             torch.save(state_dict, discriminator_fsdp_state_fil)
 
@@ -178,7 +178,7 @@ def load_full_state_model(model, optimizer, checkpoint_file, rank):
     ):
         discriminator_state = torch.load(checkpoint_file)
         model_state = discriminator_state["model"]
-        if rank <= 0:
+        if rank == 0:
             optim_state = discriminator_state["optimizer"]
         else:
             optim_state = None
@@ -241,7 +241,7 @@ def save_lora_checkpoint(transformer, optimizer, rank, output_dir, step, pipelin
             optimizer,
         )
 
-    if rank <= 0:
+    if rank == 0:
         save_dir = os.path.join(output_dir, f"lora-checkpoint-{step}")
         os.makedirs(save_dir, exist_ok=True)
 
diff --git a/fastvideo/v1/dataset/latent_datasets.py b/fastvideo/v1/dataset/latent_datasets.py
@@ -107,23 +107,3 @@ def latent_collate_function(batch):
     prompt_attention_masks = torch.stack(prompt_attention_masks, dim=0)
     latents = torch.stack(latent_list, dim=0)
     return latents, prompt_embeds, latent_attn_mask, prompt_attention_masks
-
-
-if __name__ == "__main__":
-    dataset = LatentDataset("data/Mochi-Synthetic-Data/merge.txt",
-                            num_latent_t=28,
-                            cfg_rate=0.0)
-    dataloader = torch.utils.data.DataLoader(dataset,
-                                             batch_size=2,
-                                             shuffle=False,
-                                             collate_fn=latent_collate_function)
-    for latent, prompt_embed, latent_attn_mask, prompt_attention_mask in dataloader:
-        print(
-            latent.shape,
-            prompt_embed.shape,
-            latent_attn_mask.shape,
-            prompt_attention_mask.shape,
-        )
-        import pdb
-
-        pdb.set_trace()
diff --git a/fastvideo/v1/distributed/parallel_state.py b/fastvideo/v1/distributed/parallel_state.py
@@ -747,8 +747,8 @@ def set_custom_all_reduce(enable: bool):
 
 
 def init_distributed_environment(
-    world_size: int = -1,
-    rank: int = -1,
+    world_size: int = 1,
+    rank: int = 0,
     distributed_init_method: str = "env://",
     local_rank: int = -1,
     backend: str = "nccl",
diff --git a/fastvideo/v1/pipelines/composed_pipeline_base.py b/fastvideo/v1/pipelines/composed_pipeline_base.py
@@ -188,7 +188,7 @@ def maybe_init_distributed_environment(self, fastvideo_args: FastVideoArgs):
 
         if local_rank == -1 or world_size == -1 or rank == -1:
             raise ValueError(
-                "Local rank, world size, and rank must be set. Use torchrun to launch the script."
+                "Local rank, world size, and rank must be set. Use torchrun to launch the script or pass rank to the worker process."
             )
 
         torch.cuda.set_device(local_rank)
diff --git a/fastvideo/v1/training/__init__.py b/fastvideo/v1/training/__init__.py
@@ -0,0 +1,4 @@
+from .training_pipeline import TrainingPipeline
+from .wan_training_pipeline import WanTrainingPipeline
+
+__all__ = ["TrainingPipeline", "WanTrainingPipeline"]
diff --git a/fastvideo/v1/training/training_pipeline.py b/fastvideo/v1/training/training_pipeline.py
@@ -8,6 +8,7 @@
 import imageio
 import numpy as np
 import torch
+import torch.distributed as dist
 import torchvision
 from diffusers.optimization import get_scheduler
 from einops import rearrange
@@ -146,6 +147,7 @@ def train_one_step(self, transformer, model_type, optimizer, lr_scheduler,
         raise NotImplementedError(
             "Training pipeline must implement this method")
 
+    @torch.no_grad()
     def _log_validation(self, transformer, training_args, global_step) -> None:
         assert training_args is not None
         training_args.inference_mode = True
@@ -185,11 +187,9 @@ def _log_validation(self, transformer, training_args, global_step) -> None:
             prefetch_factor=2,
             shuffle=False,
             pin_memory=True,
+            pin_memory_device=f"cuda:{torch.cuda.current_device()}",
             drop_last=False)
 
-        transformer.requires_grad_(False)
-        for p in transformer.parameters():
-            p.requires_grad = False
         transformer.eval()
 
         # Add the transformer to the validation pipeline
@@ -386,7 +386,7 @@ def compute_loss() -> torch.Tensor:
             absolute_errors: list[float] = []
             param_count = 0
 
-            rank = int(os.environ.get("RANK", 0))
+            rank = dist.get_rank()
             sp_group = get_sp_group()
             for name, param in transformer.named_parameters():
                 sp_group.barrier()
@@ -428,7 +428,7 @@ def compute_loss() -> torch.Tensor:
                     with torch.no_grad():
                         # only have a single rank modify the parameter
                         # because we are using FSDP
-                        if rank <= 0:
+                        if rank == 0:
                             flat_param[check_idx] = orig_value + delta
                         loss = compute_loss()
                         if delta > 0:
@@ -446,7 +446,7 @@ def compute_loss() -> torch.Tensor:
                                             abs(numerical_grad), 1e-3)
                 absolute_errors.append(abs_error)
 
-                if self.rank <= 0:
+                if self.rank == 0:
                     logger.info(
                         "%s[%s]: analytical=%.5f, numerical=%.5f, abs_error=%.2e, rel_error=%.2f%%",
                         name, check_idx, analytical_grad, numerical_grad,
@@ -455,7 +455,7 @@ def compute_loss() -> torch.Tensor:
                 # param_count += 1
 
             # Compute and log statistics
-            if rank <= 0 and absolute_errors:
+            if rank == 0 and absolute_errors:
                 min_err, max_err, mean_err = min(absolute_errors), max(
                     absolute_errors
                 ), sum(absolute_errors) / len(absolute_errors)
diff --git a/fastvideo/v1/training/wan_training_pipeline.py b/fastvideo/v1/training/wan_training_pipeline.py
@@ -55,7 +55,7 @@ def initialize_validation_pipeline(self, training_args: TrainingArgs):
         args_copy.inference_mode = True
         args_copy.vae_config.load_encoder = False
         validation_pipeline = WanValidationPipeline.from_pretrained(
-            args.model_path, args=None, inference_mode=True)
+            training_args.model_path, args=None, inference_mode=True)
 
         self.validation_pipeline = validation_pipeline
 
@@ -86,7 +86,7 @@ def train_one_step(
 
         for _ in range(gradient_accumulation_steps):
             # Get next batch, handling epoch boundaries gracefully
-            batch = next(self.train_loader_iter, None)
+            batch = next(self.train_loader_iter, None)  # type: ignore
             if batch is None:
                 self.current_epoch += 1
                 logger.info("Starting epoch %s", self.current_epoch)
@@ -216,7 +216,8 @@ def forward(
         logger.info("  Num examples = %s", len(self.train_dataset))
         logger.info("  Dataloader size = %s", len(self.train_dataloader))
         logger.info("  Num Epochs = %s", self.num_train_epochs)
-        logger.info("  Resume training from step %s", self.init_steps)
+        logger.info("  Resume training from step %s",
+                    self.init_steps)  # type: ignore
         logger.info("  Instantaneous batch size per device = %s",
                     self.training_args.train_batch_size)
         logger.info(
@@ -271,7 +272,8 @@ def forward(
         logger.info("GPU memory usage before train_one_step: %s MB",
                     gpu_memory_usage)
 
-        for step in range(self.init_steps + 1, args.max_train_steps + 1):
+        for step in range(self.init_steps + 1,
+                          self.training_args.max_train_steps + 1):
             start_time = time.perf_counter()
 
             loss, grad_norm = self.train_one_step(
@@ -313,7 +315,7 @@ def forward(
                 "grad_norm": grad_norm,
             })
             progress_bar.update(1)
-            if self.rank <= 0:
+            if self.rank == 0:
                 wandb.log(
                     {
                         "train_loss": loss,
diff --git a/pyproject.toml b/pyproject.toml
@@ -41,17 +41,17 @@ dependencies = [
 
     # Kernel & Packaging
     "wheel",
+
+    # Training Dependencies
+    "torchdata",
+    "pyarrow",
+    "datasets",
 ]
 
 [project.optional-dependencies]
 
 # flash-attn: pip install flash-attn==2.7.4.post1 --no-cache-dir --no-build-isolation 
 
-train = [
-    "torchdata",
-    "pyarrow",
-    "datasets",
-]
 
 lint = [
     "pre-commit==4.0.1",
@@ -63,7 +63,7 @@ test = [
     "pytest",
 ]
 
-dev = [ "fastvideo[lint]", "fastvideo[test]", "fastvideo[train]", ]
+dev = [ "fastvideo[lint]", "fastvideo[test]", ]
 
 [project.scripts]
 fastvideo = "fastvideo.v1.entrypoints.cli.main:main"

Original file line number	Diff line number	Diff line change
`@@ -188,7 +188,7 @@ def maybe_init_distributed_environment(self, fastvideo_args: FastVideoArgs):`
`188`	`188`
`189`	`189`	`if local_rank == -1 or world_size == -1 or rank == -1:`
`190`	`190`	`raise ValueError(`
`191`		`- "Local rank, world size, and rank must be set. Use torchrun to launch the script."`
	`191`	`+ "Local rank, world size, and rank must be set. Use torchrun to launch the script or pass rank to the worker process."`
`192`	`192`	`)`
`193`	`193`
`194`	`194`	`torch.cuda.set_device(local_rank)`