Fix scheduling

kevin314 · kevin314 · commit a10d0a688b7f · 2025-09-30T08:14:08.000Z
diff --git a/fastvideo/models/schedulers/scheduling_flow_match_euler_discrete.py b/fastvideo/models/schedulers/scheduling_flow_match_euler_discrete.py
@@ -348,10 +348,20 @@ def set_timesteps(
         sigmas_array: np.ndarray
         if sigmas is None:
             if timesteps_array is None:
-                timesteps_array = np.linspace(self._sigma_to_t(self.sigma_max),
-                                              self._sigma_to_t(self.sigma_min),
-                                              num_inference_steps)
+                t_max = self._sigma_to_t(self.sigma_max)
+                t_min = self._sigma_to_t(self.sigma_min)
+                print(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] sigma_max={self.sigma_max}, sigma_min={self.sigma_min}")
+                print(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] t_max={t_max}, t_min={t_min}, num_inference_steps={num_inference_steps}")
+                timesteps_array = np.linspace(t_max, t_min, num_inference_steps)
+                print(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] timesteps_array first few: {timesteps_array[:3]}")
+                with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                    f.write(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] sigma_max={self.sigma_max}, sigma_min={self.sigma_min}\n")
+                    f.write(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] t_max={t_max}, t_min={t_min}, num_inference_steps={num_inference_steps}\n")
+                    f.write(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] timesteps_array first few: {timesteps_array[:3]}\n")
             sigmas_array = timesteps_array / self.config.num_train_timesteps
+            print(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] sigmas_array before shifting first few: {sigmas_array[:3]}")
+            with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                f.write(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] sigmas_array before shifting first few: {sigmas_array[:3]}\n")
         else:
             sigmas_array = np.array(sigmas).astype(np.float32)
             num_inference_steps = len(sigmas_array)
@@ -362,8 +372,14 @@ def set_timesteps(
             assert mu is not None, "mu cannot be None when use_dynamic_shifting is True"
             sigmas_array = self.time_shift(mu, 1.0, sigmas_array)
         else:
+            print(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] Before shifting - self.shift={self.shift}, sigmas_array first few: {sigmas_array[:3]}")
+            with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                f.write(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] Before shifting - self.shift={self.shift}, sigmas_array first few: {sigmas_array[:3]}\n")
             sigmas_array = self.shift * sigmas_array / (
                 1 + (self.shift - 1) * sigmas_array)
+            print(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] After shifting - sigmas_array first few: {sigmas_array[:3]}")
+            with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                f.write(f"[FASTVIDEO SCHEDULER SIGMA DEBUG] After shifting - sigmas_array first few: {sigmas_array[:3]}\n")
 
         # 3. If required, stretch the sigmas schedule to terminate at the configured `shift_terminal` value
         if self.config.shift_terminal:
@@ -415,14 +431,7 @@ def set_timesteps(
                 [sigmas_tensor,
                  torch.ones(1, device=sigmas_tensor.device)])
         else:
-            # Handle final_sigmas_type parameter
-            if self.config.final_sigmas_type == "sigma_min":
-                # Use sigma_min instead of zero for final sigma
-                final_sigma = torch.tensor([self.sigma_min], device=sigmas_tensor.device)
-            else:  # "zero" or default
-                final_sigma = torch.zeros(1, device=sigmas_tensor.device)
-            
-            sigmas_tensor = torch.cat([sigmas_tensor, final_sigma])
+            sigmas_tensor = torch.cat([sigmas_tensor, torch.zeros(1, device=sigmas_tensor.device)])
 
         self.timesteps = timesteps_tensor
         self.sigmas = sigmas_tensor
@@ -522,24 +531,43 @@ def step(
             next_sigma = lower_sigmas[..., None]
             dt = current_sigma - next_sigma
         else:
-            assert self.step_index is not None, "step_index should not be None"
+            if self.step_index is None:
+                self._init_step_index(timestep)
+
             sigma_idx = self.step_index
             sigma = self.sigmas[sigma_idx]
             sigma_next = self.sigmas[sigma_idx + 1]
 
+            # DETAILED SCHEDULER DEBUG LOGGING
+            print(f"[FASTVIDEO SCHEDULER DEBUG] step_index: {self.step_index}, sigma_idx: {sigma_idx}")
+            print(f"[FASTVIDEO SCHEDULER DEBUG] sigma: {sigma:.10f}, sigma_next: {sigma_next:.10f}")
+            print(f"[FASTVIDEO SCHEDULER DEBUG] sigmas array length: {len(self.sigmas)}, first few: {self.sigmas[:3]}")
+            with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                f.write(f"[FASTVIDEO SCHEDULER DEBUG] step_index: {self.step_index}, sigma_idx: {sigma_idx}\n")
+                f.write(f"[FASTVIDEO SCHEDULER DEBUG] sigma: {sigma:.10f}, sigma_next: {sigma_next:.10f}\n")
+                f.write(f"[FASTVIDEO SCHEDULER DEBUG] sigmas array length: {len(self.sigmas)}, first few: {self.sigmas[:3]}\n")
+
             current_sigma = sigma
             next_sigma = sigma_next
             dt = sigma_next - sigma
 
+            print(f"[FASTVIDEO SCHEDULER DEBUG] dt: {dt:.10f}, current_sigma: {current_sigma:.10f}, next_sigma: {next_sigma:.10f}")
+            print(f"[FASTVIDEO SCHEDULER DEBUG] sample sum before step: {sample.float().sum().item():.6f}, model_output sum: {model_output.float().sum().item():.6f}")
+            with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                f.write(f"[FASTVIDEO SCHEDULER DEBUG] dt: {dt:.10f}, current_sigma: {current_sigma:.10f}, next_sigma: {next_sigma:.10f}\n")
+                f.write(f"[FASTVIDEO SCHEDULER DEBUG] sample sum before step: {sample.float().sum().item():.6f}, model_output sum: {model_output.float().sum().item():.6f}\n")
+
         if self.config.stochastic_sampling:
             x0 = sample - current_sigma * model_output
             noise = torch.randn_like(sample)
             prev_sample = (1.0 - next_sigma) * x0 + next_sigma * noise
         else:
             prev_sample = sample + dt * model_output
+            print(f"[FASTVIDEO SCHEDULER DEBUG] final prev_sample sum: {prev_sample.float().sum().item():.6f}")
+            with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                f.write(f"[FASTVIDEO SCHEDULER DEBUG] final prev_sample sum: {prev_sample.float().sum().item():.6f}\n")
 
         # upon completion increase step index by one
-        assert self._step_index is not None, "_step_index should not be None"
         self._step_index += 1
         if per_token_timesteps is None:
             # Cast sample back to model compatible dtype
@@ -575,7 +603,7 @@ def _convert_to_karras(self, in_sigmas: torch.Tensor,
         min_inv_rho = sigma_min**(1 / rho)
         max_inv_rho = sigma_max**(1 / rho)
         sigmas = (max_inv_rho + ramp * (min_inv_rho - max_inv_rho))**rho
-        return sigmas
+        return torch.from_numpy(sigmas).to(dtype=in_sigmas.dtype, device=in_sigmas.device)
 
     # Copied from diffusers.schedulers.scheduling_euler_discrete.EulerDiscreteScheduler._convert_to_exponential
     def _convert_to_exponential(self, in_sigmas: torch.Tensor,
@@ -600,7 +628,7 @@ def _convert_to_exponential(self, in_sigmas: torch.Tensor,
         sigmas = np.exp(
             np.linspace(math.log(sigma_max), math.log(sigma_min),
                         num_inference_steps))
-        return sigmas
+        return torch.from_numpy(sigmas).to(dtype=in_sigmas.dtype, device=in_sigmas.device)
 
     # Copied from diffusers.schedulers.scheduling_euler_discrete.EulerDiscreteScheduler._convert_to_beta
     def _convert_to_beta(self,
@@ -631,7 +659,7 @@ def _convert_to_beta(self,
                 for timestep in 1 - np.linspace(0, 1, num_inference_steps)
             ]
         ])
-        return sigmas
+        return torch.from_numpy(sigmas).to(dtype=in_sigmas.dtype, device=in_sigmas.device)
 
     def _time_shift_exponential(
             self, mu: float, sigma: float,
diff --git a/fastvideo/pipelines/basic/cosmos/cosmos_pipeline.py b/fastvideo/pipelines/basic/cosmos/cosmos_pipeline.py
@@ -56,7 +56,8 @@ def initialize_pipeline(self, fastvideo_args: FastVideoArgs):
         print("[TEMPORARY] VAE replacement complete!")
 
         self.modules["scheduler"] = FlowMatchEulerDiscreteScheduler(
-            shift=fastvideo_args.pipeline_config.flow_shift)
+            shift=fastvideo_args.pipeline_config.flow_shift,
+            use_karras_sigmas=True)
         
         # Configure Cosmos-specific scheduler parameters (matching diffusers)
         # Source: /workspace/diffusers/src/diffusers/pipelines/cosmos/pipeline_cosmos2_video2world.py:209-219
diff --git a/fastvideo/pipelines/stages/denoising.py b/fastvideo/pipelines/stages/denoising.py
@@ -660,6 +660,21 @@ def forward(
                 pipeline.add_module("transformer", self.transformer)
             fastvideo_args.model_loaded["transformer"] = True
 
+        # Prepare extra step kwargs for scheduler
+        extra_step_kwargs = self.prepare_extra_func_kwargs(
+            self.scheduler.step,
+            {
+                "generator": batch.generator,
+                "eta": batch.eta
+            },
+        )
+
+        # Log the extra step kwargs
+        print(f"[FASTVIDEO DEBUG] Extra step kwargs: {extra_step_kwargs}")
+        with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+            f.write(f"[FASTVIDEO DEBUG] Extra step kwargs: {extra_step_kwargs}\n")
+
+
         # Setup precision to match diffusers exactly
         # Diffusers uses transformer.dtype (bfloat16) and converts inputs before transformer calls
         # For FSDP wrapped models, we need to access the underlying module
@@ -682,11 +697,43 @@ def forward(
             f.write(f"Denoising init: latents sum = {sum_value:.6f}, shape = {latents.shape}\n")
         
         
+        # Configure scheduler to match Diffusers exactly (MUST be before set_timesteps)
+        sigma_max = 80.0
+        sigma_min = 0.002
+        sigma_data = 1.0
+        final_sigmas_type = "sigma_min"
+
+        print(f"[FASTVIDEO DEBUG] BEFORE config - scheduler.config: {self.scheduler.config}")
+        with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+            f.write(f"[FASTVIDEO DEBUG] BEFORE config - scheduler.config: {self.scheduler.config}\n")
+
+        if self.scheduler is not None:
+            self.scheduler.register_to_config(
+                sigma_max=sigma_max,
+                sigma_min=sigma_min,
+                sigma_data=sigma_data,
+                final_sigmas_type=final_sigmas_type,
+            )
+            print(f"[FASTVIDEO DEBUG] Applied scheduler config: sigma_max={sigma_max}, sigma_min={sigma_min}, sigma_data={sigma_data}, final_sigmas_type={final_sigmas_type}")
+            print(f"[FASTVIDEO DEBUG] AFTER config - scheduler.config: {self.scheduler.config}")
+            with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                f.write(f"[FASTVIDEO DEBUG] Applied scheduler config: sigma_max={sigma_max}, sigma_min={sigma_min}, sigma_data={sigma_data}, final_sigmas_type={final_sigmas_type}\n")
+                f.write(f"[FASTVIDEO DEBUG] AFTER config - scheduler.config: {self.scheduler.config}\n")
+
         # Setup scheduler timesteps - use default scheduler sigma generation
         # The torch.linspace(0, 1, num_inference_steps) approach was incorrect for FlowMatchEulerDiscreteScheduler
         # Let the scheduler generate its own sigmas using the configured sigma_max, sigma_min, etc.
         self.scheduler.set_timesteps(num_inference_steps, device=latents.device)
         timesteps = self.scheduler.timesteps
+
+        # Debug what sigmas were actually generated
+        print(f"[FASTVIDEO DEBUG] Generated sigmas - length: {len(self.scheduler.sigmas)}, first few: {self.scheduler.sigmas[:3]}")
+        print(f"[FASTVIDEO DEBUG] Scheduler config after set_timesteps: sigma_max={getattr(self.scheduler.config, 'sigma_max', 'NOT_SET')}, sigma_min={getattr(self.scheduler.config, 'sigma_min', 'NOT_SET')}")
+        print(f"[FASTVIDEO DEBUG] Scheduler properties: self.sigma_max={getattr(self.scheduler, 'sigma_max', 'NOT_SET')}, self.sigma_min={getattr(self.scheduler, 'sigma_min', 'NOT_SET')}")
+        with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+            f.write(f"[FASTVIDEO DEBUG] Generated sigmas - length: {len(self.scheduler.sigmas)}, first few: {self.scheduler.sigmas[:3]}\n")
+            f.write(f"[FASTVIDEO DEBUG] Scheduler config after set_timesteps: sigma_max={getattr(self.scheduler.config, 'sigma_max', 'NOT_SET')}, sigma_min={getattr(self.scheduler.config, 'sigma_min', 'NOT_SET')}\n")
+            f.write(f"[FASTVIDEO DEBUG] Scheduler properties: self.sigma_max={getattr(self.scheduler, 'sigma_max', 'NOT_SET')}, self.sigma_min={getattr(self.scheduler, 'sigma_min', 'NOT_SET')}\n")
         
         # Handle final sigmas like diffusers
         if hasattr(self.scheduler.config, 'final_sigmas_type') and self.scheduler.config.final_sigmas_type == "sigma_min":
@@ -844,6 +891,18 @@ def forward(
                     print(f"[FASTVIDEO DEBUG] Step {i}: Preconditioning - c_skip={c_skip:.6f}, c_out={c_out:.6f}, latents_sum={latents.float().sum().item():.6f}")
                     with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
                         f.write(f"[FASTVIDEO DEBUG] Step {i}: Preconditioning - c_skip={c_skip:.6f}, c_out={c_out:.6f}, latents_sum={latents.float().sum().item():.6f}\n")
+
+                    # PRECONDITIONING DTYPE VERIFICATION
+                    print(f"[FASTVIDEO DTYPE DEBUG] Step {i}: Preconditioning dtypes")
+                    print(f"[FASTVIDEO DTYPE DEBUG]   noise_pred dtype: {noise_pred.dtype}, latents dtype: {latents.dtype}")
+                    print(f"[FASTVIDEO DTYPE DEBUG]   c_skip: {c_skip:.10f} (type: {type(c_skip)}), c_out: {c_out:.10f} (type: {type(c_out)})")
+                    print(f"[FASTVIDEO DTYPE DEBUG]   target_dtype: {target_dtype}")
+                    with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                        f.write(f"[FASTVIDEO DTYPE DEBUG] Step {i}: Preconditioning dtypes\n")
+                        f.write(f"[FASTVIDEO DTYPE DEBUG]   noise_pred dtype: {noise_pred.dtype}, latents dtype: {latents.dtype}\n")
+                        f.write(f"[FASTVIDEO DTYPE DEBUG]   c_skip: {c_skip:.10f} (type: {type(c_skip)}), c_out: {c_out:.10f} (type: {type(c_out)})\n")
+                        f.write(f"[FASTVIDEO DTYPE DEBUG]   target_dtype: {target_dtype}\n")
+
                     cond_pred = (c_skip * latents + c_out * noise_pred.float()).to(target_dtype)
 
                     if hasattr(batch, 'cond_indicator') and batch.cond_indicator is not None and conditioning_latents is not None:
@@ -954,14 +1013,34 @@ def forward(
                 else:
                     logger.warning(f"Step {i}: current_sigma too small ({current_sigma}), using final_pred directly")
                     noise_for_scheduler = final_pred
-                
+
                 # Debug: Check for NaN values before scheduler step
                 if torch.isnan(noise_for_scheduler).sum() > 0:
                     logger.error(f"Step {i}: NaN detected in noise_for_scheduler, sum: {noise_for_scheduler.float().sum().item()}")
                     logger.error(f"Step {i}: latents sum: {latents.float().sum().item()}, final_pred sum: {final_pred.float().sum().item()}, current_sigma: {current_sigma}")
-                
+
+                # DTYPE VERIFICATION LOGS
+                print(f"[FASTVIDEO DTYPE DEBUG] Step {i}: Before scheduler step")
+                print(f"[FASTVIDEO DTYPE DEBUG]   latents dtype: {latents.dtype}, sum: {latents.float().sum().item():.6f}")
+                print(f"[FASTVIDEO DTYPE DEBUG]   final_pred dtype: {final_pred.dtype}, sum: {final_pred.float().sum().item():.6f}")
+                print(f"[FASTVIDEO DTYPE DEBUG]   noise_for_scheduler dtype: {noise_for_scheduler.dtype}, sum: {noise_for_scheduler.float().sum().item():.6f}")
+                print(f"[FASTVIDEO DTYPE DEBUG]   current_sigma: {current_sigma:.10f} (type: {type(current_sigma)})")
+                with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                    f.write(f"[FASTVIDEO DTYPE DEBUG] Step {i}: Before scheduler step\n")
+                    f.write(f"[FASTVIDEO DTYPE DEBUG]   latents dtype: {latents.dtype}, sum: {latents.float().sum().item():.6f}\n")
+                    f.write(f"[FASTVIDEO DTYPE DEBUG]   final_pred dtype: {final_pred.dtype}, sum: {final_pred.float().sum().item():.6f}\n")
+                    f.write(f"[FASTVIDEO DTYPE DEBUG]   noise_for_scheduler dtype: {noise_for_scheduler.dtype}, sum: {noise_for_scheduler.float().sum().item():.6f}\n")
+                    f.write(f"[FASTVIDEO DTYPE DEBUG]   current_sigma: {current_sigma:.10f} (type: {type(current_sigma)})\n")
+
                 # Standard scheduler step like diffusers
-                latents = self.scheduler.step(noise_for_scheduler, t, latents, return_dict=False)[0]
+                latents = self.scheduler.step(noise_for_scheduler, t, latents, **extra_step_kwargs, return_dict=False)[0]
+
+                # DTYPE VERIFICATION LOGS AFTER SCHEDULER
+                print(f"[FASTVIDEO DTYPE DEBUG] Step {i}: After scheduler step")
+                print(f"[FASTVIDEO DTYPE DEBUG]   latents dtype: {latents.dtype}, sum: {latents.float().sum().item():.6f}")
+                with open("/workspace/FastVideo/fastvideo_hidden_states.log", "a") as f:
+                    f.write(f"[FASTVIDEO DTYPE DEBUG] Step {i}: After scheduler step\n")
+                    f.write(f"[FASTVIDEO DTYPE DEBUG]   latents dtype: {latents.dtype}, sum: {latents.float().sum().item():.6f}\n")
                 sum_value = latents.float().sum().item()
                 logger.info(f"CosmosDenoisingStage: step {i}, updated latents sum = {sum_value:.6f}")
                 # Write to output file