Hardcode orig_params True

daviswer · web-flow · commit f326e97e787e · 2025-04-15T17:06:05.000-04:00
diff --git a/main_training_mamba.py b/main_training_mamba.py
@@ -86,7 +86,7 @@ def main(**kwargs):
         auto_wrap_policy=wrapping_policy,
         mixed_precision=mixed_precision_policy,
         sharding_strategy=sharding_strategy_policy,
-        use_orig_params=cfg.use_torch_compile,
+        use_orig_params=True,
         device_id=torch.cuda.current_device(),
         limit_all_gathers=True,
         param_init_fn=param_init_fn,