fix nuclear norm scale formula

skyw · skyw · commit 047e735d9d37 · 2025-12-11T11:09:40.000-08:00
Signed-off-by: Hao Wu &lt;skyw@nvidia.com&gt;
diff --git a/emerging_optimizers/orthogonalized_optimizers/mop.py b/emerging_optimizers/orthogonalized_optimizers/mop.py
@@ -60,7 +60,7 @@ def scaled_orthogonalize_fn(grad: torch.Tensor) -> torch.Tensor:
                 scale_factor = muon.get_muon_scale_factor(grad.size(-2), grad.size(-1), mode=scale_mode)
             else:
                 # nuclear norm scaling suggested by PolarGrad paper (https://arxiv.org/pdf/2505.21799)
-                scale_factor = S.sum().sqrt()
+                scale_factor = S.sum()
             return orth_grad * scale_factor * extra_scale_factor
 
         super().__init__(