changed long name in orthogonalized optimizer class

mkhona-nvidia · mkhona-nvidia · commit 50f613ba9512 · 2025-10-24T14:02:23.000-07:00
Signed-off-by: mikail &lt;mkhona@nvidia.com&gt;
diff --git a/emerging_optimizers/orthogonalized_optimizers/orthogonalized_optimizer.py b/emerging_optimizers/orthogonalized_optimizers/orthogonalized_optimizer.py
@@ -35,8 +35,8 @@
         use_nesterov: Whether to use Nesterov-style momentum in the internal SGD.
         weight_decay: The weight decay used by the optimizer, default to be decoupled weight decay.
             See Decoupled Weight Decay Regularization: https://arxiv.org/abs/1711.05101
-        use_decoupled_weight_decay: Whether to use decoupled weight decay, default to be True.
-        use_independent_weight_decay: Whether to use independent weight decay (https://arxiv.org/abs/2510.19093),
+        use_decoupled_wd: Whether to use decoupled weight decay, default to be True.
+        use_independent_wd: Whether to use independent weight decay (https://arxiv.org/abs/2510.19093),
             default to be False.
         fp32_matmul_prec: Precision of the matmul operations in optimizer states GEMM operations.
 """
@@ -101,8 +101,8 @@ def __init__(
         momentum_beta: float,
         use_nesterov: bool,
         weight_decay: float,
-        use_decoupled_weight_decay: bool,
-        use_independent_weight_decay: bool,
+        use_decoupled_wd: bool,
+        use_independent_wd: bool,
         fp32_matmul_prec: str,
         scaled_orthogonalize_fn: Callable | None = None,
         **kwargs: Any,
@@ -117,8 +117,8 @@ def __init__(
             momentum_beta=momentum_beta,
             use_nesterov=use_nesterov,
             weight_decay=weight_decay,
-            use_decoupled_wd=use_decoupled_weight_decay,
-            use_independent_wd=use_independent_weight_decay,
+            use_decoupled_wd=use_decoupled_wd,
+            use_independent_wd=use_independent_wd,
             **kwargs,
         )