Merge pull request #104 from kozistr/fix/svd

kozistr · web-flow · commit 06dce18aef11 · 2023-02-06T15:33:17.000+09:00
[Fix] singular value in `compute_power_svd()`
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "pytorch_optimizer"
-version = "2.4.0"
+version = "2.4.1"
 description = "optimizer & lr scheduler implementations in PyTorch with clean-code, strict types. Also, including useful optimization ideas."
 license = "Apache-2.0"
 authors = ["kozistr <kozistr@gmail.com>"]
diff --git a/pytorch_optimizer/optimizer/shampoo.py b/pytorch_optimizer/optimizer/shampoo.py
@@ -80,7 +80,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 loss = closure()
 
         for group in self.param_groups:
-            momentum = group['momentum']
+            momentum, weight_decay = group['momentum'], group['weight_decay']
             for p in group['params']:
                 if p.grad is None:
                     continue
@@ -100,29 +100,26 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                         state[f'pre_cond_{dim_id}'] = self.matrix_eps * torch.eye(dim, out=grad.new(dim, dim))
                         state[f'inv_pre_cond_{dim_id}'] = grad.new(dim, dim).zero_()
 
-                state['step'] += 1
-
                 if momentum > 0.0:
                     grad.mul_(1.0 - momentum).add_(state['momentum_buffer'], alpha=momentum)
 
-                if group['weight_decay'] > 0.0:
-                    grad.add_(p, alpha=group['weight_decay'])
+                if weight_decay > 0.0:
+                    grad.add_(p, alpha=weight_decay)
 
                 order: int = grad.ndimension()
                 original_size: int = grad.size()
                 for dim_id, dim in enumerate(grad.size()):
-                    pre_cond = state[f'pre_cond_{dim_id}']
-                    inv_pre_cond = state[f'inv_pre_cond_{dim_id}']
+                    pre_cond, inv_pre_cond = state[f'pre_cond_{dim_id}'], state[f'inv_pre_cond_{dim_id}']
 
                     grad = grad.transpose_(0, dim_id).contiguous()
                     transposed_size = grad.size()
 
                     grad = grad.view(dim, -1)
-
                     grad_t = grad.t()
+
                     pre_cond.add_(grad @ grad_t)
                     if state['step'] % self.preconditioning_compute_steps == 0:
-                        inv_pre_cond.copy_(compute_power_svd(pre_cond, -1.0 / order))
+                        inv_pre_cond = compute_power_svd(pre_cond, -1.0 / order)
 
                     if dim_id == order - 1:
                         grad = grad_t @ inv_pre_cond
@@ -131,6 +128,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                         grad = inv_pre_cond @ grad
                         grad = grad.view(transposed_size)
 
+                state['step'] += 1
                 state['momentum_buffer'] = grad
 
                 p.add_(grad, alpha=-group['lr'])
diff --git a/pytorch_optimizer/optimizer/shampoo_utils.py b/pytorch_optimizer/optimizer/shampoo_utils.py
@@ -488,7 +488,8 @@ def compute_power_svd(matrix: torch.Tensor, power: float) -> torch.Tensor:
     :param power: float. -1.0 / order.
     """
     u, s, vh = torch.linalg.svd(matrix, full_matrices=False)
-    return u @ s.pow_(power).diag_embed() @ vh
+    s.pow_(power)
+    return u @ (s.diag() if len(matrix.shape) == 2 else s.diag_embed()) @ vh
 
 
 def merge_small_dims(shape_to_merge: List[int], max_dim: int) -> List[int]:
diff --git a/tests/constants.py b/tests/constants.py
@@ -133,17 +133,17 @@
     (AdaBelief, {'lr': 5e-1, 'weight_decay': 1e-3, 'weight_decouple': False}, 10),
     (AdaBelief, {'lr': 5e-1, 'weight_decay': 1e-3, 'fixed_decay': True}, 10),
     (AdaBelief, {'lr': 5e-1, 'weight_decay': 1e-3, 'rectify': False}, 10),
-    (AdaBound, {'lr': 5e-1, 'gamma': 0.1, 'weight_decay': 1e-3}, 100),
-    (AdaBound, {'lr': 5e-1, 'gamma': 0.1, 'weight_decay': 1e-3, 'fixed_decay': True}, 100),
-    (AdaBound, {'lr': 5e-1, 'gamma': 0.1, 'weight_decay': 1e-3, 'weight_decouple': False}, 100),
-    (AdaBound, {'lr': 5e-1, 'gamma': 0.1, 'weight_decay': 1e-3, 'amsbound': True}, 100),
-    (Adai, {'lr': 1e-1, 'weight_decay': 0.0}, 150),
-    (Adai, {'lr': 1e-1, 'weight_decay': 0.0, 'use_gc': True}, 150),
-    (Adai, {'lr': 1e-1, 'weight_decay': 0.0, 'dampening': 0.9}, 150),
-    (Adai, {'lr': 1e-1, 'weight_decay': 1e-4, 'weight_decouple': False}, 100),
-    (Adai, {'lr': 1e-1, 'weight_decay': 1e-4, 'weight_decouple': True}, 100),
-    (Adai, {'lr': 1e-1, 'weight_decay': 1e-4, 'weight_decouple': False, 'use_stable_weight_decay': True}, 100),
-    (Adai, {'lr': 1e-1, 'weight_decay': 1e-4, 'weight_decouple': True, 'use_stable_weight_decay': True}, 100),
+    (AdaBound, {'lr': 5e-1, 'gamma': 0.1, 'weight_decay': 1e-3}, 75),
+    (AdaBound, {'lr': 5e-1, 'gamma': 0.1, 'weight_decay': 1e-3, 'fixed_decay': True}, 75),
+    (AdaBound, {'lr': 5e-1, 'gamma': 0.1, 'weight_decay': 1e-3, 'weight_decouple': False}, 75),
+    (AdaBound, {'lr': 5e-1, 'gamma': 0.1, 'weight_decay': 1e-3, 'amsbound': True}, 75),
+    (Adai, {'lr': 2e-1, 'weight_decay': 0.0}, 50),
+    (Adai, {'lr': 2e-1, 'weight_decay': 0.0, 'use_gc': True}, 75),
+    (Adai, {'lr': 2e-1, 'weight_decay': 0.0, 'dampening': 0.9}, 50),
+    (Adai, {'lr': 1e-1, 'weight_decay': 1e-4, 'weight_decouple': False}, 50),
+    (Adai, {'lr': 1e-1, 'weight_decay': 1e-4, 'weight_decouple': True}, 50),
+    (Adai, {'lr': 1e-1, 'weight_decay': 1e-4, 'weight_decouple': False, 'use_stable_weight_decay': True}, 50),
+    (Adai, {'lr': 1e-1, 'weight_decay': 1e-4, 'weight_decouple': True, 'use_stable_weight_decay': True}, 50),
     (AdamP, {'lr': 5e-1, 'weight_decay': 1e-3}, 10),
     (AdamP, {'lr': 5e-1, 'weight_decay': 1e-3, 'use_gc': True}, 10),
     (AdamP, {'lr': 5e-1, 'weight_decay': 1e-3, 'nesterov': True}, 10),
@@ -156,18 +156,18 @@
     (Lamb, {'lr': 1e-1, 'weight_decay': 1e-3, 'pre_norm': True, 'eps': 1e-8}, 100),
     (LARS, {'lr': 1e-1, 'weight_decay': 1e-3}, 100),
     (LARS, {'lr': 1e-1, 'nesterov': True}, 100),
-    (RaLamb, {'lr': 1e-1, 'weight_decay': 1e-3}, 100),
-    (RaLamb, {'lr': 1e-2, 'weight_decay': 1e-3, 'pre_norm': True}, 100),
-    (RaLamb, {'lr': 1e-2, 'weight_decay': 1e-3, 'degenerated_to_sgd': True}, 100),
-    (MADGRAD, {'lr': 1e-2, 'weight_decay': 1e-3}, 100),
-    (MADGRAD, {'lr': 1e-2, 'weight_decay': 1e-3, 'eps': 0.0}, 100),
-    (MADGRAD, {'lr': 1e-2, 'weight_decay': 1e-3, 'momentum': 0.0}, 100),
-    (MADGRAD, {'lr': 1e-2, 'weight_decay': 1e-3, 'decouple_decay': True}, 100),
-    (RAdam, {'lr': 1e-1, 'weight_decay': 1e-3}, 100),
-    (RAdam, {'lr': 1e-1, 'weight_decay': 1e-3, 'degenerated_to_sgd': True}, 100),
+    (RaLamb, {'lr': 1e-1, 'weight_decay': 1e-3}, 50),
+    (RaLamb, {'lr': 1e-1, 'weight_decay': 1e-3, 'pre_norm': True}, 50),
+    (RaLamb, {'lr': 1e-1, 'weight_decay': 1e-3, 'degenerated_to_sgd': True}, 50),
+    (MADGRAD, {'lr': 1e-2, 'weight_decay': 1e-3}, 50),
+    (MADGRAD, {'lr': 1e-2, 'weight_decay': 1e-3, 'eps': 0.0}, 50),
+    (MADGRAD, {'lr': 1e-2, 'weight_decay': 1e-3, 'momentum': 0.0}, 50),
+    (MADGRAD, {'lr': 1e-2, 'weight_decay': 1e-3, 'decouple_decay': True}, 50),
+    (RAdam, {'lr': 1e-1, 'weight_decay': 1e-3}, 50),
+    (RAdam, {'lr': 1e-1, 'weight_decay': 1e-3, 'degenerated_to_sgd': True}, 50),
     (SGDP, {'lr': 5e-2, 'weight_decay': 1e-4}, 50),
     (SGDP, {'lr': 5e-2, 'weight_decay': 1e-4, 'nesterov': True}, 50),
-    (Ranger, {'lr': 5e-1, 'weight_decay': 1e-3}, 200),
+    (Ranger, {'lr': 5e-1, 'weight_decay': 1e-3}, 150),
     (Ranger21, {'lr': 5e-1, 'weight_decay': 1e-3, 'num_iterations': 500}, 200),
     (Shampoo, {'lr': 5e-1, 'weight_decay': 1e-3, 'momentum': 0.1}, 10),
     (ScalableShampoo, {'lr': 1e-1, 'weight_decay': 1e-3, 'graft_type': 0}, 10),
@@ -188,12 +188,12 @@
     (AdaPNM, {'lr': 3e-1, 'weight_decay': 1e-3, 'amsgrad': False}, 50),
     (Nero, {'lr': 5e-1}, 50),
     (Nero, {'lr': 5e-1, 'constraints': False}, 50),
-    (Adan, {'lr': 5e-1}, 100),
-    (Adan, {'lr': 5e-1, 'max_grad_norm': 1.0}, 100),
-    (Adan, {'lr': 5e-1, 'weight_decay': 1e-3, 'use_gc': True}, 150),
-    (Adan, {'lr': 1e-1, 'weight_decay': 1e-3, 'use_gc': True, 'weight_decouple': True}, 100),
-    (DAdaptAdaGrad, {'lr': 1.0, 'weight_decay': 1e-2}, 150),
-    (DAdaptAdaGrad, {'lr': 1.0, 'weight_decay': 1e-2, 'momentum': 0.1}, 150),
+    (Adan, {'lr': 5e-1}, 75),
+    (Adan, {'lr': 5e-1, 'max_grad_norm': 1.0}, 75),
+    (Adan, {'lr': 5e-1, 'weight_decay': 1e-3, 'use_gc': True}, 100),
+    (Adan, {'lr': 5e-1, 'weight_decay': 1e-3, 'use_gc': True, 'weight_decouple': True}, 75),
+    (DAdaptAdaGrad, {'lr': 1.0, 'weight_decay': 1e-3}, 150),
+    (DAdaptAdaGrad, {'lr': 1.0, 'weight_decay': 1e-3, 'momentum': 0.1}, 150),
     (DAdaptAdam, {'lr': 1.0, 'weight_decay': 1e-2}, 50),
     (DAdaptAdam, {'lr': 1.0, 'weight_decay': 1e-2, 'weight_decouple': True}, 50),
     (DAdaptSGD, {'lr': 1.0, 'weight_decay': 1e-2}, 30),