Merge pull request #163 from kozistr/refactor/codes

kozistr · web-flow · commit eb69975ad8ee · 2023-05-08T13:20:03.000+09:00
[Refactor] codes
diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
@@ -20,6 +20,7 @@ jobs:
         with:
           tag_name: ${{ github.ref }}
           release_name: pytorch-optimizer ${{ github.ref }}
+          body_path: docs/changelog/${{ github.ref }}.md
           draft: false
           prerelease: false
   deploy:
diff --git a/docs/changelogs/v2.7.0.md b/docs/changelogs/v2.7.0.md
@@ -0,0 +1,41 @@
+## Change Log
+
+### Feature
+
+* Implement `AdaNorm` optimizer (#133)
+  * [AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs](https://arxiv.org/abs/2210.06364)
+* Implement `RotoGrad` optimizer (#124, #134)
+  * [RotoGrad: Gradient Homogenization in Multitask Learning](https://arxiv.org/abs/2103.02631)
+* Implement `D-Adapt Adan` optimizer (#134)
+* Support `AdaNorm` variant (#133, #134) 
+  * AdaBelief
+  * AdamP
+  * AdamS
+  * AdaPNM
+  * diffGrad
+  * Lamb
+  * RAdam
+  * Ranger
+  * Adan
+* Support `AMSGrad` variant (#133, #134)
+  * diffGrad
+  * AdaFactor
+* Support `degenerated_to_sgd` (#133)
+  * Ranger
+  * Lamb
+  
+### Refactor
+
+* Rename `adamd_debias_term` to `adam_debias` (#133)
+* Merge the rectified version with the original (#133)
+  * diffRGrad + diffGrad -> diffGrad 
+  * RaLamb + Lamb -> Lamb
+  * now you can simply use with `rectify=True`
+ 
+### Bug
+
+* Fix `previous_grad` deepcopy issue in Adan optimizer (#134)
+
+### Diff
+
+[2.6.1...2.7.0](https://github.com/kozistr/pytorch_optimizer/compare/v2.6.1...v2.7.0)
diff --git a/docs/changelogs/v2.8.0.md b/docs/changelogs/v2.8.0.md
@@ -0,0 +1,37 @@
+## Change Log
+
+### Feature
+
+* Implement A2Grad optimizer (#136)
+  * [Optimal Adaptive and Accelerated Stochastic Gradient Descent](https://arxiv.org/abs/1810.00553)
+* Implement Accelerated SGD optimizer (#137)
+  * [Accelerating Stochastic Gradient Descent For Least Squares Regression](https://arxiv.org/abs/1704.08227)
+* Implement Adaptive SGD optimizer (#139)
+  * [Adaptive Gradient Descent without Descent](https://arxiv.org/abs/1910.09529)
+* Implement SGDW optimizer (#139)
+  * [Decoupled Weight Decay Regularization](https://arxiv.org/abs/1711.05101)
+* Implement Yogi optimizer (#140)
+  * [Adaptive Methods for Nonconvex Optimization](https://papers.nips.cc/paper_files/paper/2018/hash/90365351ccc7437a1309dc64e4db32a3-Abstract.html)
+* Implement SWATS optimizer (#141)
+  * [Improving Generalization Performance by Switching from Adam to SGD](https://arxiv.org/abs/1712.07628) 
+* Implement Fromage optimizer (#142)
+  * [On the distance between two neural networks and the stability of learning](https://arxiv.org/abs/2002.03432) 
+* Implement MSVAG optimizer (#143)
+  * [Dissecting Adam: The Sign, Magnitude and Variance of Stochastic Gradients](https://arxiv.org/abs/1705.07774) 
+* Implement AdaMod optimizer (#144)
+  * [An Adaptive and Momental Bound Method for Stochastic Learning](https://arxiv.org/abs/1910.12249) 
+* Implement AggMo optimizer (#145)
+  * [Aggregated Momentum: Stability Through Passive Damping](https://arxiv.org/abs/1804.00325)
+* Implement QHAdam, QHM optimizers (#146)
+  * [Quasi-hyperbolic momentum and Adam for deep learning](https://arxiv.org/abs/1810.06801)
+* Implement PID optimizer (#147)
+  * [A PID Controller Approach for Stochastic Optimization of Deep Networks](http://www4.comp.polyu.edu.hk/~cslzhang/paper/CVPR18_PID.pdf) 
+
+### Bug
+
+* Fix `update` in Lion optimizer (#135)
+* Fix `momentum_buffer` in SGDP optimizer (#139)
+
+### Diff
+
+[2.7.0...2.8.0](https://github.com/kozistr/pytorch_optimizer/compare/v2.7.0...v2.8.0)
diff --git a/docs/changelogs/v2.9.0.md b/docs/changelogs/v2.9.0.md
@@ -0,0 +1,36 @@
+## Change Log
+
+### Feature
+
+* Implement AdaMax optimizer (#148)
+  * A variant of Adam based on the infinity norm
+* Implement Gravity optimizer (#151)
+  * [a Kinematic Approach on Optimization in Deep Learning](https://arxiv.org/abs/2101.09192)
+* Implement AdaSmooth optimizer (#153)
+  * [An Adaptive Learning Rate Method based on Effective Ratio](https://arxiv.org/abs/2204.00825v1)
+* Implement SRMM optimizer (#154)
+  * [Stochastic regularized majorization-minimization with weakly convex and multi-convex surrogates](https://arxiv.org/abs/2201.01652)
+* Implement AvaGrad optimizer (#155) 
+  * [Domain-independent Dominance of Adaptive Methods](https://arxiv.org/abs/1912.01823)
+* Implement AdaShift optimizer (#157) 
+  * [Decorrelation and Convergence of Adaptive Learning Rate Methods](https://arxiv.org/abs/1810.00143v4)
+* Upgrade to D-Adaptation v3 (#158, #159)
+* Implement AdaDelta optimizer (#160)
+  * [An Adaptive Learning Rate Method](https://arxiv.org/abs/1212.5701v1) 
+
+### Docs
+
+* Fix readthedocs build issue (#156)
+* Move citations into table (#156) 
+
+### Refactor
+
+* Refactor validation logic (#149, #150)
+* Rename `amsbound`, `amsgrad` terms into `ams_bound` (#149)
+* Return gradient instead of the parameter, AGC. (#149)
+* Refactor duplicates (e.g. rectified step size, AMSBound, AdamD, AdaNorm, weight decay) into re-usable functions (#150)
+* Move `pytorch_optimizer.experimental` under `pytorch_optimizer.*.experimental`
+
+### Diff
+
+[2.8.0...2.9.0](https://github.com/kozistr/pytorch_optimizer/compare/v2.8.0...v2.9.0)
diff --git a/pytorch_optimizer/optimizer/adai.py b/pytorch_optimizer/optimizer/adai.py
@@ -103,7 +103,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 state['step'] += 1
 
                 if self.use_gc:
-                    grad = centralize_gradient(grad, gc_conv_only=False)
+                    centralize_gradient(grad, gc_conv_only=False)
 
                 bias_correction2: float = 1.0 - beta2 ** state['step']
 
diff --git a/pytorch_optimizer/optimizer/adamp.py b/pytorch_optimizer/optimizer/adamp.py
@@ -122,7 +122,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                         state['exp_grad_norm'] = torch.zeros((1,), dtype=grad.dtype, device=grad.device)
 
                 if self.use_gc:
-                    grad = centralize_gradient(grad, gc_conv_only=False)
+                    centralize_gradient(grad, gc_conv_only=False)
 
                 s_grad = self.get_adanorm_gradient(
                     grad=grad,
diff --git a/pytorch_optimizer/optimizer/adan.py b/pytorch_optimizer/optimizer/adan.py
@@ -130,7 +130,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 grad.mul_(clip_global_grad_norm)
 
                 if self.use_gc:
-                    grad = centralize_gradient(grad, gc_conv_only=False)
+                    centralize_gradient(grad, gc_conv_only=False)
 
                 grad_diff = state['previous_grad']
                 grad_diff.add_(grad)
diff --git a/pytorch_optimizer/optimizer/gc.py b/pytorch_optimizer/optimizer/gc.py
@@ -1,14 +1,12 @@
 import torch
 
 
-def centralize_gradient(x: torch.Tensor, gc_conv_only: bool = False) -> torch.Tensor:
+def centralize_gradient(x: torch.Tensor, gc_conv_only: bool = False):
     r"""Gradient Centralization (GC).
 
     :param x: torch.Tensor. gradient.
     :param gc_conv_only: bool. 'False' for both conv & fc layers.
-    :return: torch.Tensor. centralized gradient.
     """
     size: int = x.dim()
     if (gc_conv_only and size > 3) or (not gc_conv_only and size > 1):
         x.add_(-x.mean(dim=tuple(range(1, size)), keepdim=True))
-    return x
diff --git a/pytorch_optimizer/optimizer/lion.py b/pytorch_optimizer/optimizer/lion.py
@@ -90,7 +90,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                         state['exp_grad_norm'] = torch.zeros((1,), dtype=grad.dtype, device=grad.device)
 
                 if self.use_gc:
-                    grad = centralize_gradient(grad, gc_conv_only=False)
+                    centralize_gradient(grad, gc_conv_only=False)
 
                 self.apply_weight_decay(
                     p=p,
diff --git a/pytorch_optimizer/optimizer/ranger.py b/pytorch_optimizer/optimizer/ranger.py
@@ -140,7 +140,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                         state['exp_grad_norm'] = torch.zeros((1,), dtype=grad.dtype, device=grad.device)
 
                 if self.use_gc and grad.dim() > self.gc_gradient_threshold:
-                    grad = centralize_gradient(grad, gc_conv_only=False)
+                    centralize_gradient(grad, gc_conv_only=False)
 
                 self.apply_weight_decay(
                     p=p,
diff --git a/pytorch_optimizer/optimizer/ranger21.py b/pytorch_optimizer/optimizer/ranger21.py
@@ -96,12 +96,9 @@ def __init__(  # pylint: disable=R0913
         self.lookahead_blending_alpha = lookahead_blending_alpha
         self.norm_loss_factor = norm_loss_factor
 
-        # lookahead
         self.lookahead_step: int = 0
-
-        # learning rate
-        self.starting_lr = lr
-        self.current_lr = lr
+        self.starting_lr: float = lr
+        self.current_lr: float = lr
 
         defaults: DEFAULTS = {
             'lr': lr,
@@ -114,7 +111,6 @@ def __init__(  # pylint: disable=R0913
         }
         super().__init__(params, defaults)
 
-        # warmup iterations
         self.num_warm_up_iterations: int = (
             self.build_warm_up_iterations(num_iterations, betas[1])
             if num_warm_up_iterations is None
@@ -140,8 +136,7 @@ def reset(self):
 
                 state['grad_ma'] = torch.zeros_like(p)
                 state['variance_ma'] = torch.zeros_like(p)
-                state['lookahead_params'] = torch.empty_like(p)
-                state['lookahead_params'].copy_(p)
+                state['lookahead_params'] = p.clone()
                 state['neg_grad_ma'] = torch.zeros_like(p)
                 state['max_variance_ma'] = torch.zeros_like(p)
 
@@ -162,28 +157,21 @@ def warm_up_dampening(self, lr: float, step: int) -> float:
 
         warm_up_current_pct: float = min(1.0, (step / self.num_warm_up_iterations))
 
-        new_lr: float = lr * warm_up_current_pct
-        self.current_lr = new_lr
+        self.current_lr = lr * warm_up_current_pct
 
-        return new_lr
+        return self.current_lr
 
     def warm_down(self, lr: float, iteration: int) -> float:
         if iteration < self.start_warm_down:
             return lr
 
         # start iteration from 1, not 0
-        warm_down_iteration: int = (iteration + 1) - self.start_warm_down
-        warm_down_iteration = max(warm_down_iteration, 1)
-
-        warm_down_pct: float = warm_down_iteration / (self.num_warm_down_iterations + 1)
-        warm_down_pct = min(warm_down_pct, 1.0)
-
-        new_lr: float = self.starting_lr - self.warm_down_lr_delta * warm_down_pct
-        new_lr = max(new_lr, self.min_lr)
+        warm_down_iteration: int = max((iteration + 1) - self.start_warm_down, 1)
+        warm_down_pct: float = min(warm_down_iteration / (self.num_warm_down_iterations + 1), 1.0)
 
-        self.current_lr = new_lr
+        self.current_lr = max(self.starting_lr - self.warm_down_lr_delta * warm_down_pct, self.min_lr)
 
-        return new_lr
+        return self.current_lr
 
     @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
@@ -220,17 +208,16 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 if len(state) == 0:
                     state['grad_ma'] = torch.zeros_like(p)
                     state['variance_ma'] = torch.zeros_like(p)
-                    state['lookahead_params'] = torch.empty_like(p)
-                    state['lookahead_params'].copy_(p)
+                    state['lookahead_params'] = p.clone()
                     state['neg_grad_ma'] = torch.zeros_like(p)
                     state['max_variance_ma'] = torch.zeros_like(p)
 
                 # Apply Adaptive Gradient Clipping (AGC)
                 grad.copy_(agc(p, grad, self.agc_eps, self.agc_clipping_value))
 
                 # Apply gradient centralization & normalization
-                grad = centralize_gradient(grad, gc_conv_only=False)
-                grad = normalize_gradient(grad)
+                centralize_gradient(grad, gc_conv_only=False)
+                normalize_gradient(grad)
 
                 # second moment estimation
                 # using positive-negative momentum and bias correction
@@ -245,7 +232,6 @@ def step(self, closure: CLOSURE = None) -> LOSS:
 
         # Phase 2 - Apply weight decay and step
         for group in self.param_groups:
-            lr: float = group['lr']
             beta1, beta2 = group['betas']
 
             bias_correction1: float = 1.0 - beta1 ** group['step']  # fmt: skip
@@ -254,7 +240,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
             noise_norm: float = math.sqrt((1.0 + beta2) ** 2 + beta2 ** 2)  # fmt: skip
 
             # warm up & down
-            lr = self.warm_up_dampening(lr, group['step'])
+            lr: float = self.warm_up_dampening(group['lr'], group['step'])
             lr = self.warm_down(lr, group['step'])
 
             for p in group['params']:
@@ -287,16 +273,16 @@ def step(self, closure: CLOSURE = None) -> LOSS:
 
                 de_nom = (variance_ma.sqrt() / bias_correction2_sq).add_(group['eps'])
 
+                if self.use_softplus:
+                    de_nom = f.softplus(de_nom, beta=self.beta_softplus)
+
                 grad = p.grad
-                grad = centralize_gradient(grad, gc_conv_only=False)
-                grad = normalize_gradient(grad)
+                centralize_gradient(grad, gc_conv_only=False)
+                normalize_gradient(grad)
 
                 grad_ma.mul_(beta1 ** 2).add_(grad, alpha=1.0 - beta1 ** 2)  # fmt: skip
 
-                step_size: float = lr if group['adam_debias'] else lr / bias_correction1
-
-                if self.use_softplus:
-                    de_nom = f.softplus(de_nom, beta=self.beta_softplus)
+                step_size: float = self.apply_adam_debias(group['adam_debias'], lr, bias_correction1)
 
                 pn_momentum = grad_ma.mul(1.0 + 1.0).add(neg_grad_ma, alpha=-1.0).mul(1.0 / noise_norm)
                 p.addcdiv_(pn_momentum, de_nom, value=-step_size)
diff --git a/pytorch_optimizer/optimizer/shampoo.py b/pytorch_optimizer/optimizer/shampoo.py
@@ -45,14 +45,14 @@ def __init__(
         self.validate_non_negative(matrix_eps, 'matrix_eps')
 
         self.preconditioning_compute_steps = preconditioning_compute_steps
-        self.matrix_eps = matrix_eps
 
         defaults: DEFAULTS = {
             'lr': lr,
             'momentum': momentum,
             'weight_decay': weight_decay,
             'weight_decouple': weight_decouple,
             'fixed_decay': fixed_decay,
+            'matrix_eps': matrix_eps,
         }
         super().__init__(params, defaults)
 
@@ -93,7 +93,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                         state['momentum_buffer'] = grad.clone()
 
                     for dim_id, dim in enumerate(grad.size()):
-                        state[f'pre_cond_{dim_id}'] = self.matrix_eps * torch.eye(dim, out=grad.new(dim, dim))
+                        state[f'pre_cond_{dim_id}'] = group['matrix_eps'] * torch.eye(dim, out=grad.new(dim, dim))
                         state[f'inv_pre_cond_{dim_id}'] = grad.new(dim, dim).zero_()
 
                 if momentum > 0.0:
diff --git a/pytorch_optimizer/optimizer/utils.py b/pytorch_optimizer/optimizer/utils.py
@@ -27,13 +27,12 @@ def to_real(x: torch.Tensor) -> torch.Tensor:
     return x.real if torch.is_complex(x) else x
 
 
-def normalize_gradient(x: torch.Tensor, use_channels: bool = False, epsilon: float = 1e-8) -> torch.Tensor:
+def normalize_gradient(x: torch.Tensor, use_channels: bool = False, epsilon: float = 1e-8):
     r"""Normalize gradient with stddev.
 
     :param x: torch.Tensor. gradient.
     :param use_channels: bool. channel-wise normalization.
     :param epsilon: float. eps.
-    :return: torch.Tensor. normalized gradient.
     """
     size: int = x.dim()
     if size > 1 and use_channels:
@@ -42,7 +41,6 @@ def normalize_gradient(x: torch.Tensor, use_channels: bool = False, epsilon: flo
     elif torch.numel(x) > 2:
         s = x.std().add_(epsilon)
         x.div_(s)
-    return x
 
 
 def flatten_grad(grads: List[torch.Tensor]) -> torch.Tensor:
diff --git a/tests/constants.py b/tests/constants.py
@@ -382,12 +382,10 @@
 ]
 ADAMD_SUPPORTED_OPTIMIZERS: List[Tuple[Any, Dict[str, Union[float, bool, int]], int]] = [
     (AdaBelief, {'lr': 1e1, 'weight_decay': 1e-3, 'adam_debias': True}, 5),
-    (AdaBelief, {'lr': 1e1, 'weight_decay': 1e-3, 'rectify': True, 'adam_debias': True}, 5),
     (AdaBound, {'lr': 1e0, 'gamma': 0.1, 'weight_decay': 1e-3, 'adam_debias': True}, 35),
     (AdamP, {'lr': 1e0, 'weight_decay': 1e-3, 'adam_debias': True}, 5),
     (AdamS, {'lr': 2e1, 'weight_decay': 1e-3, 'adam_debias': True}, 5),
-    (DiffGrad, {'lr': 1e0, 'weight_decay': 1e-3, 'adam_debias': True}, 20),
-    (DiffGrad, {'lr': 5e0, 'weight_decay': 1e-3, 'rectify': True, 'adam_debias': True}, 20),
+    (DiffGrad, {'lr': 2e0, 'weight_decay': 1e-3, 'rectify': True, 'adam_debias': True}, 15),
     (Lamb, {'lr': 1e0, 'weight_decay': 1e-3, 'rectify': True, 'adam_debias': True}, 30),
     (RAdam, {'lr': 1e0, 'weight_decay': 1e-3, 'adam_debias': True}, 25),
     (Ranger, {'lr': 5e0, 'weight_decay': 1e-3, 'adam_debias': True}, 50),
diff --git a/tests/test_optimizers.py b/tests/test_optimizers.py
diff --git a/tests/test_utils.py b/tests/test_utils.py