Merge pull request #183 from kozistr/feature/prodigy-optimizer

kozistr · web-flow · commit baa65c4cd7a6 · 2023-06-13T15:36:43.000+09:00
[Feature] Implement Prodigy optimizer
diff --git a/README.rst b/README.rst
@@ -16,7 +16,7 @@ pytorch-optimizer
 
 | **pytorch-optimizer** is optimizer & lr scheduler collections in PyTorch.
 | I just re-implemented (speed & memory tweaks, plug-ins) the algorithm while based on the original paper. Also, It includes useful and practical optimization ideas.
-| Currently, 54 optimizers, 6 lr schedulers are supported!
+| Currently, 55 optimizers, 6 lr schedulers are supported!
 |
 | Highly inspired by `pytorch-optimizer <https://github.com/jettify/pytorch-optimizer>`__.
 
@@ -216,6 +216,8 @@ You can check the supported optimizers with below code.
 +--------------+---------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+----------------------------------------------------------------------------------------------------------------------+
 | Sophia       | *A Scalable Stochastic Second-order Optimizer for Language Model Pre-training*                    | `github <https://github.com/Liuhong99/Sophia>`__                                  | `https://arxiv.org/abs/2305.14342 <https://arxiv.org/abs/2305.14342>`__                       | `cite <https://github.com/Liuhong99/Sophia>`__                                                                       |
 +--------------+---------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+----------------------------------------------------------------------------------------------------------------------+
+| Prodigy      | *An Expeditiously Adaptive Parameter-Free Learner*                                                | `github <https://github.com/konstmish/prodigy>`__                                 | `https://arxiv.org/abs/2306.06101 <https://arxiv.org/abs/2306.06101>`__                       | `cite <https://github.com/konstmish/prodigy#how-to-cite>`__                                                          |
++--------------+---------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+----------------------------------------------------------------------------------------------------------------------+
 
 Supported LR Scheduler
 ----------------------
diff --git a/docs/changelogs/v2.10.1.md b/docs/changelogs/v2.10.1.md
@@ -1,5 +1,10 @@
 ## Change Log
 
+### Feature
+
+* Implement Prodigy optimizer (#183)
+  * [An Expeditiously Adaptive Parameter-Free Learner](https://arxiv.org/abs/2306.06101) 
+
 ### Fix
 
 * `perturb` isn't multiplied by `-step_size` in SWATS optimizer. (#179)
diff --git a/docs/optimizer_api.rst b/docs/optimizer_api.rst
@@ -488,3 +488,11 @@ SophiaH
 
 .. autoclass:: pytorch_optimizer.SophiaH
     :members:
+
+.. _Prodigy:
+
+Prodigy
+-------
+
+.. autoclass:: pytorch_optimizer.Prodigy
+    :members:
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "pytorch_optimizer"
-version = "2.10.0"
+version = "2.10.1"
 description = "optimizer & lr scheduler collections in PyTorch"
 license = "Apache-2.0"
 authors = ["kozistr <kozistr@gmail.com>"]
@@ -9,7 +9,14 @@ readme = "README.rst"
 homepage = "https://github.com/kozistr/pytorch_optimizer"
 repository = "https://github.com/kozistr/pytorch_optimizer"
 documentation = "https://pytorch-optimizers.readthedocs.io/en/latest"
-keywords = ["pytorch", "deep-learning", "optimizer", "lr scheduler", "A2Grad", "ASGD", "AccSGD", "AdaBelief", "AdaBound", "AdaDelta", "AdaFactor", "AdaMax", "AdaMod", "AdaNorm", "AdaPNM", "AdaSmooth", "AdaHessian", "Adai", "AdamP", "AdamS", "Adan", "AggMo", "AliG", "Amos", "Apollo", "AvaGrad", "DAdaptAdaGrad", "DAdaptAdam", "DAdaptAdan", "DAdaptSGD", "DiffGrad", "Fromage", "Gravity", "LARS", "Lamb", "Lion", "MADGRAD", "MSVAG", "Nero", "NovoGrad", "PID", "PNM", "QHAdam", "QHM", "RAdam", "Ranger", "Ranger21", "SGDP", "SGDW", "SignSGD", "SM3", "SopihaH", "SRMM", "SWATS", "ScalableShampoo", "Shampoo", "Yogi", "SAM", "GSAM", "PCGrad", "RotoGrad"]
+keywords = [
+    "pytorch", "deep-learning", "optimizer", "lr scheduler", "A2Grad", "ASGD", "AccSGD", "AdaBelief", "AdaBound",
+    "AdaDelta", "AdaFactor", "AdaMax", "AdaMod", "AdaNorm", "AdaPNM", "AdaSmooth", "AdaHessian", "Adai", "AdamP",
+    "AdamS", "Adan", "AggMo", "AliG", "Amos", "Apollo", "AvaGrad", "DAdaptAdaGrad", "DAdaptAdam", "DAdaptAdan",
+    "DAdaptSGD", "DiffGrad", "Fromage", "Gravity", "LARS", "Lamb", "Lion", "MADGRAD", "MSVAG", "Nero", "NovoGrad",
+    "PID", "PNM", "Prodigy", "QHAdam", "QHM", "RAdam", "Ranger", "Ranger21", "SGDP", "SGDW", "SignSGD", "SM3",
+    "SopihaH", "SRMM", "SWATS", "ScalableShampoo", "Shampoo", "Yogi", "SAM", "GSAM", "PCGrad", "RotoGrad",
+]
 classifiers = [
     "License :: OSI Approved :: Apache Software License",
     "Development Status :: 5 - Production/Stable",
diff --git a/pytorch_optimizer/__init__.py b/pytorch_optimizer/__init__.py
@@ -56,6 +56,7 @@
 from pytorch_optimizer.optimizer.pcgrad import PCGrad
 from pytorch_optimizer.optimizer.pid import PID
 from pytorch_optimizer.optimizer.pnm import PNM
+from pytorch_optimizer.optimizer.prodigy import Prodigy
 from pytorch_optimizer.optimizer.qhadam import QHAdam
 from pytorch_optimizer.optimizer.qhm import QHM
 from pytorch_optimizer.optimizer.radam import RAdam
@@ -152,6 +153,7 @@
     AdaHessian,
     SophiaH,
     SignSGD,
+    Prodigy,
 ]
 OPTIMIZERS: Dict[str, OPTIMIZER] = {str(optimizer.__name__).lower(): optimizer for optimizer in OPTIMIZER_LIST}
 
diff --git a/pytorch_optimizer/base/optimizer.py b/pytorch_optimizer/base/optimizer.py
@@ -232,7 +232,7 @@ def validate_non_negative(x: float, name: str):
 
     @staticmethod
     def validate_positive(x: Union[float, int], name: str):
-        if x < 1:
+        if x <= 0:
             raise ValueError(f'[-] {name} must be positive')
 
     @staticmethod
@@ -265,7 +265,8 @@ def validate_betas(self, betas: BETAS):
         if len(betas) < 3:
             return
 
-        self.validate_range(betas[2], 'beta3', 0.0, 1.0, range_type='[]')
+        if betas[2] is not None:
+            self.validate_range(betas[2], 'beta3', 0.0, 1.0, range_type='[]')
 
     def validate_nus(self, nus: Union[float, Tuple[float, float]]):
         if isinstance(nus, float):
diff --git a/pytorch_optimizer/optimizer/adasmooth.py b/pytorch_optimizer/optimizer/adasmooth.py
@@ -92,7 +92,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
 
                 self.apply_weight_decay(
                     p=p,
-                    grad=p.grad,
+                    grad=grad,
                     lr=group['lr'],
                     weight_decay=group['weight_decay'],
                     weight_decouple=group['weight_decouple'],
diff --git a/pytorch_optimizer/optimizer/lars.py b/pytorch_optimizer/optimizer/lars.py
@@ -31,6 +31,7 @@ def __init__(
         self.validate_learning_rate(lr)
         self.validate_non_negative(weight_decay, 'weight_decay')
         self.validate_range(momentum, 'momentum', 0.0, 1.0)
+        self.validate_range(dampening, 'dampening', 0.0, 1.0)
         self.validate_non_negative(trust_coefficient, 'trust_coefficient')
 
         defaults: DEFAULTS = {
diff --git a/pytorch_optimizer/optimizer/prodigy.py b/pytorch_optimizer/optimizer/prodigy.py
@@ -0,0 +1,186 @@
+import math
+from typing import Optional
+
+import torch
+from torch.optim.optimizer import Optimizer
+
+from pytorch_optimizer.base.exception import NoSparseGradientError
+from pytorch_optimizer.base.optimizer import BaseOptimizer
+from pytorch_optimizer.base.types import BETAS, CLOSURE, DEFAULTS, LOSS, PARAMETERS
+
+
+class Prodigy(Optimizer, BaseOptimizer):
+    r"""An Expeditiously Adaptive Parameter-Free Learner.
+
+        Leave LR set to 1 unless you encounter instability.
+
+    :param params: PARAMETERS. iterable of parameters to optimize or dicts defining parameter groups.
+    :param lr: float. learning rate.
+    :param betas: BETAS. betas.
+    :param beta3: float. coefficients for computing the Prodidy step-size using running averages. If set to None,
+        uses the value of square root of beta2.
+    :param d0: float. initial D estimate for D-adaptation (default 1e-6). Rarely needs changing.
+    :param d_coef: float. Coefficient in the expression for the estimate of d.
+    :param growth_rate: float. prevent the D estimate from growing faster than this multiplicative rate.
+    :param weight_decay: float. weight decay (L2 penalty).
+    :param weight_decouple: bool. use AdamW style weight decay.
+    :param fixed_decay: bool. fix weight decay.
+    :param bias_correction: bool. turn on Adam's bias correction.
+    :param safeguard_warmup: bool. remove lr from the denominator of D estimate to avoid issues during warm-up stage.
+    :param eps: float. term added to the denominator to improve numerical stability.
+    """
+
+    def __init__(
+        self,
+        params: PARAMETERS,
+        lr: float = 1.0,
+        betas: BETAS = (0.9, 0.999),
+        beta3: Optional[float] = None,
+        d0: float = 1e-6,
+        d_coef: float = 1.0,
+        growth_rate: float = float('inf'),
+        weight_decay: float = 0.0,
+        weight_decouple: bool = True,
+        fixed_decay: bool = False,
+        bias_correction: bool = False,
+        safeguard_warmup: bool = False,
+        eps: float = 1e-8,
+    ):
+        self.validate_learning_rate(lr)
+        self.validate_betas((*betas, beta3))
+        self.validate_non_negative(weight_decay, 'weight_decay')
+        self.validate_non_negative(eps, 'eps')
+
+        defaults: DEFAULTS = {
+            'lr': lr,
+            'betas': betas,
+            'beta3': beta3,
+            'd': d0,
+            'd0': d0,
+            'd_max': d0,
+            'd_coef': d_coef,
+            'growth_rate': growth_rate,
+            'weight_decay': weight_decay,
+            'weight_decouple': weight_decouple,
+            'fixed_decay': fixed_decay,
+            'bias_correction': bias_correction,
+            'safeguard_warmup': safeguard_warmup,
+            'step': 1,
+            'eps': eps,
+        }
+        super().__init__(params, defaults)
+
+    def __str__(self) -> str:
+        return 'Prodigy'
+
+    @torch.no_grad()
+    def reset(self):
+        for group in self.param_groups:
+            group['step'] = 1
+            for p in group['params']:
+                if p.grad is None:
+                    continue
+
+                state = self.state[p]
+
+                state['s'] = torch.zeros_like(p)
+                state['exp_avg'] = torch.zeros_like(p)
+                state['exp_avg_sq'] = torch.zeros_like(p)
+
+    @torch.no_grad()
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        loss: LOSS = None
+        if closure is not None:
+            with torch.enable_grad():
+                loss = closure()
+
+        group = self.param_groups[0]
+        device = group['params'][0].device
+
+        d_de_nom = torch.tensor([0.0], device=device)
+
+        beta1, beta2 = group['betas']
+        beta3 = group['beta3'] if group['beta3'] is not None else math.sqrt(beta2)
+
+        bias_correction1: float = 1.0 - beta1 ** group['step']
+        bias_correction2_sq: float = math.sqrt(1.0 - beta2 ** group['step'])
+        bias_correction: float = (bias_correction1 / bias_correction2_sq) if group['bias_correction'] else 1.0
+
+        d, d0 = group['d'], group['d0']
+        d_lr: float = d * group['lr'] / bias_correction
+
+        if 'd_numerator' not in group:
+            group['d_numerator'] = torch.tensor([0.0], device=device)
+
+        d_numerator = group['d_numerator']
+        d_numerator.mul_(beta3)
+
+        for group in self.param_groups:
+            for p in group['params']:
+                if p.grad is None:
+                    continue
+
+                grad = p.grad
+                if grad.is_sparse:
+                    raise NoSparseGradientError(str(self))
+
+                state = self.state[p]
+                if len(state) == 0:
+                    state['s'] = torch.zeros_like(p)
+                    state['p0'] = p.clone()
+                    state['exp_avg'] = torch.zeros_like(p)
+                    state['exp_avg_sq'] = torch.zeros_like(p)
+
+                p0, exp_avg, exp_avg_sq = state['p0'], state['exp_avg'], state['exp_avg_sq']
+
+                d_numerator.add_(torch.dot(grad.flatten(), (p0 - p).flatten()), alpha=(d / d0) * d_lr)
+
+                exp_avg.mul_(beta1).add_(grad, alpha=d * (1.0 - beta1))
+                exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=d * d * (1.0 - beta2))
+
+                s = state['s']
+                s.mul_(beta3).add_(grad, alpha=(d / d0) * (d if group['safeguard_warmup'] else d_lr))
+
+                d_de_nom.add_(s.abs().sum())
+
+        if d_de_nom == 0:
+            return loss
+
+        d_hat = (group['d_coef'] * d_numerator / d_de_nom).item()
+        if d == group['d0']:
+            d = max(d, d_hat)
+
+        d_max = max(group['d_max'], d_hat)
+        d = min(d_max, d * group['growth_rate'])
+
+        for group in self.param_groups:
+            group['step'] += 1
+
+            group['d_numerator'] = d_numerator
+            group['d_de_nom'] = d_de_nom
+            group['d'] = d
+            group['d_max'] = d_max
+            group['d_hat'] = d_hat
+
+            for p in group['params']:
+                if p.grad is None:
+                    continue
+
+                state = self.state[p]
+
+                exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
+
+                de_nom = exp_avg_sq.sqrt().add_(d * group['eps'])
+
+                self.apply_weight_decay(
+                    p,
+                    p.grad,
+                    lr=d_lr,
+                    weight_decay=group['weight_decay'],
+                    weight_decouple=group['weight_decouple'],
+                    fixed_decay=group['fixed_decay'],
+                )
+
+                p.addcdiv_(exp_avg, de_nom, value=-d_lr)
+
+        return loss
diff --git a/pytorch_optimizer/optimizer/ranger.py b/pytorch_optimizer/optimizer/ranger.py
@@ -30,12 +30,11 @@ def __init__(
         self,
         params: PARAMETERS,
         lr: float = 1e-3,
+        betas: BETAS = (0.95, 0.999),
         alpha: float = 0.5,
         k: int = 6,
         n_sma_threshold: int = 5,
         degenerated_to_sgd: bool = False,
-        betas: BETAS = (0.95, 0.999),
-        eps: float = 1e-5,
         weight_decay: float = 0.0,
         weight_decouple: bool = True,
         fixed_decay: bool = False,
@@ -44,11 +43,13 @@ def __init__(
         r: float = 0.95,
         adanorm: bool = False,
         adam_debias: bool = False,
+        eps: float = 1e-5,
     ):
         self.validate_learning_rate(lr)
         self.validate_betas(betas)
-        self.validate_non_negative(weight_decay, 'weight_decay')
+        self.validate_range(alpha, 'alpha', 0.0, 1.0, range_type='[]')
         self.validate_positive(k, 'k')
+        self.validate_non_negative(weight_decay, 'weight_decay')
         self.validate_non_negative(eps, 'eps')
 
         self.n_sma_threshold = n_sma_threshold
diff --git a/tests/constants.py b/tests/constants.py
@@ -47,6 +47,7 @@
     Lion,
     Nero,
     NovoGrad,
+    Prodigy,
     QHAdam,
     RAdam,
     Ranger,
@@ -107,6 +108,7 @@
     'adasmooth',
     'adashift',
     'sophiah',
+    'prodigy',
 ]
 
 VALID_LR_SCHEDULER_NAMES: List[str] = [
@@ -379,6 +381,10 @@
     (AdaHessian, {'lr': 1e0, 'weight_decay': 1e-3, 'hessian_distribution': 'gaussian'}, 5),
     (SWATS, {'lr': 5e-1, 'weight_decay': 1e-3}, 5),
     (SWATS, {'lr': 5e-1, 'weight_decay': 1e-3, 'ams_bound': True}, 5),
+    (Prodigy, {'lr': 5e1, 'beta3': None, 'weight_decay': 1e-3}, 10),
+    (Prodigy, {'lr': 5e1, 'beta3': 0.999, 'weight_decay': 1e-3}, 10),
+    (Prodigy, {'lr': 1e1, 'beta3': 0.999, 'weight_decay': 1e-3, 'bias_correction': True}, 15),
+    (Prodigy, {'lr': 1e0, 'beta3': 0.999, 'weight_decay': 1e-3, 'safeguard_warmup': True}, 15),
 ]
 ADANORM_SUPPORTED_OPTIMIZERS: List[Tuple[Any, Dict[str, Union[float, bool, int]], int]] = [
     (AdaBelief, {'lr': 5e-1, 'weight_decay': 1e-3, 'adanorm': True}, 10),
diff --git a/tests/test_general_optimizer_parameters.py b/tests/test_general_optimizer_parameters.py
diff --git a/tests/test_gradients.py b/tests/test_gradients.py
diff --git a/tests/test_load_optimizers.py b/tests/test_load_optimizers.py
diff --git a/tests/test_optimizer_parameters.py b/tests/test_optimizer_parameters.py
diff --git a/tests/test_optimizers.py b/tests/test_optimizers.py