Merge pull request #146 from kozistr/feature/qhadam-optimizer

kozistr · web-flow · commit fab0d29d5be9 · 2023-04-29T17:12:34.000+09:00
[Feature] Implement QHAdam, QHM optimizers
diff --git a/README.rst b/README.rst
@@ -167,7 +167,9 @@ You can check the supported optimizers & lr schedulers.
 +--------------+-------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+
 | AdaMod       | *An Adaptive and Momental Bound Method for Stochastic Learning*                                 | `github <https://github.com/lancopku/AdaMod>`__                                   | `https://arxiv.org/abs/1910.12249 <https://arxiv.org/abs/1910.12249>`__                       |
 +--------------+-------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+
-| AggMo        | *Aggregated Momentum: Stability Through Passive Damping*                                        | `github <https://github.com/AtheMathmo/AggMo`__                                   | `https://arxiv.org/abs/1804.00325 <https://arxiv.org/abs/1804.00325>`__                       |
+| AggMo        | *Aggregated Momentum: Stability Through Passive Damping*                                        | `github <https://github.com/AtheMathmo/AggMo>`__                                  | `https://arxiv.org/abs/1804.00325 <https://arxiv.org/abs/1804.00325>`__                       |
++--------------+-------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+
+| QHAdam       | *Quasi-hyperbolic momentum and Adam for deep learning*                                          | `github <https://github.com/facebookresearch/qhoptim>`__                          | `https://arxiv.org/abs/1810.06801 <https://arxiv.org/abs/1810.06801>`__                       |
 +--------------+-------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+
 
 Useful Resources
@@ -400,6 +402,8 @@ Citations
 
 `AggMo <https://ui.adsabs.harvard.edu/abs/2018arXiv180400325L/exportcitation>`__
 
+`QHAdam <https://github.com/facebookresearch/qhoptim#reference>`__
+
 Citation
 --------
 
diff --git a/docs/optimizer_api.rst b/docs/optimizer_api.rst
@@ -376,3 +376,19 @@ AggMo
 
 .. autoclass:: pytorch_optimizer.AggMo
     :members:
+
+.. _QHAdam:
+
+QHAdam
+------
+
+.. autoclass:: pytorch_optimizer.QHAdam
+    :members:
+
+.. _QHM:
+
+QHM
+---
+
+.. autoclass:: pytorch_optimizer.QHM
+    :members:
diff --git a/pytorch_optimizer/__init__.py b/pytorch_optimizer/__init__.py
@@ -47,6 +47,8 @@
 from pytorch_optimizer.optimizer.novograd import NovoGrad
 from pytorch_optimizer.optimizer.pcgrad import PCGrad
 from pytorch_optimizer.optimizer.pnm import PNM
+from pytorch_optimizer.optimizer.qhadam import QHAdam
+from pytorch_optimizer.optimizer.qhm import QHM
 from pytorch_optimizer.optimizer.radam import RAdam
 from pytorch_optimizer.optimizer.ranger import Ranger
 from pytorch_optimizer.optimizer.ranger21 import Ranger21
@@ -95,6 +97,8 @@
     DiffGrad,
     Lamb,
     LARS,
+    QHAdam,
+    QHM,
     MADGRAD,
     Nero,
     PNM,
diff --git a/pytorch_optimizer/base/optimizer.py b/pytorch_optimizer/base/optimizer.py
@@ -1,4 +1,5 @@
 from abc import ABC, abstractmethod
+from typing import Tuple, Union
 
 import torch
 
@@ -141,6 +142,17 @@ def validate_amplifier(amplifier: float):
         if amplifier < 0.0:
             raise ValueError(f'[-] amplifier {amplifier} must be non-negative')
 
+    @staticmethod
+    def validate_nus(nus: Union[float, Tuple[float, float]]):
+        if isinstance(nus, float):
+            if not 0.0 <= nus <= 1.0:
+                raise ValueError(f'[-] nus {nus} must be in the range [0, 1]')
+        else:
+            if not 0.0 <= nus[0] <= 1.0:
+                raise ValueError(f'[-] nus1 {nus[0]} must be in the range [0, 1]')
+            if not 0.0 <= nus[1] <= 1.0:
+                raise ValueError(f'[-] nus2 {nus[1]} must be in the range [0, 1]')
+
     @abstractmethod
     def validate_parameters(self):
         raise NotImplementedError
diff --git a/pytorch_optimizer/optimizer/qhadam.py b/pytorch_optimizer/optimizer/qhadam.py
@@ -0,0 +1,135 @@
+from typing import Tuple
+
+import torch
+from torch.optim.optimizer import Optimizer
+
+from pytorch_optimizer.base.exception import NoSparseGradientError
+from pytorch_optimizer.base.optimizer import BaseOptimizer
+from pytorch_optimizer.base.types import BETAS, CLOSURE, DEFAULTS, LOSS, PARAMETERS
+
+
+class QHAdam(Optimizer, BaseOptimizer):
+    r"""Quasi-hyperbolic momentum and Adam for deep learning.
+
+    :param params: PARAMETERS. iterable of parameters to optimize or dicts defining parameter groups.
+    :param lr: float. learning rate.
+    :param betas: BETAS. coefficients used for computing running averages of gradient and the squared hessian trace.
+    :param nus: Tuple[float, float]. immediate discount factors used to estimate the gradient and its square.
+    :param weight_decay: float. weight decay (L2 penalty).
+    :param weight_decouple: bool. the optimizer uses decoupled weight decay as in AdamW.
+    :param eps: float. term added to the denominator to improve numerical stability.
+    """
+
+    def __init__(
+        self,
+        params: PARAMETERS,
+        lr: float = 1e-3,
+        betas: BETAS = (0.9, 0.999),
+        nus: Tuple[float, float] = (1.0, 1.0),
+        weight_decay: float = 0.0,
+        weight_decouple: bool = False,
+        eps: float = 1e-8,
+    ):
+        self.lr = lr
+        self.betas = betas
+        self.nus = nus
+        self.weight_decay = weight_decay
+        self.eps = eps
+
+        self.validate_parameters()
+
+        defaults: DEFAULTS = {
+            'lr': lr,
+            'betas': betas,
+            'nus': nus,
+            'weight_decay': weight_decay,
+            'weight_decouple': weight_decouple,
+            'eps': eps,
+        }
+        super().__init__(params, defaults)
+
+    def validate_parameters(self):
+        self.validate_learning_rate(self.lr)
+        self.validate_betas(self.betas)
+        self.validate_weight_decay(self.weight_decay)
+        self.validate_epsilon(self.eps)
+        self.validate_nus(self.nus)
+
+    def __str__(self) -> str:
+        return 'QHAdam'
+
+    @torch.no_grad()
+    def reset(self):
+        for group in self.param_groups:
+            group['step'] = 0
+            for p in group['params']:
+                state = self.state[p]
+
+                state['beta1_weight'] = torch.zeros((1,), dtype=p.dtype, device=p.device)
+                state['beta2_weight'] = torch.zeros((1,), dtype=p.dtype, device=p.device)
+                state['exp_avg'] = torch.zeros_like(p)
+                state['exp_avg_sq'] = torch.zeros_like(p)
+
+    @torch.no_grad()
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        loss: LOSS = None
+        if closure is not None:
+            with torch.enable_grad():
+                loss = closure()
+
+        for group in self.param_groups:
+            if 'step' in group:
+                group['step'] += 1
+            else:
+                group['step'] = 1
+
+            beta1, beta2 = group['betas']
+            nu1, nu2 = group['nus']
+
+            for p in group['params']:
+                if p.grad is None:
+                    continue
+
+                grad = p.grad
+                if grad.is_sparse:
+                    raise NoSparseGradientError(str(self))
+
+                state = self.state[p]
+
+                if len(state) == 0:
+                    state['beta1_weight'] = torch.zeros((1,), dtype=grad.dtype, device=grad.device)
+                    state['beta2_weight'] = torch.zeros((1,), dtype=grad.dtype, device=grad.device)
+                    state['exp_avg'] = torch.zeros_like(p)
+                    state['exp_avg_sq'] = torch.zeros_like(p)
+
+                if group['weight_decouple']:
+                    p.mul_(1.0 - group['weight_decay'] * group['lr'])
+                elif group['weight_decay'] > 0.0:
+                    grad.add_(p, alpha=group['weight_decay'])
+
+                beta1_weight, beta2_weight = state['beta1_weight'], state['beta2_weight']
+                beta1_weight.mul_(beta1).add_(1.0)
+                beta2_weight.mul_(beta2).add_(1.0)
+
+                beta1_adj = 1.0 - (1.0 / beta1_weight)
+                beta2_adj = 1.0 - (1.0 / beta2_weight)
+
+                grad_p2 = grad.pow(2)
+
+                exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
+                exp_avg.mul_(beta1_adj).add_((1.0 - beta1_adj) * grad)
+                exp_avg_sq.mul_(beta2_adj).add_(1.0 - beta2_adj * grad_p2)
+
+                avg_grad = exp_avg.mul(nu1)
+                if nu1 != 1.0:
+                    avg_grad.add_(grad, alpha=1.0 - nu1)
+
+                avg_grad_rms = exp_avg_sq.mul(nu2)
+                if nu2 != 1.0:
+                    avg_grad_rms.add_(grad_p2, alpha=1.0 - nu2)
+
+                avg_grad_rms.sqrt_().add_(group['eps'])
+
+                p.addcdiv_(avg_grad, avg_grad_rms, value=-group['lr'])
+
+        return loss
diff --git a/pytorch_optimizer/optimizer/qhm.py b/pytorch_optimizer/optimizer/qhm.py
@@ -0,0 +1,101 @@
+import torch
+from torch.optim.optimizer import Optimizer
+
+from pytorch_optimizer.base.exception import NoSparseGradientError
+from pytorch_optimizer.base.optimizer import BaseOptimizer
+from pytorch_optimizer.base.types import CLOSURE, DEFAULTS, LOSS, PARAMETERS
+
+
+class QHM(Optimizer, BaseOptimizer):
+    r"""Quasi-hyperbolic momentum (QHM) optimization algorithm.
+
+    :param params: PARAMETERS. iterable of parameters to optimize or dicts defining parameter groups.
+    :param lr: float. learning rate.
+    :param momentum: float. momentum factor.
+    :param nu: float. immediate discount factor used to estimate the gradient and its square.
+    :param weight_decay: float. weight decay (L2 penalty).
+    :param weight_decouple: bool. the optimizer uses decoupled weight decay as in AdamW.
+    :param eps: float. term added to the denominator to improve numerical stability.
+    """
+
+    def __init__(
+        self,
+        params: PARAMETERS,
+        lr: float = 1e-3,
+        momentum: float = 0.0,
+        nu: float = 1.0,
+        weight_decay: float = 0.0,
+        weight_decouple: bool = False,
+    ):
+        self.lr = lr
+        self.momentum = momentum
+        self.nu = nu
+        self.weight_decay = weight_decay
+
+        self.validate_parameters()
+
+        defaults: DEFAULTS = {
+            'lr': lr,
+            'momentum': momentum,
+            'nu': nu,
+            'weight_decay': weight_decay,
+            'weight_decouple': weight_decouple,
+        }
+        super().__init__(params, defaults)
+
+    def validate_parameters(self):
+        self.validate_learning_rate(self.lr)
+        self.validate_momentum(self.momentum)
+        self.validate_weight_decay(self.weight_decay)
+        self.validate_nus(self.nu)
+
+    def __str__(self) -> str:
+        return 'QHM'
+
+    @torch.no_grad()
+    def reset(self):
+        for group in self.param_groups:
+            group['step'] = 0
+            for p in group['params']:
+                state = self.state[p]
+
+                state['momentum_buffer'] = torch.zeros_like(p)
+
+    @torch.no_grad()
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        loss: LOSS = None
+        if closure is not None:
+            with torch.enable_grad():
+                loss = closure()
+
+        for group in self.param_groups:
+            if 'step' in group:
+                group['step'] += 1
+            else:
+                group['step'] = 1
+
+            for p in group['params']:
+                if p.grad is None:
+                    continue
+
+                grad = p.grad
+                if grad.is_sparse:
+                    raise NoSparseGradientError(str(self))
+
+                state = self.state[p]
+
+                if len(state) == 0:
+                    state['momentum_buffer'] = torch.zeros_like(p)
+
+                if group['weight_decouple']:
+                    p.mul_(1.0 - group['weight_decay'] * group['lr'])
+                elif group['weight_decay'] > 0.0:
+                    grad.add_(p, alpha=group['weight_decay'])
+
+                buf = state['momentum_buffer']
+                buf.mul_(group['momentum']).add_(grad, alpha=1.0 - group['momentum'])
+
+                p.add_(buf, alpha=-group['lr'] * group['nu'])
+                p.add_(grad, alpha=-group['lr'] * (1.0 - group['nu']))
+
+        return loss
diff --git a/tests/constants.py b/tests/constants.py
@@ -7,6 +7,7 @@
     MSVAG,
     OPTIMIZERS,
     PNM,
+    QHM,
     SGDP,
     SGDW,
     SM3,
@@ -35,6 +36,7 @@
     Lion,
     Nero,
     NovoGrad,
+    QHAdam,
     RAdam,
     Ranger,
     Ranger21,
@@ -85,6 +87,9 @@
     'adanorm',
     'yogi',
     'swats',
+    'adamod',
+    'aggmo',
+    'qhadam',
 ]
 
 VALID_LR_SCHEDULER_NAMES: List[str] = [
@@ -337,6 +342,10 @@
     (AdaMod, {'lr': 5e1, 'weight_decay': 1e-3, 'weight_decouple': False}, 10),
     (AggMo, {'lr': 5e0, 'weight_decay': 1e-3}, 5),
     (AggMo, {'lr': 5e0, 'weight_decay': 1e-3, 'weight_decouple': True}, 5),
+    (QHAdam, {'lr': 1e0, 'nus': (0.9, 0.9), 'weight_decay': 1e-3}, 5),
+    (QHAdam, {'lr': 1e0, 'weight_decay': 1e-3, 'weight_decouple': True}, 5),
+    (QHM, {'lr': 1e0, 'weight_decay': 1e-3}, 5),
+    (QHM, {'lr': 1e0, 'weight_decay': 1e-3, 'weight_decouple': True}, 5),
 ]
 ADANORM_SUPPORTED_OPTIMIZERS: List[Tuple[Any, Dict[str, Union[float, bool, int]], int]] = [
     (AdaBelief, {'lr': 5e-1, 'weight_decay': 1e-3, 'adanorm': True}, 10),
diff --git a/tests/test_general_optimizer_parameters.py b/tests/test_general_optimizer_parameters.py
@@ -35,6 +35,7 @@ def test_epsilon(optimizer_name):
         'fromage',
         'msvag',
         'aggmo',
+        'qhm',
     ):
         pytest.skip(f'skip {optimizer_name} optimizer')
 
@@ -218,3 +219,18 @@ def test_amplifier(optimizer_name):
     optimizer = load_optimizer(optimizer_name)
     with pytest.raises(ValueError):
         optimizer([simple_parameter(False)], amplifier=-1.0)
+
+
+@pytest.mark.parametrize('optimizer_name', ['qhadam', 'qhm'])
+def test_nus(optimizer_name):
+    optimizer = load_optimizer(optimizer_name)
+
+    if optimizer_name == 'qhadam':
+        with pytest.raises(ValueError):
+            optimizer([simple_parameter(False)], nus=(-0.1, 0.1))
+
+        with pytest.raises(ValueError):
+            optimizer([simple_parameter(False)], nus=(0.1, -0.1))
+    else:
+        with pytest.raises(ValueError):
+            optimizer([simple_parameter(False)], nu=-0.1)
diff --git a/tests/test_load_optimizers.py b/tests/test_load_optimizers.py
@@ -16,4 +16,4 @@ def test_load_optimizers_invalid(invalid_optimizer_names):
 
 
 def test_get_supported_optimizers():
-    assert len(get_supported_optimizers()) == 40
+    assert len(get_supported_optimizers()) == 42

Original file line number	Diff line number	Diff line change
`@@ -16,4 +16,4 @@ def test_load_optimizers_invalid(invalid_optimizer_names):`
`16`	`16`
`17`	`17`
`18`	`18`	`def test_get_supported_optimizers():`
`19`		`- assert len(get_supported_optimizers()) == 40`
	`19`	`+ assert len(get_supported_optimizers()) == 42`