Merge pull request #55 from kozistr/feature/shampoo-optimizer

kozistr · web-flow · commit f66a61247270 · 2022-03-06T03:47:09.000+09:00
[Feature] Shampoo optimizer
diff --git a/README.rst b/README.rst
@@ -74,6 +74,8 @@ Supported Optimizers
 +--------------+----------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+
 | Lamb         | *Large Batch Optimization for Deep Learning*                                           | `github <https://github.com/cybertronai/pytorch-lamb>`__                          | `https://arxiv.org/abs/1904.00962 <https://arxiv.org/abs/1904.00962>`__                       |
 +--------------+----------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+
+| Shampoo      | *Preconditioned Stochastic Tensor Optimization*                                        | `github <https://github.com/moskomule/shampoo.pytorch>`__                         | `https://arxiv.org/abs/1802.09568 <https://arxiv.org/abs/1802.09568>`__                       |
++--------------+----------------------------------------------------------------------------------------+-----------------------------------------------------------------------------------+-----------------------------------------------------------------------------------------------+
 
 Useful Resources
 ----------------
@@ -467,6 +469,19 @@ AdamD: Improved bias-correction in Adam
       year={2021}
     }
 
+Shampoo: Preconditioned Stochastic Tensor Optimization
+
+::
+
+    @inproceedings{gupta2018shampoo,
+      title={Shampoo: Preconditioned stochastic tensor optimization},
+      author={Gupta, Vineet and Koren, Tomer and Singer, Yoram},
+      booktitle={International Conference on Machine Learning},
+      pages={1842--1850},
+      year={2018},
+      organization={PMLR}
+    }
+
 Author
 ------
 
diff --git a/pytorch_optimizer/__init__.py b/pytorch_optimizer/__init__.py
@@ -21,4 +21,11 @@
 from pytorch_optimizer.ranger21 import Ranger21
 from pytorch_optimizer.sam import SAM
 from pytorch_optimizer.sgdp import SGDP
-from pytorch_optimizer.utils import clip_grad_norm, get_optimizer_parameters, normalize_gradient, unit_norm
+from pytorch_optimizer.shampoo import Shampoo
+from pytorch_optimizer.utils import (
+    clip_grad_norm,
+    get_optimizer_parameters,
+    matrix_power,
+    normalize_gradient,
+    unit_norm,
+)
diff --git a/pytorch_optimizer/adabelief.py b/pytorch_optimizer/adabelief.py
@@ -126,13 +126,12 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                         state['max_exp_avg_var'] = torch.zeros_like(p)
 
                 if self.weight_decouple:
-                    if not self.fixed_decay:
-                        p_fp32.mul_(1.0 - group['lr'] * group['weight_decay'])
-                    else:
-                        p_fp32.mul_(1.0 - group['weight_decay'])
-                else:
-                    if group['weight_decay'] != 0:
-                        grad.add_(p_fp32, alpha=group['weight_decay'])
+                    decay: float = (
+                        group['lr'] * group['weight_decay'] if not self.fixed_decay else group['weight_decay']
+                    )
+                    p_fp32.mul_(1.0 - decay)
+                elif group['weight_decay'] != 0:
+                    grad.add_(p_fp32, alpha=group['weight_decay'])
 
                 exp_avg, exp_avg_var = state['exp_avg'], state['exp_avg_var']
 
diff --git a/pytorch_optimizer/base_optimizer.py b/pytorch_optimizer/base_optimizer.py
@@ -80,6 +80,11 @@ def validate_reduction(reduction: str):
         if reduction not in ('mean', 'sum'):
             raise ValueError(f'[-] reduction {reduction} must be one of (\'mean\' or \'sum\')')
 
+    @staticmethod
+    def validate_update_frequency(update_frequency: int):
+        if update_frequency < 1:
+            raise ValueError(f'[-] update_frequency {update_frequency} must be positive')
+
     @abstractmethod
     def validate_parameters(self):
         raise NotImplementedError
diff --git a/pytorch_optimizer/optimizers.py b/pytorch_optimizer/optimizers.py
@@ -12,40 +12,41 @@
 from pytorch_optimizer.ranger import Ranger
 from pytorch_optimizer.ranger21 import Ranger21
 from pytorch_optimizer.sgdp import SGDP
+from pytorch_optimizer.shampoo import Shampoo
 
 
 def load_optimizers(optimizer: str):
     optimizer: str = optimizer.lower()
 
     if optimizer == 'adamp':
-        opt = AdamP
-    elif optimizer == 'ranger':
-        opt = Ranger
-    elif optimizer == 'ranger21':
-        opt = Ranger21
-    elif optimizer == 'sgdp':
-        opt = SGDP
-    elif optimizer == 'radam':
-        opt = RAdam
-    elif optimizer == 'adabelief':
-        opt = AdaBelief
-    elif optimizer == 'adabound':
-        opt = AdaBound
-    elif optimizer == 'madgrad':
-        opt = MADGRAD
-    elif optimizer == 'diffgrad':
-        opt = DiffGrad
-    elif optimizer == 'diffrgrad':
-        opt = DiffRGrad
-    elif optimizer == 'adahessian':
-        opt = AdaHessian
-    elif optimizer == 'lamb':
-        opt = Lamb
-    elif optimizer == 'ralamb':
-        opt = RaLamb
-    elif optimizer == 'lars':
-        opt = LARS
-    else:
-        raise NotImplementedError(f'[-] not implemented optimizer : {optimizer}')
+        return AdamP
+    if optimizer == 'ranger':
+        return Ranger
+    if optimizer == 'ranger21':
+        return Ranger21
+    if optimizer == 'sgdp':
+        return SGDP
+    if optimizer == 'radam':
+        return RAdam
+    if optimizer == 'adabelief':
+        return AdaBelief
+    if optimizer == 'adabound':
+        return AdaBound
+    if optimizer == 'madgrad':
+        return MADGRAD
+    if optimizer == 'diffgrad':
+        return DiffGrad
+    if optimizer == 'diffrgrad':
+        return DiffRGrad
+    if optimizer == 'adahessian':
+        return AdaHessian
+    if optimizer == 'lamb':
+        return Lamb
+    if optimizer == 'ralamb':
+        return RaLamb
+    if optimizer == 'lars':
+        return LARS
+    if optimizer == 'shampoo':
+        return Shampoo
 
-    return opt
+    raise NotImplementedError(f'[-] not implemented optimizer : {optimizer}')
diff --git a/pytorch_optimizer/shampoo.py b/pytorch_optimizer/shampoo.py
@@ -0,0 +1,138 @@
+import torch
+from torch.optim.optimizer import Optimizer
+
+from pytorch_optimizer.base_optimizer import BaseOptimizer
+from pytorch_optimizer.types import CLOSURE, DEFAULTS, LOSS, PARAMETERS
+from pytorch_optimizer.utils import matrix_power
+
+
+class Shampoo(Optimizer, BaseOptimizer):
+    """
+    Reference : https://github.com/moskomule/shampoo.pytorch/blob/master/shampoo.py
+    Example :
+        from pytorch_optimizer import Shampoo
+        ...
+        model = YourModel()
+        optimizer = Shampoo(model.parameters())
+        ...
+        for input, output in data:
+          optimizer.zero_grad()
+          loss = loss_function(output, model(input))
+          loss.backward()
+          optimizer.step()
+    """
+
+    def __init__(
+        self,
+        params: PARAMETERS,
+        lr: float = 1e-3,
+        momentum: float = 0.0,
+        weight_decay: float = 0.0,
+        update_freq: int = 1,
+        eps: float = 1e-4,
+    ):
+        """Shampoo optimizer
+        :param params: PARAMETERS. iterable of parameters to optimize or dicts defining parameter groups
+        :param lr: float. learning rate
+        :param momentum: float. momentum
+        :param weight_decay: float. weight decay (L2 penalty)
+        :param update_freq: int. update frequency to compute inverse
+        :param eps: float. term added to the denominator to improve numerical stability
+        """
+        self.lr = lr
+        self.momentum = momentum
+        self.weight_decay = weight_decay
+        self.update_freq = update_freq
+        self.eps = eps
+
+        self.validate_parameters()
+
+        defaults: DEFAULTS = dict(
+            lr=lr,
+            momentum=momentum,
+            weight_decay=weight_decay,
+            update_freq=update_freq,
+            eps=eps,
+        )
+        super().__init__(params, defaults)
+
+    def validate_parameters(self):
+        self.validate_learning_rate(self.lr)
+        self.validate_momentum(self.momentum)
+        self.validate_weight_decay(self.weight_decay)
+        self.validate_update_frequency(self.update_freq)
+        self.validate_epsilon(self.eps)
+
+    @torch.no_grad()
+    def reset(self):
+        for group in self.param_groups:
+            for p in group['params']:
+                state = self.state[p]
+
+                state['step'] = 0
+
+    @torch.no_grad()
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        loss: LOSS = None
+        if closure is not None:
+            with torch.enable_grad():
+                loss = closure()
+
+        for group in self.param_groups:
+            for p in group['params']:
+                if p.grad is None:
+                    continue
+
+                grad = p.grad
+                if grad.is_sparse:
+                    raise RuntimeError('Shampoo does not support sparse gradients')
+
+                momentum = group['momentum']
+                state = self.state[p]
+                if len(state) == 0:
+                    state['step'] = 0
+
+                    if momentum > 0.0:
+                        state['momentum_buffer'] = grad.clone()
+
+                    # pre-condition matrices
+                    for dim_id, dim in enumerate(grad.size()):
+                        state[f'pre_cond_{dim_id}'] = group['eps'] * torch.eye(dim, out=grad.new(dim, dim))
+                        state[f'inv_pre_cond_{dim_id}'] = grad.new(dim, dim).zero_()
+
+                if momentum > 0.0:
+                    grad.mul_(1.0 - momentum).add_(state['momentum_buffer'], alpha=momentum)
+
+                weight_decay = group['weight_decay']
+                if weight_decay > 0.0:
+                    grad.add_(p, alpha=weight_decay)
+
+                order: int = grad.ndimension()
+                original_size: int = grad.size()
+                for dim_id, dim in enumerate(grad.size()):
+                    pre_cond = state[f'pre_cond_{dim_id}']
+                    inv_pre_cond = state[f'inv_pre_cond_{dim_id}']
+
+                    grad = grad.transpose_(0, dim_id).contiguous()
+                    transposed_size = grad.size()
+
+                    grad = grad.view(dim, -1)
+
+                    grad_t = grad.t()
+                    pre_cond.add_(grad @ grad_t)
+                    if state['step'] % group['update_freq'] == 0:
+                        inv_pre_cond.copy_(matrix_power(pre_cond, -1 / order))
+
+                    if dim_id == order - 1:
+                        grad = grad_t @ inv_pre_cond
+                        grad = grad.view(original_size)
+                    else:
+                        grad = inv_pre_cond @ grad
+                        grad = grad.view(transposed_size)
+
+                state['step'] += 1
+                state['momentum_buffer'] = grad
+
+                p.add_(grad, alpha=-group['lr'])
+
+        return loss
diff --git a/pytorch_optimizer/utils.py b/pytorch_optimizer/utils.py
@@ -156,3 +156,13 @@ def get_optimizer_parameters(
         },
         {'params': [p for n, p in param_optimizer if any(nd in n for nd in wd_ban_list)], 'weight_decay': 0.0},
     ]
+
+
+def matrix_power(matrix: torch.Tensor, power: float) -> torch.Tensor:
+    matrix_device = matrix.device
+
+    # use CPU for svd for speed up
+    u, s, vh = torch.linalg.svd(matrix.cpu(), full_matrices=False)
+    v = vh.transpose(-2, -1).conj()
+
+    return (u @ s.pow_(power).diag() @ v.t()).to(matrix_device)
diff --git a/pytorch_optimizer/version.py b/pytorch_optimizer/version.py
@@ -1 +1 @@
-__VERSION__ = '0.4.2'
+__VERSION__ = '0.5.0'
diff --git a/setup.py b/setup.py
@@ -70,6 +70,7 @@ def read_version() -> str:
         'lamb',
         'ralamb',
         'lars',
+        'shampoo',
     ]
 )
 
diff --git a/tests/test_load_optimizers.py b/tests/test_load_optimizers.py
@@ -19,6 +19,7 @@
     'lamb',
     'ralamb',
     'lars',
+    'shampoo',
 ]
 
 INVALID_OPTIMIZER_NAMES: List[str] = [
diff --git a/tests/test_optimizer_parameters.py b/tests/test_optimizer_parameters.py
@@ -123,6 +123,12 @@ def test_reduction(optimizer_names):
         PCGrad(optimizer, reduction='wrong')
 
 
+@pytest.mark.parametrize('optimizer_names', ['shampoo'])
+def test_update_frequency(optimizer_names):
+    with pytest.raises(ValueError):
+        load_optimizers(optimizer_names)(None, update_freq=0)
+
+
 def test_sam_parameters():
     with pytest.raises(ValueError):
         SAM(None, load_optimizers('adamp'), rho=-0.1)
diff --git a/tests/test_optimizers.py b/tests/test_optimizers.py
diff --git a/tests/test_sparse_gradient.py b/tests/test_sparse_gradient.py
diff --git a/tests/test_utils.py b/tests/test_utils.py
diff --git a/tests/utils.py b/tests/utils.py

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-__VERSION__ = '0.4.2'`
	`1`	`+__VERSION__ = '0.5.0'`
Original file line number	Diff line number	Diff line change
`@@ -70,6 +70,7 @@ def read_version() -> str:`
`70`	`70`	`'lamb',`
`71`	`71`	`'ralamb',`
`72`	`72`	`'lars',`
	`73`	`+ 'shampoo',`
`73`	`74`	`]`
`74`	`75`	`)`
`75`	`76`
Original file line number	Diff line number	Diff line change
`@@ -19,6 +19,7 @@`
`19`	`19`	`'lamb',`
`20`	`20`	`'ralamb',`
`21`	`21`	`'lars',`
	`22`	`+ 'shampoo',`
`22`	`23`	`]`
`23`	`24`
`24`	`25`	`INVALID_OPTIMIZER_NAMES: List[str] = [`