Merge pull request #50 from kozistr/feature/lars-optimizer

kozistr · web-flow · commit 3cd5158b38a1 · 2022-02-01T14:06:14.000+09:00
[Feature] Implement LARS optimizer
diff --git a/pytorch_optimizer/__init__.py b/pytorch_optimizer/__init__.py
@@ -10,6 +10,7 @@
 from pytorch_optimizer.fp16 import DynamicLossScaler, SafeFP16Optimizer
 from pytorch_optimizer.gc import centralize_gradient
 from pytorch_optimizer.lamb import Lamb
+from pytorch_optimizer.lars import LARS
 from pytorch_optimizer.lookahead import Lookahead
 from pytorch_optimizer.madgrad import MADGRAD
 from pytorch_optimizer.optimizers import load_optimizers
diff --git a/pytorch_optimizer/lars.py b/pytorch_optimizer/lars.py
@@ -0,0 +1,106 @@
+import torch
+from torch.optim import Optimizer
+
+from pytorch_optimizer.types import CLOSURE, DEFAULTS, LOSS, PARAMETERS
+
+
+class LARS(Optimizer):
+    """
+    Reference : https://github.com/facebookresearch/mae/blob/main/util/lars.py
+    Example :
+        from pytorch_optimizer import LARS
+        ...
+        model = YourModel()
+        optimizer = LARS(model.parameters())
+        ...
+        for input, output in data:
+          optimizer.zero_grad()
+          loss = loss_function(output, model(input))
+          loss.backward()
+          optimizer.step()
+    """
+
+    def __init__(
+        self,
+        params: PARAMETERS,
+        lr: float = 1e-3,
+        weight_decay: float = 0.0,
+        momentum: float = 0.9,
+        trust_coefficient: float = 0.001,
+        eps: float = 1e-6,
+    ):
+        """LARS optimizer, no rate scaling or weight decay for parameters <= 1D
+        :param params: PARAMETERS. iterable of parameters to optimize or dicts defining parameter groups
+        :param lr: float. learning rate
+        :param weight_decay: float. weight decay (L2 penalty)
+        :param momentum: float. momentum
+        :param trust_coefficient: float. trust_coefficient
+        :param eps: float. epsilon
+        """
+        self.lr = lr
+        self.weight_decay = weight_decay
+        self.momentum = momentum
+        self.trust_coefficient = trust_coefficient
+        self.eps = eps
+
+        self.check_valid_parameters()
+
+        defaults: DEFAULTS = dict(
+            lr=lr,
+            weight_decay=weight_decay,
+            momentum=momentum,
+            trust_coefficient=trust_coefficient,
+        )
+        super().__init__(params, defaults)
+
+    def check_valid_parameters(self):
+        if self.lr < 0.0:
+            raise ValueError(f'Invalid learning rate : {self.lr}')
+        if self.weight_decay < 0.0:
+            raise ValueError(f'Invalid weight_decay : {self.weight_decay}')
+        if self.momentum < 0.0:
+            raise ValueError(f'Invalid momentum : {self.momentum}')
+        if self.trust_coefficient < 0.0:
+            raise ValueError(f'Invalid trust_coefficient : {self.trust_coefficient}')
+        if self.eps < 0.0:
+            raise ValueError(f'Invalid eps : {self.eps}')
+
+    @torch.no_grad()
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        loss: LOSS = None
+        if closure is not None:
+            loss = closure()
+
+        for g in self.param_groups:
+            for p in g['params']:
+                if p.grad is None:
+                    continue
+
+                if p.grad.data.is_sparse:
+                    raise RuntimeError('LARS does not support sparse gradients')
+
+                dp = p.grad
+
+                if p.ndim > 1:  # if not normalization gamma/beta or bias
+                    dp = dp.add(p, alpha=g['weight_decay'])
+                    param_norm = torch.norm(p)
+                    update_norm = torch.norm(dp)
+                    one = torch.ones_like(param_norm)
+
+                    q = torch.where(
+                        param_norm > 0.0,
+                        torch.where(update_norm > 0.0, (g['trust_coefficient'] * param_norm / update_norm), one),
+                        one,
+                    )
+                    dp = dp.mul(q)
+
+                param_state = self.state[p]
+                if 'mu' not in param_state:
+                    param_state['mu'] = torch.zeros_like(p)
+
+                mu = param_state['mu']
+                mu.mul_(g['momentum']).add_(dp)
+
+                p.add_(mu, alpha=-g['lr'])
+
+        return loss
diff --git a/pytorch_optimizer/optimizers.py b/pytorch_optimizer/optimizers.py
@@ -6,6 +6,7 @@
 from pytorch_optimizer.diffrgrad import DiffRGrad
 from pytorch_optimizer.fp16 import SafeFP16Optimizer
 from pytorch_optimizer.lamb import Lamb
+from pytorch_optimizer.lars import LARS
 from pytorch_optimizer.madgrad import MADGRAD
 from pytorch_optimizer.radam import RAdam
 from pytorch_optimizer.ralamb import RaLamb
@@ -45,6 +46,8 @@ def load_optimizers(optimizer: str, use_fp16: bool = False):
         opt = Lamb
     elif optimizer == 'ralamb':
         opt = RaLamb
+    elif optimizer == 'lars':
+        opt = LARS
     else:
         raise NotImplementedError(f'[-] not implemented optimizer : {optimizer}')
 
diff --git a/pytorch_optimizer/version.py b/pytorch_optimizer/version.py
@@ -1 +1 @@
-__VERSION__ = '0.3.6'
+__VERSION__ = '0.3.7'
diff --git a/setup.py b/setup.py
@@ -69,6 +69,7 @@ def read_version() -> str:
         'adamd',
         'lamb',
         'ralamb',
+        'lars',
     ]
 )
 
diff --git a/tests/test_load_optimizers.py b/tests/test_load_optimizers.py
@@ -18,6 +18,7 @@
     'diffrgrad',
     'lamb',
     'ralamb',
+    'lars',
 ]
 
 INVALID_OPTIMIZER_NAMES: List[str] = [
diff --git a/tests/test_optimizer_parameters.py b/tests/test_optimizer_parameters.py
@@ -30,6 +30,7 @@ def forward(self, x: torch.Tensor) -> torch.Tensor:
     'diffrgrad',
     'lamb',
     'ralamb',
+    'lars',
 ]
 
 BETA_OPTIMIZER_NAMES: List[str] = [
diff --git a/tests/test_optimizers.py b/tests/test_optimizers.py
@@ -7,6 +7,7 @@
 from torch.nn import functional as F
 
 from pytorch_optimizer import (
+    LARS,
     MADGRAD,
     SAM,
     SGDP,
@@ -94,6 +95,7 @@ def build_lookahead(*parameters, **kwargs):
     (DiffRGrad, {'lr': 5e-1, 'weight_decay': 1e-3}, 200),
     (Lamb, {'lr': 1e-1, 'weight_decay': 1e-3}, 500),
     (Lamb, {'lr': 1e-1, 'weight_decay': 1e-3, 'pre_norm': True, 'eps': 1e-8}, 500),
+    (LARS, {'lr': 1e-1, 'weight_decay': 1e-3}, 500),
     (RaLamb, {'lr': 1e-1, 'weight_decay': 1e-3}, 200),
     (MADGRAD, {'lr': 1e-2, 'weight_decay': 1e-3}, 500),
     (RAdam, {'lr': 1e-1, 'weight_decay': 1e-3}, 200),
diff --git a/tests/test_sparse_gradient.py b/tests/test_sparse_gradient.py
@@ -22,6 +22,7 @@
     'diffrgrad',
     'lamb',
     'ralamb',
+    'lars',
 ]
 
 

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-__VERSION__ = '0.3.6'`
	`1`	`+__VERSION__ = '0.3.7'`
Original file line number	Diff line number	Diff line change
`@@ -69,6 +69,7 @@ def read_version() -> str:`
`69`	`69`	`'adamd',`
`70`	`70`	`'lamb',`
`71`	`71`	`'ralamb',`
	`72`	`+ 'lars',`
`72`	`73`	`]`
`73`	`74`	`)`
`74`	`75`
Original file line number	Diff line number	Diff line change
`@@ -18,6 +18,7 @@`
`18`	`18`	`'diffrgrad',`
`19`	`19`	`'lamb',`
`20`	`20`	`'ralamb',`
	`21`	`+ 'lars',`
`21`	`22`	`]`
`22`	`23`
`23`	`24`	`INVALID_OPTIMIZER_NAMES: List[str] = [`
Original file line number	Diff line number	Diff line change
`@@ -30,6 +30,7 @@ def forward(self, x: torch.Tensor) -> torch.Tensor:`
`30`	`30`	`'diffrgrad',`
`31`	`31`	`'lamb',`
`32`	`32`	`'ralamb',`
	`33`	`+ 'lars',`
`33`	`34`	`]`
`34`	`35`
`35`	`36`	`BETA_OPTIMIZER_NAMES: List[str] = [`
Original file line number	Diff line number	Diff line change
`@@ -22,6 +22,7 @@`
`22`	`22`	`'diffrgrad',`
`23`	`23`	`'lamb',`
`24`	`24`	`'ralamb',`
	`25`	`+ 'lars',`
`25`	`26`	`]`
`26`	`27`
`27`	`28`