kozistr
diff --git a/‎README.md‎
Lines changed: 16 additions & 0 deletions b/‎README.md‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎pytorch_optimizer/adamp.py‎
Lines changed: 11 additions & 7 deletions b/‎pytorch_optimizer/adamp.py‎
Lines changed: 11 additions & 7 deletions
diff --git a/‎pytorch_optimizer/lookahead.py‎
Lines changed: 21 additions & 13 deletions b/‎pytorch_optimizer/lookahead.py‎
Lines changed: 21 additions & 13 deletions
diff --git a/‎pytorch_optimizer/madgrad.py‎
Lines changed: 170 additions & 0 deletions b/‎pytorch_optimizer/madgrad.py‎
Lines changed: 170 additions & 0 deletions
diff --git a/‎pytorch_optimizer/radam.py‎
Lines changed: 7 additions & 5 deletions b/‎pytorch_optimizer/radam.py‎
Lines changed: 7 additions & 5 deletions
@@ -17,6 +17,7 @@ $ pip3 install pytorch-optimizer
 | Optimizer | Description | Official Code | Paper |
 | :---: | :---: | :---: | :---: |
 | AdamP | *Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights* | [github](https://github.com/clovaai/AdamP) | [https://arxiv.org/abs/2006.08217](https://arxiv.org/abs/2006.08217) |
+| MADGRAD | *A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic* | [github](https://github.com/facebookresearch/madgrad) | [https://arxiv.org/abs/2101.11075](https://arxiv.org/abs/2101.11075) |
 | RAdam | *On the Variance of the Adaptive Learning Rate and Beyond* | [github](https://github.com/LiyuanLucasLiu/RAdam) | [https://arxiv.org/abs/1908.03265](https://arxiv.org/abs/1908.03265) |
 | Ranger | *a synergistic optimizer combining RAdam and LookAhead, and now GC in one optimizer* | [github](https://github.com/lessw2020/Ranger-Deep-Learning-Optimizer) | |
 | Ranger21 | *a synergistic deep learning optimizer* | [github](https://github.com/lessw2020/Ranger21) | [https://arxiv.org/abs/2106.13731](https://arxiv.org/abs/2106.13731) |
@@ -287,6 +288,21 @@ Acceleration via Fractal Learning Rate Schedules
 
 </details>
 
+<details>
+
+<summary>MADGRAD</summary>
+
+```
+@article{defazio2021adaptivity,
+  title={Adaptivity without compromise: a momentumized, adaptive, dual averaged gradient method for stochastic optimization},
+  author={Defazio, Aaron and Jelassi, Samy},
+  journal={arXiv preprint arXiv:2101.11075},
+  year={2021}
+}
+```
+
+</details>
+
 ## Author
 
 Hyeongchan Kim / [@kozistr](http://kozistr.tech/about)
@@ -1,24 +1,26 @@
 import math
-from typing import Any, Callable, Dict, List, Optional, Tuple
+from typing import Callable, List, Tuple
 
 import torch
 import torch.nn.functional as F
 from torch.optim.optimizer import Optimizer
 
+from pytorch_optimizer.types import BETAS, CLOSURE, DEFAULT_PARAMETERS, LOSS
+
 
 class AdamP(Optimizer):
     def __init__(
         self,
         params,
         lr: float = 1e-3,
-        betas: Tuple[float, float] = (0.9, 0.999),
+        betas: BETAS = (0.9, 0.999),
         eps: float = 1e-8,
         weight_decay: float = 0.0,
         delta: float = 0.1,
         wd_ratio: float = 0.1,
         nesterov: bool = False,
     ):
-        defaults: Dict[str, Any] = dict(
+        defaults: DEFAULT_PARAMETERS = dict(
             lr=lr,
             betas=betas,
             eps=eps,
@@ -39,7 +41,10 @@ def layer_view(x: torch.Tensor) -> torch.Tensor:
 
     @staticmethod
     def cosine_similarity(
-        x: torch.Tensor, y: torch.Tensor, eps: float, view_func: Callable
+        x: torch.Tensor,
+        y: torch.Tensor,
+        eps: float,
+        view_func: Callable[[torch.Tensor], torch.Tensor],
     ):
         x = view_func(x)
         y = view_func(y)
@@ -74,8 +79,8 @@ def projection(
 
         return perturb, wd
 
-    def step(self, closure: Optional[Callable] = None) -> float:
-        loss: Optional[float] = None
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        loss: LOSS = None
         if closure is not None:
             loss = closure()
 
@@ -114,7 +119,6 @@ def step(self, closure: Optional[Callable] = None) -> float:
                 else:
                     perturb = exp_avg / denom
 
-                # Projection
                 wd_ratio: float = 1
                 if len(p.shape) > 1:
                     perturb, wd_ratio = self.projection(
 
@@ -1,19 +1,27 @@
 from collections import defaultdict
-from typing import Callable, Dict, List, Optional
+from typing import Dict
 
 import torch
 from torch.optim import Optimizer
 
+from pytorch_optimizer.types import (
+    CLOSURE,
+    LOSS,
+    PARAM_GROUP,
+    PARAM_GROUPS,
+    STATE,
+)
+
 
 class Lookahead(Optimizer):
     def __init__(self, optimizer: Optimizer, k: int = 5, alpha: float = 0.5):
         self.optimizer = optimizer
         self.k = k
         self.alpha = alpha
 
-        self.param_groups: List[Dict] = self.optimizer.param_groups
-        self.fast_state: Dict = self.optimizer.state
-        self.state = defaultdict(dict)
+        self.param_groups: PARAM_GROUPS = self.optimizer.param_groups
+        self.fast_state: STATE = self.optimizer.state
+        self.state: STATE = defaultdict(dict)
 
         for group in self.param_groups:
             group['counter'] = 0
@@ -32,8 +40,8 @@ def update_lookahead(self):
         for group in self.param_groups:
             self.update(group)
 
-    def step(self, closure: Optional[Callable] = None) -> float:
-        loss: float = self.optimizer.step(closure)
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        loss: LOSS = self.optimizer.step(closure)
         for group in self.param_groups:
             if group['counter'] == 0:
                 self.update(group)
@@ -42,12 +50,12 @@ def step(self, closure: Optional[Callable] = None) -> float:
                 group['counter'] = 0
         return loss
 
-    def state_dict(self) -> Dict[str, torch.Tensor]:
-        fast_state_dict = self.optimizer.state_dict()
+    def state_dict(self) -> STATE:
+        fast_state_dict: STATE = self.optimizer.state_dict()
         fast_state = fast_state_dict['state']
         param_groups = fast_state_dict['param_groups']
 
-        slow_state: Dict[int, torch.Tensor] = {
+        slow_state: STATE = {
             (id(k) if isinstance(k, torch.Tensor) else k): v
             for k, v in self.state.items()
         }
@@ -58,12 +66,12 @@ def state_dict(self) -> Dict[str, torch.Tensor]:
             'param_groups': param_groups,
         }
 
-    def load_state_dict(self, state_dict: Dict[str, torch.Tensor]):
-        slow_state_dict: Dict[str, torch.Tensor] = {
+    def load_state_dict(self, state_dict: STATE):
+        slow_state_dict: STATE = {
             'state': state_dict['slow_state'],
             'param_groups': state_dict['param_groups'],
         }
-        fast_state_dict: Dict[str, torch.Tensor] = {
+        fast_state_dict: STATE = {
             'state': state_dict['fast_state'],
             'param_groups': state_dict['param_groups'],
         }
@@ -72,6 +80,6 @@ def load_state_dict(self, state_dict: Dict[str, torch.Tensor]):
         self.optimizer.load_state_dict(fast_state_dict)
         self.fast_state = self.optimizer.state
 
-    def add_param_group(self, param_group: Dict):
+    def add_param_group(self, param_group: PARAM_GROUP):
         param_group['counter'] = 0
         self.optimizer.add_param_group(param_group)
@@ -0,0 +1,170 @@
+import math
+
+import torch
+from torch.optim import Optimizer
+
+from pytorch_optimizer.types import CLOSURE, DEFAULT_PARAMETERS, LOSS
+
+
+class MADGRAD(Optimizer):
+    """
+    A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic
+    Reference : https://github.com/facebookresearch/madgrad/blob/main/madgrad/madgrad.py
+    """
+
+    def __init__(
+        self,
+        params,
+        lr: float = 1e-3,
+        momentum: float = 0.9,
+        weight_decay: float = 0.0,
+        eps: float = 1e-6,
+    ):
+        self.lr = lr
+        self.momentum = momentum
+        self.weight_decay = weight_decay
+        self.eps = eps
+
+        self.check_valid_parameters()
+
+        defaults: DEFAULT_PARAMETERS = dict(
+            lr=lr, eps=eps, momentum=momentum, weight_decay=weight_decay
+        )
+        super().__init__(params, defaults)
+
+    def check_valid_parameters(self):
+        if 0.0 > self.lr:
+            raise ValueError(f'Invalid learning rate : {self.lr}')
+        if 0.0 > self.eps:
+            raise ValueError(f'Invalid eps : {self.eps}')
+        if 0.0 > self.weight_decay:
+            raise ValueError(f'Invalid weight_decay : {self.weight_decay}')
+        if 0.0 > self.momentum or 1.0 <= self.momentum:
+            raise ValueError(f'Invalid momentum : {self.momentum}')
+
+    @property
+    def supports_memory_efficient_fp16(self) -> bool:
+        return False
+
+    @property
+    def supports_flat_params(self) -> bool:
+        return True
+
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        """Performs a single optimization step.
+        Arguments:
+            closure (callable, optional): A closure that reevaluates the model
+                and returns the loss.
+        """
+        loss: LOSS = None
+        if closure is not None:
+            loss = closure()
+
+        # step counter must be stored in state to ensure correct behavior under
+        # optimizer sharding
+        if 'k' not in self.state:
+            self.state['k'] = torch.tensor([0], dtype=torch.long)
+
+        k = self.state['k'].item()
+
+        for group in self.param_groups:
+            eps = group['eps']
+            lr = group['lr'] + eps
+            decay = group['weight_decay']
+            momentum = group['momentum']
+
+            ck: float = 1.0 - momentum
+            _lambda = lr * math.pow(k + 1, 0.5)
+
+            for p in group['params']:
+                if p.grad is None:
+                    continue
+
+                grad = p.grad.data
+                state = self.state[p]
+
+                if 'grad_sum_sq' not in state:
+                    state['grad_sum_sq'] = torch.zeros_like(p.data).detach()
+                    state['s'] = torch.zeros_like(p.data).detach()
+                    if momentum != 0:
+                        state['x0'] = torch.clone(p.data).detach()
+
+                if momentum != 0.0 and grad.is_sparse:
+                    raise RuntimeError(
+                        'momentum != 0 is not compatible with sparse gradients'
+                    )
+
+                grad_sum_sq = state['grad_sum_sq']
+                s = state['s']
+
+                if decay != 0:
+                    if grad.is_sparse:
+                        raise RuntimeError(
+                            'weight_decay option is not compatible with sparse gradients'
+                        )
+
+                    grad.add_(p.data, alpha=decay)
+
+                if grad.is_sparse:
+                    grad = grad.coalesce()
+                    grad_val = grad._values()
+
+                    p_masked = p.sparse_mask(grad)
+                    grad_sum_sq_masked = grad_sum_sq.sparse_mask(grad)
+                    s_masked = s.sparse_mask(grad)
+
+                    # Compute x_0 from other known quantities
+                    rms_masked_vals = (
+                        grad_sum_sq_masked._values().pow(1 / 3).add_(eps)
+                    )
+                    x0_masked_vals = p_masked._values().addcdiv(
+                        s_masked._values(), rms_masked_vals, value=1
+                    )
+
+                    # Dense + sparse op
+                    grad_sq = grad * grad
+                    grad_sum_sq.add_(grad_sq, alpha=_lambda)
+                    grad_sum_sq_masked.add_(grad_sq, alpha=_lambda)
+
+                    rms_masked_vals = (
+                        grad_sum_sq_masked._values().pow_(1 / 3).add_(eps)
+                    )
+
+                    s.add_(grad, alpha=_lambda)
+                    s_masked._values().add_(grad_val, alpha=_lambda)
+
+                    # update masked copy of p
+                    p_kp1_masked_values = x0_masked_vals.addcdiv(
+                        s_masked._values(), rms_masked_vals, value=-1
+                    )
+
+                    # Copy updated masked p to dense p using an add operation
+                    p_masked._values().add_(p_kp1_masked_values, alpha=-1)
+                    p.data.add_(p_masked, alpha=-1)
+                else:
+                    if momentum == 0:
+                        # Compute x_0 from other known quantities
+                        rms = grad_sum_sq.pow(1 / 3).add_(eps)
+                        x0 = p.data.addcdiv(s, rms, value=1)
+                    else:
+                        x0 = state['x0']
+
+                    # Accumulate second moments
+                    grad_sum_sq.addcmul_(grad, grad, value=_lambda)
+                    rms = grad_sum_sq.pow(1 / 3).add_(eps)
+
+                    # Update s
+                    s.data.add_(grad, alpha=_lambda)
+
+                    # Step
+                    if momentum == 0:
+                        p.data.copy_(x0.addcdiv(s, rms, value=-1))
+                    else:
+                        z = x0.addcdiv(s, rms, value=-1)
+
+                        # p is a moving average of z
+                        p.data.mul_(1 - ck).add_(z, alpha=ck)
+
+        self.state['k'] += 1
+
+        return loss
@@ -1,9 +1,11 @@
 import math
-from typing import Any, Callable, Dict, Optional, Tuple
+from typing import Dict
 
 import torch
 from torch.optim.optimizer import Optimizer
 
+from pytorch_optimizer.types import BETAS, CLOSURE, DEFAULT_PARAMETERS, LOSS
+
 
 class RAdam(Optimizer):
     """
@@ -15,7 +17,7 @@ def __init__(
         self,
         params,
         lr: float = 1e-3,
-        betas: Tuple[float, float] = (0.9, 0.999),
+        betas: BETAS = (0.9, 0.999),
         eps: float = 1e-8,
         weight_decay: float = 0.0,
         n_sma_threshold: int = 5,
@@ -42,7 +44,7 @@ def __init__(
                 ):
                     param['buffer'] = [[None, None, None] for _ in range(10)]
 
-        defaults: Dict[str, Any] = dict(
+        defaults: DEFAULT_PARAMETERS = dict(
             lr=lr,
             betas=betas,
             eps=eps,
@@ -67,8 +69,8 @@ def check_valid_parameters(self):
     def __setstate__(self, state: Dict):
         super().__setstate__(state)
 
-    def step(self, closure: Optional[Callable] = None) -> float:
-        loss: Optional[float] = None
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        loss: LOSS = None
         if closure is not None:
             loss = closure()