kozistr
diff --git a/‎Pipfile‎
Lines changed: 2 additions & 2 deletions b/‎Pipfile‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎Pipfile.lock‎
Lines changed: 119 additions & 72 deletions b/‎Pipfile.lock‎
Lines changed: 119 additions & 72 deletions
diff --git a/‎pytorch_optimizer/adabelief.py‎
Lines changed: 31 additions & 36 deletions b/‎pytorch_optimizer/adabelief.py‎
Lines changed: 31 additions & 36 deletions
diff --git a/‎pytorch_optimizer/adabound.py‎
Lines changed: 19 additions & 21 deletions b/‎pytorch_optimizer/adabound.py‎
Lines changed: 19 additions & 21 deletions
diff --git a/‎pytorch_optimizer/adahessian.py‎
Lines changed: 10 additions & 9 deletions b/‎pytorch_optimizer/adahessian.py‎
Lines changed: 10 additions & 9 deletions
diff --git a/‎pytorch_optimizer/adamp.py‎
Lines changed: 24 additions & 20 deletions b/‎pytorch_optimizer/adamp.py‎
Lines changed: 24 additions & 20 deletions
@@ -6,8 +6,8 @@ verify_ssl = false
 [dev-packages]
 isort = "==5.10.1"
 black = "==21.12b0"
-pylint = "==3.0.0a4"
-pytest = "==6.2.5"
+pylint = "==2.11.1"
+pytest = "==7.0.1"
 pytest-cov = "==3.0.0"
 
 [packages]
 
@@ -3,8 +3,7 @@
 import torch
 from torch.optim.optimizer import Optimizer
 
-from pytorch_optimizer.types import BETAS, BUFFER, CLOSURE, DEFAULTS, LOSS, PARAMETERS, STATE
-from pytorch_optimizer.utils import is_valid_parameters
+from pytorch_optimizer.types import BETAS, CLOSURE, DEFAULTS, LOSS, PARAMETERS, STATE
 
 
 class AdaBelief(Optimizer):
@@ -65,21 +64,14 @@ def __init__(
 
         self.check_valid_parameters()
 
-        buffer: BUFFER = [[None, None, None] for _ in range(10)]
-
-        if is_valid_parameters(params):
-            for param in params:
-                if 'betas' in param and (param['betas'][0] != betas[0] or param['betas'][1] != betas[1]):
-                    param['buffer'] = buffer
-
         defaults: DEFAULTS = dict(
             lr=lr,
             betas=betas,
             eps=eps,
             weight_decay=weight_decay,
             amsgrad=amsgrad,
             adamd_debias_term=adamd_debias_term,
-            buffer=buffer,
+            buffer=[[None, None, None] for _ in range(10)],
         )
         super().__init__(params, defaults)
 
@@ -101,53 +93,57 @@ def __setstate__(self, state: STATE):
             group.setdefault('amsgrad', False)
             group.setdefault('adamd_debias_term', False)
 
+    @torch.no_grad()
     def reset(self):
         for group in self.param_groups:
             for p in group['params']:
                 state = self.state[p]
 
                 state['step'] = 0
-                state['exp_avg'] = torch.zeros_like(p.data)
-                state['exp_avg_var'] = torch.zeros_like(p.data)
+                state['exp_avg'] = torch.zeros_like(p)
+                state['exp_avg_var'] = torch.zeros_like(p)
                 if group['amsgrad']:
-                    state['max_exp_avg_var'] = torch.zeros_like(p.data)
+                    state['max_exp_avg_var'] = torch.zeros_like(p)
 
+    @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
         loss: LOSS = None
         if closure is not None:
-            loss = closure()
+            with torch.enable_grad():
+                loss = closure()
 
         for group in self.param_groups:
             for p in group['params']:
                 if p.grad is None:
                     continue
 
-                half_precision: bool = False
-                if p.data.dtype == torch.float16:
-                    half_precision = True
-                    p.data = p.data.float()
-                    p.grad = p.grad.float()
-
-                grad = p.grad.data
+                grad = p.grad
                 if grad.is_sparse:
                     raise RuntimeError('AdaBelief does not support sparse gradients')
 
+                if grad.dtype in (torch.float16, torch.bfloat16):
+                    grad = grad.float()
+
+                p_fp32 = p
+                if p.dtype in {torch.float16, torch.bfloat16}:
+                    p_fp32 = p_fp32.float()
+
                 state = self.state[p]
                 if len(state) == 0:
                     state['step'] = 0
-                    state['exp_avg'] = torch.zeros_like(p.data)
-                    state['exp_avg_var'] = torch.zeros_like(p.data)
+                    state['exp_avg'] = torch.zeros_like(p)
+                    state['exp_avg_var'] = torch.zeros_like(p)
                     if group['amsgrad']:
-                        state['max_exp_avg_var'] = torch.zeros_like(p.data)
+                        state['max_exp_avg_var'] = torch.zeros_like(p)
 
                 if self.weight_decouple:
                     if not self.fixed_decay:
-                        p.data.mul_(1.0 - group['lr'] * group['weight_decay'])
+                        p_fp32.mul_(1.0 - group['lr'] * group['weight_decay'])
                     else:
-                        p.data.mul_(1.0 - group['weight_decay'])
+                        p_fp32.mul_(1.0 - group['weight_decay'])
                 else:
                     if group['weight_decay'] != 0:
-                        grad.add_(p.data, alpha=group['weight_decay'])
+                        grad.add_(p_fp32, alpha=group['weight_decay'])
 
                 exp_avg, exp_avg_var = state['exp_avg'], state['exp_avg_var']
 
@@ -170,15 +166,15 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                         out=max_exp_avg_var,
                     )
 
-                    denom = (max_exp_avg_var.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
+                    de_nom = (max_exp_avg_var.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
                 else:
-                    denom = (exp_avg_var.add_(group['eps']).sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
+                    de_nom = (exp_avg_var.add_(group['eps']).sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
 
                 if not self.rectify:
                     step_size = group['lr']
                     if not group['adamd_debias_term']:
                         step_size /= bias_correction1
-                    p.data.addcdiv_(exp_avg, denom, value=-step_size)
+                    p_fp32.addcdiv_(exp_avg, de_nom, value=-step_size)
                 else:
                     buffered = group['buffer'][int(state['step'] % 10)]
                     if state['step'] == buffered[0]:
@@ -212,13 +208,12 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                         buffered[2] = step_size
 
                     if n_sma >= self.n_sma_threshold:
-                        denom = exp_avg_var.sqrt().add_(group['eps'])
-                        p.data.addcdiv_(exp_avg, denom, value=-step_size * group['lr'])
+                        de_nom = exp_avg_var.sqrt().add_(group['eps'])
+                        p_fp32.addcdiv_(exp_avg, de_nom, value=-step_size * group['lr'])
                     elif step_size > 0:
-                        p.data.add_(exp_avg, alpha=-step_size * group['lr'])
+                        p_fp32.add_(exp_avg, alpha=-step_size * group['lr'])
 
-                if half_precision:
-                    p.data = p.data.half()
-                    p.grad = p.grad.half()
+                if p.dtype in {torch.float16, torch.bfloat16}:
+                    p.copy_(p_fp32)
 
         return loss
@@ -91,17 +91,19 @@ def __setstate__(self, state: STATE):
             group.setdefault('amsbound', False)
             group.setdefault('adamd_debias_term', False)
 
+    @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
         loss: LOSS = None
         if closure is not None:
-            loss = closure()
+            with torch.enable_grad():
+                loss = closure()
 
         for group, base_lr in zip(self.param_groups, self.base_lrs):
             for p in group['params']:
                 if p.grad is None:
                     continue
 
-                grad = p.grad.data
+                grad = p.grad
                 if grad.is_sparse:
                     raise RuntimeError('AdaBound does not support sparse gradients')
 
@@ -114,46 +116,42 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                     if group['amsbound']:
                         state['max_exp_avg_sq'] = torch.zeros_like(p)
 
-                exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
-                if group['amsbound']:
-                    max_exp_avg_sq = state['max_exp_avg_sq']
-
                 state['step'] += 1
+                exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
 
                 if self.weight_decouple:
                     if not self.fixed_decay:
-                        p.data.mul_(1.0 - group['lr'] * group['weight_decay'])
+                        p.mul_(1.0 - group['lr'] * group['weight_decay'])
                     else:
-                        p.data.mul_(1.0 - group['weight_decay'])
+                        p.mul_(1.0 - group['weight_decay'])
                 else:
                     if group['weight_decay'] != 0:
-                        grad.add_(p.data, alpha=group['weight_decay'])
+                        grad.add_(p, alpha=group['weight_decay'])
 
                 beta1, beta2 = group['betas']
 
-                exp_avg.mul_(beta1).add_(grad, alpha=1 - beta1)
-                exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1 - beta2)
+                exp_avg.mul_(beta1).add_(grad, alpha=1.0 - beta1)
+                exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1.0 - beta2)
                 if group['amsbound']:
-                    max_exp_avg_sq = torch.max(max_exp_avg_sq, exp_avg_sq)
-                    denom = max_exp_avg_sq.sqrt().add_(group['eps'])
+                    max_exp_avg_sq = torch.max(state['max_exp_avg_sq'], exp_avg_sq)
+                    de_nom = max_exp_avg_sq.sqrt().add_(group['eps'])
                 else:
-                    denom = exp_avg_sq.sqrt().add_(group['eps'])
+                    de_nom = exp_avg_sq.sqrt().add_(group['eps'])
 
                 bias_correction1 = 1 - beta1 ** state['step']
                 bias_correction2 = 1 - beta2 ** state['step']
 
-                if group['adamd_debias_term']:
-                    step_size = group['lr'] * math.sqrt(bias_correction2)
-                else:
-                    step_size = group['lr'] * math.sqrt(bias_correction2) / bias_correction1
+                step_size = group['lr'] * math.sqrt(bias_correction2)
+                if not group['adamd_debias_term']:
+                    step_size /= bias_correction1
 
                 final_lr = group['final_lr'] * group['lr'] / base_lr
                 lower_bound = final_lr * (1 - 1 / (group['gamma'] * state['step'] + 1))
                 upper_bound = final_lr * (1 + 1 / (group['gamma'] * state['step']))
 
-                step_size = torch.full_like(denom, step_size)
-                step_size.div_(denom).clamp_(lower_bound, upper_bound).mul_(exp_avg)
+                step_size = torch.full_like(de_nom, step_size)
+                step_size.div_(de_nom).clamp_(lower_bound, upper_bound).mul_(exp_avg)
 
-                p.data.add_(-step_size)
+                p.add_(-step_size)
 
         return loss
@@ -142,10 +142,12 @@ def set_hessian(self):
                 # approximate the expected values of z * (H@z)
                 p.hess += h_z * z / self.num_samples
 
+    @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
         loss: LOSS = None
         if closure is not None:
-            loss = closure()
+            with torch.enable_grad():
+                loss = closure()
 
         self.zero_hessian()
         self.set_hessian()
@@ -164,8 +166,8 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 state = self.state[p]
                 if len(state) == 1:
                     state['step'] = 0
-                    state['exp_avg'] = torch.zeros_like(p.data)
-                    state['exp_hessian_diag_sq'] = torch.zeros_like(p.data)
+                    state['exp_avg'] = torch.zeros_like(p)
+                    state['exp_hessian_diag_sq'] = torch.zeros_like(p)
 
                 exp_avg, exp_hessian_diag_sq = state['exp_avg'], state['exp_hessian_diag_sq']
 
@@ -180,13 +182,12 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 bias_correction2 = 1 - beta2 ** state['step']
 
                 hessian_power = group['hessian_power']
-                denom = (exp_hessian_diag_sq / bias_correction2).pow_(hessian_power / 2).add_(group['eps'])
+                de_nom = (exp_hessian_diag_sq / bias_correction2).pow_(hessian_power / 2.0).add_(group['eps'])
 
-                if group['adamd_debias_term']:
-                    step_size = group['lr']
-                else:
-                    step_size = group['lr'] / bias_correction1
+                step_size = group['lr']
+                if not group['adamd_debias_term']:
+                    step_size /= bias_correction1
 
-                p.addcdiv_(exp_avg, denom, value=-step_size)
+                p.addcdiv_(exp_avg, de_nom, value=-step_size)
 
         return loss
@@ -117,58 +117,58 @@ def projection(
         wd: float = 1.0
         expand_size: List[int] = [-1] + [1] * (len(p.shape) - 1)
         for view_func in (self.channel_view, self.layer_view):
-            cosine_sim = self.cosine_similarity(grad, p.data, eps, view_func)
+            cosine_sim = self.cosine_similarity(grad, p, eps, view_func)
 
-            if cosine_sim.max() < delta / math.sqrt(view_func(p.data).size()[1]):
-                p_n = p.data / view_func(p.data).norm(dim=1).view(expand_size).add_(eps)
+            if cosine_sim.max() < delta / math.sqrt(view_func(p).size()[1]):
+                p_n = p / view_func(p).norm(dim=1).view(expand_size).add_(eps)
                 perturb -= p_n * view_func(p_n * perturb).sum(dim=1).view(expand_size)
                 wd = wd_ratio
                 return perturb, wd
 
         return perturb, wd
 
+    @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
         loss: LOSS = None
         if closure is not None:
-            loss = closure()
+            with torch.enable_grad():
+                loss = closure()
 
         for group in self.param_groups:
             for p in group['params']:
                 if p.grad is None:
                     continue
 
+                grad = p.grad
+                if grad.is_sparse:
+                    raise RuntimeError('AdamP does not support sparse gradients')
+
                 state = self.state[p]
                 if len(state) == 0:
                     state['step'] = 0
-                    state['exp_avg'] = torch.zeros_like(p.data)
-                    state['exp_avg_sq'] = torch.zeros_like(p.data)
+                    state['exp_avg'] = torch.zeros_like(p)
+                    state['exp_avg_sq'] = torch.zeros_like(p)
 
                 exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
 
                 state['step'] += 1
                 beta1, beta2 = group['betas']
 
-                bias_correction1 = 1 - beta1 ** state['step']
-                bias_correction2 = 1 - beta2 ** state['step']
-
-                grad = p.grad.data
+                bias_correction1 = 1.0 - beta1 ** state['step']
+                bias_correction2 = 1.0 - beta2 ** state['step']
 
                 if self.use_gc:
                     grad = centralize_gradient(grad, gc_conv_only=False)
 
                 exp_avg.mul_(beta1).add_(grad, alpha=1.0 - beta1)
-                exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1 - beta2)
+                exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1.0 - beta2)
 
-                denom = (exp_avg_sq.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
-                if group['adamd_debias_term']:
-                    step_size = group['lr']
-                else:
-                    step_size = group['lr'] / bias_correction1
+                de_nom = (exp_avg_sq.sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])
 
                 if group['nesterov']:
-                    perturb = (beta1 * exp_avg + (1 - beta1) * grad) / denom
+                    perturb = (beta1 * exp_avg + (1.0 - beta1) * grad) / de_nom
                 else:
-                    perturb = exp_avg / denom
+                    perturb = exp_avg / de_nom
 
                 wd_ratio: float = 1
                 if len(p.shape) > 1:
@@ -182,8 +182,12 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                     )
 
                 if group['weight_decay'] > 0:
-                    p.data.mul_(1.0 - group['lr'] * group['weight_decay'] * wd_ratio)
+                    p.mul_(1.0 - group['lr'] * group['weight_decay'] * wd_ratio)
+
+                step_size = group['lr']
+                if not group['adamd_debias_term']:
+                    step_size /= bias_correction1
 
-                p.data.add_(perturb, alpha=-step_size)
+                p.add_(perturb, alpha=-step_size)
 
         return loss