Merge pull request #365 from kozistr/fix/spam-optimizer

kozistr · web-flow · commit 487200db854e · 2025-03-16T12:15:07.000+09:00
[Fix] potential bug in SPAM optimizer
diff --git a/docs/changelogs/v3.4.3.md b/docs/changelogs/v3.4.3.md
@@ -20,3 +20,4 @@
 ### Fix
 
 * bias_correction2 in ScheduleFreeRAdam optimizer. (#354)
+* potential bug in SPAM optimizer. (#365)
diff --git a/pytorch_optimizer/optimizer/experimental/ranger25.py b/pytorch_optimizer/optimizer/experimental/ranger25.py
@@ -169,9 +169,9 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 state = self.state[p]
 
                 if len(state) == 0:
-                    state['exp_avg'] = torch.zeros_like(p)
-                    state['exp_avg_sq'] = torch.zeros_like(p)
-                    state['exp_avg_slow'] = torch.zeros_like(p)
+                    state['exp_avg'] = torch.zeros_like(grad)
+                    state['exp_avg_sq'] = torch.zeros_like(grad)
+                    state['exp_avg_slow'] = torch.zeros_like(grad)
                     state['slow_momentum'] = p.clone()
 
                 self.apply_weight_decay(
diff --git a/pytorch_optimizer/optimizer/sgd.py b/pytorch_optimizer/optimizer/sgd.py
@@ -389,7 +389,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 state = self.state[p]
                 if momentum > 0.0:
                     if len(state) == 0:
-                        state['momentum_buffer'] = torch.zeros_like(p)
+                        state['momentum_buffer'] = torch.zeros_like(grad)
 
                     buf = state['momentum_buffer']
                     buf.mul_(momentum).add_(grad, alpha=1.0 - momentum)
diff --git a/pytorch_optimizer/optimizer/sgdp.py b/pytorch_optimizer/optimizer/sgdp.py
@@ -62,11 +62,7 @@ def __str__(self) -> str:
 
     @torch.no_grad()
     def reset(self):
-        for group in self.param_groups:
-            for p in group['params']:
-                state = self.state[p]
-
-                state['momentum'] = torch.zeros_like(p)
+        pass
 
     @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
@@ -87,7 +83,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
 
                 state = self.state[p]
                 if len(state) == 0:
-                    state['momentum'] = torch.zeros_like(p)
+                    state['momentum'] = torch.zeros_like(grad)
 
                 buf = state['momentum']
                 buf.mul_(momentum).add_(grad, alpha=1.0 - group['dampening'])
diff --git a/pytorch_optimizer/optimizer/shampoo.py b/pytorch_optimizer/optimizer/shampoo.py
@@ -303,7 +303,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
 
                 state = self.state[p]
                 if len(state) == 0:
-                    state['momentum'] = torch.zeros_like(p)
+                    state['momentum'] = torch.zeros_like(grad)
                     state['pre_conditioner'] = PreConditioner(
                         p,
                         beta2,
diff --git a/pytorch_optimizer/optimizer/sm3.py b/pytorch_optimizer/optimizer/sm3.py
@@ -91,12 +91,12 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 state = self.state[p]
                 if len(state) == 0:
                     state['step'] = 0
-                    state['momentum_buffer'] = torch.zeros_like(p)
+                    state['momentum_buffer'] = torch.zeros_like(grad)
 
                     if grad.is_sparse:
                         state['accumulator_0'] = torch.zeros(shape[0], dtype=grad.dtype, device=grad.device)
                     elif rank == 0:
-                        state['accumulator_0'] = torch.zeros_like(p)
+                        state['accumulator_0'] = torch.zeros_like(grad)
                     else:
                         for i in range(rank):
                             state[f'accumulator_{i}'] = torch.zeros(
diff --git a/pytorch_optimizer/optimizer/soap.py b/pytorch_optimizer/optimizer/soap.py
@@ -161,7 +161,7 @@ def get_orthogonal_matrix_qr(self, state, max_precondition_dim: int = 10000, mer
             # Compute QR decomposition
             # We cast to float32 because:
             #  - torch.linalg.qr does not have support for types like bfloat16 as of PyTorch 2.5.1
-            #  - the correctness / numerical stability of the Q orthogonalization is important for the stability
+            #  - the correctness / numerical stability of the Q orthogonality is important for the stability
             #    of the optimizer
             q, _ = torch.linalg.qr(power_iter.to(torch.float32))
             q = q.to(power_iter.dtype)
diff --git a/pytorch_optimizer/optimizer/sophia.py b/pytorch_optimizer/optimizer/sophia.py
@@ -113,8 +113,8 @@ def step(self, closure: CLOSURE = None, hessian: Optional[List[torch.Tensor]] =
 
                 state = self.state[p]
                 if len(state) == 0:
-                    state['momentum'] = torch.zeros_like(p)
-                    state['hessian_moment'] = torch.zeros_like(p)
+                    state['momentum'] = torch.zeros_like(grad)
+                    state['hessian_moment'] = torch.zeros_like(grad)
 
                 self.apply_weight_decay(
                     p=p,
diff --git a/pytorch_optimizer/optimizer/spam.py b/pytorch_optimizer/optimizer/spam.py
@@ -68,7 +68,7 @@ def __init__(
         betas: BETAS = (0.9, 0.999),
         density: float = 1.0,
         weight_decay: float = 0.0,
-        warmup_epoch: int = 150,
+        warmup_epoch: int = 50,
         threshold: int = 5000,
         grad_accu_steps: int = 20,
         update_proj_gap: int = 500,
@@ -90,11 +90,12 @@ def __init__(
         self.threshold = threshold
         self.grad_accu_steps = grad_accu_steps
         self.update_proj_gap = update_proj_gap
-        self.warmup = CosineDecay(0.99, warmup_epoch)
 
         defaults: DEFAULTS = {'lr': lr, 'betas': betas, 'weight_decay': weight_decay, 'eps': eps, **kwargs}
         super().__init__(params, defaults)
 
+        self.warmup = CosineDecay(0.99, self.warmup_epoch)
+
         self.init_masks()
 
         self.state['total_step'] = 0
@@ -119,17 +120,16 @@ def initialize_random_rank_boolean_tensor(m: int, n: int, density: float, device
 
         return tensor.view(m, n)
 
-    def update_mask_random(self, density: float, p: torch.Tensor, old_mask: torch.Tensor) -> torch.Tensor:
+    def update_mask_random(self, p: torch.Tensor, old_mask: torch.Tensor) -> torch.Tensor:
         r"""Update a random mask.
 
         Create a new random mask with the same density, compute overlap ratio with old_mask, and update the EMA for
         the overlap region.
 
-        :param density: float. fraction of elements to keep.
         :param p: torch.Tensor. parameter to which the mask is applied.
         :param old_mask: torch.Tensor. previous binary mask.
         """
-        new_mask: torch.Tensor = torch.rand_like(p) < density
+        new_mask: torch.Tensor = torch.rand_like(p) < self.density
 
         exp_avg = torch.zeros_like(p[new_mask])
         exp_avg_sq = torch.zeros_like(p[new_mask])
@@ -155,8 +155,8 @@ def update_masks(self) -> None:
         for group in self.param_groups:
             for p in group['params']:
                 state = self.state[p]
-                if 'mask' in state:
-                    state['mask'] = self.update_mask_random(self.density, p, state['mask'])
+                if p.dim() == 2 and 'mask' in state:
+                    state['mask'] = self.update_mask_random(p, state['mask'])
                     p.mask = state['mask']
 
     def init_masks(self) -> None:
@@ -177,13 +177,7 @@ def __str__(self) -> str:
 
     @torch.no_grad()
     def reset(self):
-        for group in self.param_groups:
-            group['step'] = 0
-            for p in group['params']:
-                state = self.state[p]
-
-                state['exp_avg'] = torch.zeros_like(p)
-                state['exp_avg_sq'] = torch.zeros_like(p)
+        pass
 
     @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
@@ -220,11 +214,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 if 'mask' in state:
                     grad = grad[state['mask']]
 
-                if 'exp_avg' not in state:
-                    state['exp_avg'] = torch.zeros_like(grad)
-                    state['exp_avg_sq'] = torch.zeros_like(grad)
-
-                if (self.state['total_step'] + 1) % self.update_proj_gap == 0:
+                if ('exp_avg' not in state) or (self.state['total_step'] + 1) % self.update_proj_gap == 0:
                     state['exp_avg'] = torch.zeros_like(grad)
                     state['exp_avg_sq'] = torch.zeros_like(grad)
 
diff --git a/pytorch_optimizer/optimizer/srmm.py b/pytorch_optimizer/optimizer/srmm.py
@@ -72,8 +72,8 @@ def step(self, closure: CLOSURE = None) -> LOSS:
 
                 state = self.state[p]
                 if len(state) == 0:
-                    state['mov_avg_grad'] = torch.zeros_like(p)
-                    state['mov_avg_param'] = torch.zeros_like(p)
+                    state['mov_avg_grad'] = torch.zeros_like(grad)
+                    state['mov_avg_param'] = torch.zeros_like(grad)
 
                 mov_avg_grad, mov_avg_param = state['mov_avg_grad'], state['mov_avg_param']
 
diff --git a/pytorch_optimizer/optimizer/swats.py b/pytorch_optimizer/optimizer/swats.py
@@ -110,17 +110,17 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 state = self.state[p]
 
                 if len(state) == 0:
-                    state['exp_avg'] = torch.zeros_like(p)
-                    state['exp_avg_sq'] = torch.zeros_like(p)
+                    state['exp_avg'] = torch.zeros_like(grad)
+                    state['exp_avg_sq'] = torch.zeros_like(grad)
                     state['exp_avg2'] = torch.zeros((1,), dtype=grad.dtype, device=grad.device)
                     if group['ams_bound']:
-                        state['max_exp_avg_sq'] = torch.zeros_like(p)
+                        state['max_exp_avg_sq'] = torch.zeros_like(grad)
                     if group['adanorm']:
                         state['exp_grad_norm'] = torch.zeros((1,), dtype=grad.dtype, device=grad.device)
 
                 self.apply_weight_decay(
                     p=p,
-                    grad=p.grad,
+                    grad=grad,
                     lr=group['lr'],
                     weight_decay=group['weight_decay'],
                     weight_decouple=group['weight_decouple'],
diff --git a/pytorch_optimizer/optimizer/tam.py b/pytorch_optimizer/optimizer/tam.py
@@ -54,13 +54,7 @@ def __str__(self) -> str:
 
     @torch.no_grad()
     def reset(self):
-        for group in self.param_groups:
-            group['step'] = 0
-            for p in group['params']:
-                state = self.state[p]
-
-                state['s'] = torch.zeros_like(p)
-                state['momentum_buffer'] = torch.zeros_like(p)
+        pass
 
     @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
@@ -157,14 +151,7 @@ def __str__(self) -> str:
 
     @torch.no_grad()
     def reset(self):
-        for group in self.param_groups:
-            group['step'] = 0
-            for p in group['params']:
-                state = self.state[p]
-
-                state['s'] = torch.zeros_like(p)
-                state['exp_avg'] = torch.zeros_like(p)
-                state['exp_avg_sq'] = torch.zeros_like(p)
+        pass
 
     @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
diff --git a/pytorch_optimizer/optimizer/tiger.py b/pytorch_optimizer/optimizer/tiger.py
@@ -45,11 +45,7 @@ def __str__(self) -> str:
 
     @torch.no_grad()
     def reset(self):
-        for group in self.param_groups:
-            for p in group['params']:
-                state = self.state[p]
-
-                state['exp_avg'] = torch.zeros_like(p)
+        pass
 
     @torch.no_grad()
     def step(self, closure: CLOSURE = None) -> LOSS:
@@ -71,7 +67,7 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 state = self.state[p]
 
                 if len(state) == 0:
-                    state['exp_avg'] = torch.zeros_like(p)
+                    state['exp_avg'] = torch.zeros_like(grad)
 
                 self.apply_weight_decay(
                     p=p,
diff --git a/pytorch_optimizer/optimizer/yogi.py b/pytorch_optimizer/optimizer/yogi.py
@@ -103,14 +103,14 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                 state = self.state[p]
 
                 if len(state) == 0:
-                    state['exp_avg'] = torch.full_like(p, fill_value=group['initial_accumulator'])
-                    state['exp_avg_sq'] = torch.full_like(p, fill_value=group['initial_accumulator'])
+                    state['exp_avg'] = torch.full_like(grad, fill_value=group['initial_accumulator'])
+                    state['exp_avg_sq'] = torch.full_like(grad, fill_value=group['initial_accumulator'])
                     if group['adanorm']:
                         state['exp_grad_norm'] = torch.zeros((1,), dtype=grad.dtype, device=grad.device)
 
                 self.apply_weight_decay(
                     p=p,
-                    grad=p.grad,
+                    grad=grad,
                     lr=group['lr'],
                     weight_decay=group['weight_decay'],
                     weight_decouple=group['weight_decouple'],

Original file line number	Diff line number	Diff line change
`@@ -20,3 +20,4 @@`
`20`	`20`	`### Fix`
`21`	`21`
`22`	`22`	`* bias_correction2 in ScheduleFreeRAdam optimizer. (#354)`
	`23`	`+* potential bug in SPAM optimizer. (#365)`