feature: support sparse optimizer

kozistr · kozistr · commit 30f648f9fe1c · 2022-01-29T20:21:46.000+09:00
diff --git a/pytorch_optimizer/madgrad.py b/pytorch_optimizer/madgrad.py
@@ -127,24 +127,24 @@ def step(self, closure: CLOSURE = None) -> LOSS:
                     s_masked = s.sparse_mask(grad)
 
                     # Compute x_0 from other known quantities
-                    rms_masked_values = grad_sum_sq_masked.data.pow(1 / 3).add_(eps)
-                    x0_masked_values = p_masked.data.addcdiv(s_masked.data, rms_masked_values, value=1)
+                    rms_masked_values = grad_sum_sq_masked._values().pow(1 / 3).add_(eps)
+                    x0_masked_values = p_masked._values().addcdiv(s_masked._values(), rms_masked_values, value=1)
 
                     # Dense + sparse op
                     grad_sq = grad * grad
                     grad_sum_sq.add_(grad_sq, alpha=_lambda)
                     grad_sum_sq_masked.add_(grad_sq, alpha=_lambda)
 
-                    rms_masked_values = grad_sum_sq_masked.data.pow_(1 / 3).add_(eps)
+                    rms_masked_values = grad_sum_sq_masked._values().pow_(1 / 3).add_(eps)
 
                     s.add_(grad, alpha=_lambda)
-                    s_masked.data.add_(grad.data, alpha=_lambda)
+                    s_masked._values().add_(grad._values(), alpha=_lambda)
 
                     # update masked copy of p
-                    p_kp1_masked_values = x0_masked_values.addcdiv(s_masked.data, rms_masked_values, value=-1)
+                    p_kp1_masked_values = x0_masked_values.addcdiv(s_masked._values(), rms_masked_values, value=-1)
 
                     # Copy updated masked p to dense p using an add operation
-                    p_masked.data.add_(p_kp1_masked_values, alpha=-1)
+                    p_masked._values().add_(p_kp1_masked_values, alpha=-1)
                     p.data.add_(p_masked, alpha=-1)
                 else:
                     if momentum == 0: