[Feature] Implement AdamC optimizer (#390)

kozistr · web-flow · commit 2a4423dc9632 · 2025-06-12T15:18:31.000+09:00
* feature: implement AdamC optimizer

* update: AdamC optimizer

* docs: AdamC optimizer

* docs: AdamC optimizer

* update: recipe

* docs: v3.6.1 changelog

* docs: README

* update: test_get_supported_optimizers

* update: recipe
diff --git a/README.md b/README.md
@@ -10,7 +10,7 @@
 
 ## The reasons why you use `pytorch-optimizer`.
 
-* Wide range of supported optimizers. Currently, **107 optimizers (+ `bitsandbytes`, `qgalore`, `torchao`)**, **16 lr schedulers**, and **13 loss functions** are supported!
+* Wide range of supported optimizers. Currently, **108 optimizers (+ `bitsandbytes`, `qgalore`, `torchao`)**, **16 lr schedulers**, and **13 loss functions** are supported!
 * Including many variants such as `ADOPT`, `Cautious`, `AdamD`, `StableAdamW`, and `Gradient Centrailiaztion`
 * Easy to use, clean, and tested codes
 * Active maintenance
@@ -215,6 +215,7 @@ get_supported_optimizers(['adam*', 'ranger*'])
 | RACS & Alice        | *Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension*     |                                                                                                                | <https://arxiv.org/pdf/2502.07752>                                                          | [cite](https://ui.adsabs.harvard.edu/abs/2025arXiv250207752G/exportcitation)                                                        |
 | VSGD                | *Variational Stochastic Gradient Descent for Deep Neural Networks*                                             | [github](https://github.com/generativeai-tue/vsgd)                                                             | <https://openreview.net/forum?id=xu4ATNjcdy>                                                | [cite](https://github.com/generativeai-tue/vsgd/tree/main?tab=readme-ov-file#cite)                                                  |
 | SNSM                | *Subset-Norm and Subspace-Momentum: Faster Memory-Efficient Adaptive Optimization with Convergence Guarantees* | [github](https://github.com/timmytonga/sn-sm)                                                                  | <https://arxiv.org/abs/2411.07120>                                                          | [cite](https://ui.adsabs.harvard.edu/abs/2024arXiv241107120N/exportcitation)                                                        |
+| AdamC               | Why Gradients Rapidly Increase Near the End of Training*                                                       |                                                                                                                | <https://arxiv.org/abs/2506.02285>                                                          | [cite](https://ui.adsabs.harvard.edu/abs/2025arXiv250602285D/exportcitation)                                                        |
 
 ## Supported LR Scheduler
 
diff --git a/docs/changelogs/v3.6.1.md b/docs/changelogs/v3.6.1.md
@@ -5,6 +5,8 @@
 * Implement more cooldown types for WSD learning rate scheduler. (#382, #386)
 * Implement `AdamWSN` optimizer. (#387, #389)
     * [Lean and Mean Adaptive Optimization via Subset-Norm and Subspace-Momentum with Convergence Guarantees](https://arxiv.org/abs/2411.07120)
+* Implement `AdamC` optimizer. (#388, #390)
+    * [Why Gradients Rapidly Increase Near the End of Training](https://arxiv.org/abs/2506.02285)
 
 ### Fix
 
diff --git a/docs/index.md b/docs/index.md
@@ -10,7 +10,7 @@
 
 ## The reasons why you use `pytorch-optimizer`.
 
-* Wide range of supported optimizers. Currently, **107 optimizers (+ `bitsandbytes`, `qgalore`, `torchao`)**, **16 lr schedulers**, and **13 loss functions** are supported!
+* Wide range of supported optimizers. Currently, **108 optimizers (+ `bitsandbytes`, `qgalore`, `torchao`)**, **16 lr schedulers**, and **13 loss functions** are supported!
 * Including many variants such as `ADOPT`, `Cautious`, `AdamD`, `StableAdamW`, and `Gradient Centrailiaztion`
 * Easy to use, clean, and tested codes
 * Active maintenance
@@ -215,6 +215,7 @@ get_supported_optimizers(['adam*', 'ranger*'])
 | RACS & Alice        | *Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension*     |                                                                                                                | <https://arxiv.org/pdf/2502.07752>                                                          | [cite](https://ui.adsabs.harvard.edu/abs/2025arXiv250207752G/exportcitation)                                                        |
 | VSGD                | *Variational Stochastic Gradient Descent for Deep Neural Networks*                                             | [github](https://github.com/generativeai-tue/vsgd)                                                             | <https://openreview.net/forum?id=xu4ATNjcdy>                                                | [cite](https://github.com/generativeai-tue/vsgd/tree/main?tab=readme-ov-file#cite)                                                  |
 | SNSM                | *Subset-Norm and Subspace-Momentum: Faster Memory-Efficient Adaptive Optimization with Convergence Guarantees* | [github](https://github.com/timmytonga/sn-sm)                                                                  | <https://arxiv.org/abs/2411.07120>                                                          | [cite](https://ui.adsabs.harvard.edu/abs/2024arXiv241107120N/exportcitation)                                                        |
+| AdamC               | Why Gradients Rapidly Increase Near the End of Training*                                                       |                                                                                                                | <https://arxiv.org/abs/2506.02285>                                                          | [cite](https://ui.adsabs.harvard.edu/abs/2025arXiv250602285D/exportcitation)                                                        |
 
 ## Supported LR Scheduler
 
diff --git a/docs/optimizer.md b/docs/optimizer.md
@@ -56,6 +56,10 @@
     :docstring:
     :members:
 
+::: pytorch_optimizer.AdamC
+    :docstring:
+    :members:
+
 ::: pytorch_optimizer.AdamG
     :docstring:
     :members:
diff --git a/pytorch_optimizer/__init__.py b/pytorch_optimizer/__init__.py
@@ -83,6 +83,7 @@
     Adalite,
     AdaLOMO,
     AdaMax,
+    AdamC,
     AdamG,
     AdamMini,
     AdaMod,
diff --git a/pytorch_optimizer/optimizer/__init__.py b/pytorch_optimizer/optimizer/__init__.py
@@ -19,6 +19,7 @@
 from pytorch_optimizer.optimizer.adalite import Adalite
 from pytorch_optimizer.optimizer.adam_mini import AdamMini
 from pytorch_optimizer.optimizer.adamax import AdaMax
+from pytorch_optimizer.optimizer.adamc import AdamC
 from pytorch_optimizer.optimizer.adamg import AdamG
 from pytorch_optimizer.optimizer.adamod import AdaMod
 from pytorch_optimizer.optimizer.adamp import SGDP, AdamP
@@ -221,6 +222,7 @@ def load_optimizer(optimizer: str) -> OPTIMIZER:
     AdaBelief,
     AdaBound,
     AdamWSN,
+    AdamC,
     PID,
     AdamP,
     Adai,
diff --git a/pytorch_optimizer/optimizer/adamc.py b/pytorch_optimizer/optimizer/adamc.py
@@ -0,0 +1,139 @@
+import math
+
+import torch
+
+from pytorch_optimizer.base.exception import NoComplexParameterError, NoSparseGradientError
+from pytorch_optimizer.base.optimizer import BaseOptimizer
+from pytorch_optimizer.base.type import BETAS, CLOSURE, DEFAULTS, GROUP, LOSS, PARAMETERS
+
+
+class AdamC(BaseOptimizer):
+    r"""Why Gradients Rapidly Increase Near the End of Training.
+
+    Set `normalized=True` for LayerNorm and BatchNorm layers.
+
+    :param params: PARAMETERS. iterable of parameters to optimize or dicts defining parameter groups.
+    :param lr: float. learning rate.
+    :param betas: BETAS. coefficients used for computing running averages of gradient and the squared hessian trace.
+    :param weight_decay: float. weight decay (L2 penalty).
+    :param weight_decouple: bool. the optimizer uses decoupled weight decay as in AdamW.
+    :param fixed_decay: bool. fix weight decay.
+    :param ams_bound: bool. whether to use the AMSBound variant.
+    :param eps: float. term added to the denominator to improve numerical stability.
+    :param maximize: bool. maximize the objective with respect to the params, instead of minimizing.
+    """
+
+    def __init__(
+        self,
+        params: PARAMETERS,
+        lr: float = 1e-3,
+        betas: BETAS = (0.9, 0.999),
+        weight_decay: float = 0.0,
+        weight_decouple: bool = True,
+        fixed_decay: bool = False,
+        ams_bound: bool = False,
+        eps: float = 1e-8,
+        maximize: bool = False,
+        **kwargs,
+    ):
+        self.validate_learning_rate(lr)
+        self.validate_betas(betas)
+        self.validate_non_negative(weight_decay, 'weight_decay')
+        self.validate_non_negative(eps, 'eps')
+
+        self.maximize = maximize
+        self.max_lr: float = lr
+
+        defaults: DEFAULTS = {
+            'lr': lr,
+            'betas': betas,
+            'weight_decay': weight_decay,
+            'weight_decouple': weight_decouple,
+            'fixed_decay': fixed_decay,
+            'ams_bound': ams_bound,
+            'eps': eps,
+            **kwargs,
+        }
+
+        super().__init__(params, defaults)
+
+    def __str__(self) -> str:
+        return 'AdamC'
+
+    def init_group(self, group: GROUP, **kwargs) -> None:
+        for p in group['params']:
+            if p.grad is None:
+                continue
+
+            grad = p.grad
+            if grad.is_sparse:
+                raise NoSparseGradientError(str(self))
+
+            if torch.is_complex(p):
+                raise NoComplexParameterError(str(self))
+
+            state = self.state[p]
+
+            if len(state) == 0:
+                state['exp_avg'] = torch.zeros_like(p)
+                state['exp_avg_sq'] = torch.zeros_like(p)
+
+                if group['ams_bound']:
+                    state['max_exp_avg_sq'] = torch.zeros_like(p)
+
+    @torch.no_grad()
+    def step(self, closure: CLOSURE = None) -> LOSS:
+        loss: LOSS = None
+        if closure is not None:
+            with torch.enable_grad():
+                loss = closure()
+
+        for group in self.param_groups:
+            if 'step' not in group:
+                self.init_group(group)
+                group['step'] = 1
+            else:
+                group['step'] += 1
+
+            beta1, beta2 = group['betas']
+
+            bias_correction1: float = self.debias(beta1, group['step'])
+            bias_correction2_sq: float = math.sqrt(self.debias(beta2, group['step']))
+
+            wd_step_size: float = group['lr'] if not group.get('normalized') else (group['lr'] ** 2) / self.max_lr
+
+            for p in group['params']:
+                if p.grad is None:
+                    continue
+
+                grad = p.grad
+
+                self.maximize_gradient(grad, maximize=self.maximize)
+
+                state = self.state[p]
+
+                exp_avg, exp_avg_sq = state['exp_avg'], state['exp_avg_sq']
+
+                self.apply_weight_decay(
+                    p=p,
+                    grad=grad,
+                    lr=wd_step_size,
+                    weight_decay=group['weight_decay'],
+                    weight_decouple=group['weight_decouple'],
+                    fixed_decay=group['fixed_decay'],
+                )
+
+                exp_avg.mul_(beta1).add_(grad, alpha=1.0 - beta1)
+                exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1.0 - beta2)
+
+                de_nom = self.apply_ams_bound(
+                    ams_bound=group['ams_bound'],
+                    exp_avg_sq=exp_avg_sq,
+                    max_exp_avg_sq=state.get('max_exp_avg_sq', None),
+                    eps=group['eps'],
+                )
+                de_nom.div_(bias_correction2_sq)
+
+                p.addcdiv_(exp_avg / bias_correction1, de_nom, value=-group['lr'])
+
+        return loss
diff --git a/tests/constants.py b/tests/constants.py
@@ -37,6 +37,7 @@
     Adai,
     Adalite,
     AdaMax,
+    AdamC,
     AdamG,
     AdaMod,
     AdamP,
@@ -649,6 +650,8 @@
     (Alice, {'lr': 1e0, 'rank': 2, 'leading_basis': 1, 'update_interval': 2}, 5),
     (VSGD, {'lr': 1e0}, 5),
     (AdamWSN, {'lr': 1e0}, 5),
+    (AdamC, {'lr': 1e0}, 5),
+    (AdamC, {'lr': 1e0, 'ams_bound': True}, 5),
     (Ranger25, {'lr': 1e-1}, 3),
     (Ranger25, {'lr': 1e-1, 't_alpha_beta3': 5}, 3),
     (Ranger25, {'lr': 5e-2, 'stable_adamw': False, 'orthograd': False, 'eps': None, 'lookahead_merge_time': 2}, 3),
diff --git a/tests/test_load_modules.py b/tests/test_load_modules.py
@@ -34,9 +34,9 @@ def test_load_lr_scheduler_invalid(invalid_lr_scheduler_names):
 
 
 def test_get_supported_optimizers():
-    assert len(get_supported_optimizers()) == 105
-    assert len(get_supported_optimizers('adam*')) == 9
-    assert len(get_supported_optimizers(['adam*', 'ranger*'])) == 12
+    assert len(get_supported_optimizers()) == 106
+    assert len(get_supported_optimizers('adam*')) == 10
+    assert len(get_supported_optimizers(['adam*', 'ranger*'])) == 13
 
 
 def test_get_supported_lr_schedulers():
diff --git a/tests/test_optimizers.py b/tests/test_optimizers.py
@@ -26,6 +26,25 @@
 )
 
 
+def build_optimizer_parameter(parameters, optimizer_name, config):
+    if optimizer_name == 'AliG':
+        config.update({'projection_fn': lambda: l2_projection(parameters, max_norm=1)})
+    if optimizer_name == 'Muon':
+        adamw_params = [p for i, p in enumerate(parameters) if i >= 2]
+        parameters = [p for i, p in enumerate(parameters) if i < 2]
+        config.update({'adamw_params': adamw_params})
+    if optimizer_name == 'AdamWSN':
+        sn_params = [p for p in parameters if p.ndim == 2]
+        regular_params = [p for p in parameters if p.ndim != 2]
+        parameters = [{'params': sn_params, 'sn': True}, {'params': regular_params, 'sn': False}]
+    if optimizer_name == 'AdamC':
+        norm_params = [p for i, p in enumerate(parameters) if i == 1]
+        regular_params = [p for i, p in enumerate(parameters) if i != 1]
+        parameters = [{'params': norm_params, 'normalized': True}, {'params': regular_params}]
+
+    return parameters, config
+
+
 @pytest.mark.parametrize('optimizer_fp32_config', OPTIMIZERS, ids=ids)
 def test_f32_optimizers(optimizer_fp32_config, environment):
     def closure(x):
@@ -42,18 +61,7 @@ def _closure() -> float:
     x_data, y_data = environment
     model, loss_fn = build_model()
 
-    parameters = list(model.parameters())
-
-    if optimizer_name == 'AliG':
-        config.update({'projection_fn': lambda: l2_projection(parameters, max_norm=1)})
-    if optimizer_name == 'Muon':
-        adamw_params = [p for i, p in enumerate(parameters) if i >= 2]
-        parameters = [p for i, p in enumerate(parameters) if i < 2]
-        config.update({'adamw_params': adamw_params})
-    if optimizer_name == 'AdamWSN':
-        sn_params = [p for p in parameters if p.ndim == 2]
-        regular_params = [p for p in parameters if p.ndim != 2]
-        parameters = [{'params': sn_params, 'sn': True}, {'params': regular_params, 'sn': False}]
+    parameters, config = build_optimizer_parameter(list(model.parameters()), optimizer_name, config)
 
     optimizer = optimizer_class(parameters, **config)
 
@@ -93,18 +101,7 @@ def _closure() -> float:
     model, loss_fn = build_model()
     model = model.bfloat16()
 
-    parameters = list(model.parameters())
-
-    if optimizer_name == 'AliG':
-        config.update({'projection_fn': lambda: l2_projection(parameters, max_norm=1)})
-    elif optimizer_name == 'Muon':
-        adamw_params = [p for i, p in enumerate(parameters) if i >= 2]
-        parameters = [p for i, p in enumerate(parameters) if i < 2]
-        config.update({'adamw_params': adamw_params})
-    if optimizer_name == 'AdamWSN':
-        sn_params = [p for p in parameters if p.ndim == 2]
-        regular_params = [p for p in parameters if p.ndim != 2]
-        parameters = [{'params': sn_params, 'sn': True}, {'params': regular_params, 'sn': False}]
+    parameters, config = build_optimizer_parameter(list(model.parameters()), optimizer_name, config)
 
     optimizer = optimizer_class(parameters, **config)
 
@@ -150,10 +147,7 @@ def _closure() -> float:
 
     x_data = x_data.to(torch.complex64)
 
-    parameters = list(model.parameters())
-
-    if optimizer_name == 'alig':
-        config.update({'projection_fn': lambda: l2_projection(parameters, max_norm=1)})
+    parameters, config = build_optimizer_parameter(list(model.parameters()), optimizer_name, config)
 
     optimizer = optimizer_class(parameters, **config)