kozistr
diff --git a/‎README.md‎
Lines changed: 107 additions & 105 deletions b/‎README.md‎
Lines changed: 107 additions & 105 deletions
diff --git a/‎docs/changelogs/v3.4.3.md‎ renamed to ‎docs/changelogs/v3.5.0.md‎
Lines changed: 4 additions & 0 deletions b/‎docs/changelogs/v3.4.3.md‎ renamed to ‎docs/changelogs/v3.5.0.md‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎docs/index.md‎
Lines changed: 107 additions & 105 deletions b/‎docs/index.md‎
Lines changed: 107 additions & 105 deletions
diff --git a/‎docs/optimizer.md‎
Lines changed: 8 additions & 0 deletions b/‎docs/optimizer.md‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎docs/visualization.md‎
Lines changed: 16 additions & 0 deletions b/‎docs/visualization.md‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎docs/visualizations/rastrigin_AdaGC.png‎
634 KB b/‎docs/visualizations/rastrigin_AdaGC.png‎
634 KB
diff --git a/‎docs/visualizations/rastrigin_SimplifiedAdEMAMix.png‎
633 KB b/‎docs/visualizations/rastrigin_SimplifiedAdEMAMix.png‎
633 KB
diff --git a/‎docs/visualizations/rosenbrock_AdaGC.png‎
141 KB b/‎docs/visualizations/rosenbrock_AdaGC.png‎
141 KB
diff --git a/‎docs/visualizations/rosenbrock_SimplifiedAdEMAMix.png‎
151 KB b/‎docs/visualizations/rosenbrock_SimplifiedAdEMAMix.png‎
151 KB
diff --git a/‎pyproject.toml‎
Lines changed: 11 additions & 11 deletions b/‎pyproject.toml‎
Lines changed: 11 additions & 11 deletions
@@ -5,6 +5,10 @@
 * Support `StableSPAM` optimizer. (#358, #359)
     * [How to Train in 4-Bit More Stably than 16-Bit Adam](https://arxiv.org/abs/2502.17055?)
 * Support `ScheduleFreeWrapper`. (#334, #360)
+* Implement `AdaGC` optimizer. (#364, #366)
+    * [Improving Training Stability for Large Language Model Pretraining](https://arxiv.org/abs/2502.11034)
+* Implement `Simplified-Ademamix` optimizer. (#364, #366)
+    * [Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants](https://arxiv.org/abs/2502.02431)
 
 ### Update
 
 
@@ -28,6 +28,10 @@
     :docstring:
     :members:
 
+::: pytorch_optimizer.AdaGC
+    :docstring:
+    :members:
+
 ::: pytorch_optimizer.AdaHessian
     :docstring:
     :members:
@@ -92,6 +96,10 @@
     :docstring:
     :members:
 
+::: pytorch_optimizer.SimplifiedAdEMAMix
+    :docstring:
+    :members:
+
 ::: pytorch_optimizer.ADOPT
     :docstring:
     :members:
 
@@ -22,6 +22,10 @@
 
 ![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rastrigin_AdaFactor.png)
 
+### AdaGC
+
+![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rastrigin_AdaGC.png)
+
 ### AdaHessian
 
 ![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rastrigin_AdaHessian.png)
@@ -326,6 +330,10 @@
 
 ![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rastrigin_SignSGD.png)
 
+### SimplifiedAdEMAMix
+
+![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rastrigin_SimplifiedAdEMAMix.png)
+
 ### SM3
 
 ![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rastrigin_SM3.png)
@@ -392,6 +400,10 @@
 
 ![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rosenbrock_AdaFactor.png)
 
+### AdaGC
+
+![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rosenbrock_AdaGC.png)
+
 ### AdaHessian
 
 ![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rosenbrock_AdaHessian.png)
@@ -696,6 +708,10 @@
 
 ![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rosenbrock_SignSGD.png)
 
+### SimplifiedAdEMAMix
+
+![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rosenbrock_SimplifiedAdEMAMix.png)
+
 ### SM3
 
 ![image](https://raw.githubusercontent.com/kozistr/pytorch_optimizer/main/docs/visualizations/rosenbrock_SM3.png)
 
@@ -11,17 +11,17 @@ repository = "https://github.com/kozistr/pytorch_optimizer"
 documentation = "https://pytorch-optimizers.readthedocs.io/en/latest"
 keywords = [
     "pytorch", "deep-learning", "optimizer", "lr scheduler", "A2Grad", "ASGD", "AccSGD", "AdaBelief", "AdaBound",
-    "AdaDelta", "AdaFactor", "AdaMax", "AdamG", "AdaMod", "AdaNorm", "AdaPNM", "AdaSmooth", "AdEMAMix", "ADOPT",
-    "AdaHessian", "Adai", "Adalite", "AdaLomo", "AdamMini", "AdamP", "AdamS", "Adan", "AggMo", "Aida", "AliG", "Amos",
-    "Apollo", "APOLLO", "AvaGrad", "bSAM", "CAME", "DAdaptAdaGrad", "DAdaptAdam", "DAdaptAdan", "DAdaptSGD",
-    "DAdaptLion", "DeMo", "DiffGrad", "EXAdam", "FAdam", "FOCUS", "Fromage", "FTRL", "GaLore", "Grams", "Gravity",
-    "GrokFast", "GSAM", "Kate", "Lamb", "LaProp", "LARS", "Lion", "LOMO", "Lookahead", "MADGRAD", "MARS", "MSVAG",
-    "Muno", "Nero", "NovoGrad", "OrthoGrad", "PAdam", "PCGrad", "PID", "PNM", "Prodigy", "PSGD", "QHAdam", "QHM",
-    "RAdam", "Ranger", "Ranger21", "RotoGrad", "SAM", "GCSAM", "LookSAM", "ScheduleFreeSGD", "ScheduleFreeAdamW",
-    "ScheduleFreeRAdam", "SCION", "SGDP", "Shampoo", "ScalableShampoo", "SGDW", "SignSGD", "SM3", "SOAP", "SopihaH",
-    "SPAM", "StableSPAM", "SRMM", "StableAdamW", "SWATS", "TAM", "Tiger", "TRAC", "WSAM", "Yogi", "BCE", "BCEFocal",
-    "Focal", "FocalCosine", "SoftF1", "Dice", "LDAM", "Jaccard", "Bi-Tempered", "Tversky", "FocalTversky",
-    "LovaszHinge", "bitsandbytes", "WSD", "QGaLore",
+    "AdaDelta", "AdaFactor", "AdaGC", "AdaMax", "AdamG", "AdaMod", "AdaNorm", "AdaPNM", "AdaSmooth", "AdEMAMix",
+    "Simplified-AdEMAMix", "ADOPT", "AdaHessian", "Adai", "Adalite", "AdaLomo", "AdamMini", "AdamP", "AdamS", "Adan",
+    "AggMo", "Aida", "AliG", "Amos", "Apollo", "APOLLO", "AvaGrad", "bSAM", "CAME", "DAdaptAdaGrad", "DAdaptAdam",
+    "DAdaptAdan", "DAdaptSGD", "DAdaptLion", "DeMo", "DiffGrad", "EXAdam", "FAdam", "FOCUS", "Fromage", "FTRL",
+    "GaLore", "Grams", "Gravity", "GrokFast", "GSAM", "Kate", "Lamb", "LaProp", "LARS", "Lion", "LOMO", "Lookahead",
+    "MADGRAD", "MARS", "MSVAG", "Muno", "Nero", "NovoGrad", "OrthoGrad", "PAdam", "PCGrad", "PID", "PNM", "Prodigy",
+    "PSGD", "QHAdam", "QHM", "RAdam", "Ranger", "Ranger21", "RotoGrad", "SAM", "GCSAM", "LookSAM", "ScheduleFreeSGD",
+    "ScheduleFreeAdamW", "ScheduleFreeRAdam", "SCION", "SGDP", "Shampoo", "ScalableShampoo", "SGDW", "SignSGD", "SM3",
+    "SOAP", "SopihaH", "SPAM", "StableSPAM", "SRMM", "StableAdamW", "SWATS", "TAM", "Tiger", "TRAC", "WSAM", "Yogi",
+    "BCE", "BCEFocal", "Focal", "FocalCosine", "SoftF1", "Dice", "LDAM", "Jaccard", "Bi-Tempered", "Tversky",
+    "FocalTversky", "LovaszHinge", "bitsandbytes", "WSD", "QGaLore",
 ]
 classifiers = [
     "License :: OSI Approved :: Apache Software License",