Muon: An optimizer for the hidden layers of neural networks

Tentative implementation of NorMuon from https://arxiv.org/abs/2510.05491

Currently only implemented as single device:

SingleDeviceNorMuonWithAuxAdam(param_groups)

Original Muon implementation by:

Citation

@misc{jordan2024muon,
  author       = {Keller Jordan and Yuchen Jin and Vlado Boza and You Jiacheng and
                  Franz Cesista and Laker Newhouse and Jeremy Bernstein},
  title        = {Muon: An optimizer for hidden layers in neural networks},
  year         = {2024},
  url          = {https://kellerjordan.github.io/posts/muon/}
}

Name		Name	Last commit message	Last commit date
Latest commit History 177 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
muon.py		muon.py
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Muon: An optimizer for the hidden layers of neural networks

Citation

About

Uh oh!

Releases

Packages

Languages

License

CoffeeVampir3/NorMuon

Folders and files

Latest commit

History

Repository files navigation

Muon: An optimizer for the hidden layers of neural networks

Citation

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages