Adaptive learning rate for Muon: NorMuon and AdaMuon #76

mkhona-nvidia · 2025-11-13T02:20:00Z

This MR extends Muon to support adaptive learning rates for Muon-like optimizers, namely NorMuon (https://arxiv.org/pdf/2510.05491) and AdaMuon (https://arxiv.org/pdf/2507.11005).

Normuon recently was incorporated into the speedrun record (https://github.com/KellerJordan/modded-nanogpt/blob/master/train_gpt.py#L595)

copy-pr-bot · 2025-11-13T02:20:03Z

This pull request requires additional validation before any workflows can run on NVIDIA's runners.

Pull request vetters can view their responsibilities here.

Contributors can view more details about this message here.

skyw

How many will need this 2nd momentum other than OrthogonalizedOptimizer? Looks like none (or very few) because Adam based optimizer won't use it. In which case, should inherit from OrthogonalizedOptimizer and override step() function.

The choices are between copying code and keeping adding more functionalities to one class. In this case, I think copying some code in step() is the best trade off.

One another need to consider is if it turned out to be not very useful, how painful to remove the code, which would also lead to inheriting and override step function.

emerging_optimizers/mixin.py

emerging_optimizers/orthogonalized_optimizers/orthogonalized_optimizer.py

emerging_optimizers/orthogonalized_optimizers/adaptive_orthogonalized_optimizer.py

emerging_optimizers/mixin.py

skyw

I'm also debating whether we should define a class for 2nd momentum and passing an object, that way argument list can be better managed. Can to it in further PR when opinion form.

emerging_optimizers/orthogonalized_optimizers/adaptive_orthogonalized_optimizer.py

tests/test_orthogonalized_optimizer.py

emerging_optimizers/orthogonalized_optimizers/adaptive_muon.py

skyw

Some minor changes before we can merge, otherwise LGTM.

emerging_optimizers/orthogonalized_optimizers/adaptive_muon.py

tests/test_adaptive_orthogonalized_optimizer.py

mkhona-nvidia · 2025-11-18T20:24:05Z

/ok to test 75aa10b

mkhona-nvidia · 2025-11-18T21:44:14Z

/ok to test c720455

Signed-off-by: mikail <[email protected]>

…d second moment computations within same code Signed-off-by: mikail <[email protected]>

Signed-off-by: mikail <[email protected]>

This reverts commit 9d9ddf2. Signed-off-by: mikail <[email protected]>

Signed-off-by: mikail <[email protected]>

This reverts commit 66f9196. Signed-off-by: mikail <[email protected]>

Signed-off-by: mikail <[email protected]>

mkhona-nvidia · 2025-11-18T22:28:23Z

/ok to test cc72e34

Signed-off-by: mikail <[email protected]>

mkhona-nvidia · 2025-11-18T22:54:10Z

/ok to test a677a3a

mkhona-nvidia requested a review from skyw November 13, 2025 02:20

skyw requested changes Nov 13, 2025

View reviewed changes

emerging_optimizers/mixin.py Outdated Show resolved Hide resolved

emerging_optimizers/orthogonalized_optimizers/orthogonalized_optimizer.py Outdated Show resolved Hide resolved

mkhona-nvidia commented Nov 13, 2025

View reviewed changes

emerging_optimizers/orthogonalized_optimizers/adaptive_orthogonalized_optimizer.py Outdated Show resolved Hide resolved

emerging_optimizers/mixin.py Outdated Show resolved Hide resolved

skyw requested changes Nov 13, 2025

View reviewed changes

mkhona-nvidia self-assigned this Nov 14, 2025

mkhona-nvidia commented Nov 18, 2025

View reviewed changes

emerging_optimizers/orthogonalized_optimizers/adaptive_muon.py Show resolved Hide resolved

skyw requested changes Nov 18, 2025

View reviewed changes

mkhona-nvidia force-pushed the adaptive_orthogonalized_optimizer branch from 9b86617 to a9f8d2c Compare November 18, 2025 01:55

skyw reviewed Nov 18, 2025

View reviewed changes

tests/test_adaptive_orthogonalized_optimizer.py Outdated Show resolved Hide resolved

copy-pr-bot bot temporarily deployed to test November 18, 2025 20:24 Inactive

skyw previously approved these changes Nov 18, 2025

View reviewed changes

skyw enabled auto-merge (squash) November 18, 2025 20:28

copy-pr-bot bot had a problem deploying to nemo-ci November 18, 2025 20:31 Failure

mkhona-nvidia dismissed skyw’s stale review via c720455 November 18, 2025 21:43

copy-pr-bot bot temporarily deployed to test November 18, 2025 21:44 Inactive

copy-pr-bot bot temporarily deployed to nemo-ci November 18, 2025 21:48 Inactive

copy-pr-bot bot temporarily deployed to nemo-ci November 18, 2025 21:54 Inactive

copy-pr-bot bot had a problem deploying to nemo-ci November 18, 2025 21:54 Failure

copy-pr-bot bot had a problem deploying to nemo-ci November 18, 2025 22:08 Failure

mkhona-nvidia added 8 commits November 18, 2025 14:27

support adaptive learning rate for Muon: normuon and adamuon

35862cc

Signed-off-by: mikail <[email protected]>

removed adaptive orthogonalized optimizer as separate class, supporte…

c4f51d5

…d second moment computations within same code Signed-off-by: mikail <[email protected]>

removed extra literal

a996f3f

Signed-off-by: mikail <[email protected]>

subclassed orthogonalized optimizer and override step instead of mixin

0913b63

Signed-off-by: mikail <[email protected]>

removed mixin test

1b87e06

Signed-off-by: mikail <[email protected]>

cleaned up adaptive orthogonalized optimizer

fb802b8

Signed-off-by: mikail <[email protected]>

changed second moment to moment2, addressed other MR comments

890e7f6

Signed-off-by: mikail <[email protected]>

removed args doc

a47a325

Signed-off-by: mikail <[email protected]>

mkhona-nvidia added 15 commits November 18, 2025 14:27

updated test to import from adaptive_muon

6c88ac7

Signed-off-by: mikail <[email protected]>

added missing copyright

530bff1

Signed-off-by: mikail <[email protected]>

changed scale mode to 1.0, added it as a scale mode

8f46a91

Signed-off-by: mikail <[email protected]>

Revert "changed scale mode to 1.0, added it as a scale mode"

f4da4f1

This reverts commit 9d9ddf2. Signed-off-by: mikail <[email protected]>

addressed MR comments

939d9bf

Signed-off-by: mikail <[email protected]>

use consistent orth_grad naming

6f71c86

Signed-off-by: mikail <[email protected]>

addressed MR comment

ed365d9

Signed-off-by: mikail <[email protected]>

addressed MR comments

60c6903

Signed-off-by: mikail <[email protected]>

addressed MR comments

b3bb0f3

Signed-off-by: mikail <[email protected]>

added adaptive_muon test to CI

c26805d

Signed-off-by: mikail <[email protected]>

changed name to adaptive_muon

4f5d01b

Signed-off-by: mikail <[email protected]>

changed b2 default to 0.95

dd0f282

Signed-off-by: mikail <[email protected]>

added ref

e4d70c9

Signed-off-by: mikail <[email protected]>

Revert "added ref"

6d96345

This reverts commit 66f9196. Signed-off-by: mikail <[email protected]>

added ref

cc72e34

Signed-off-by: mikail <[email protected]>

mkhona-nvidia force-pushed the adaptive_orthogonalized_optimizer branch from d4bc2ec to cc72e34 Compare November 18, 2025 22:28

copy-pr-bot bot temporarily deployed to test November 18, 2025 22:28 Inactive

copy-pr-bot bot temporarily deployed to nemo-ci November 18, 2025 22:33 Inactive

copy-pr-bot bot had a problem deploying to nemo-ci November 18, 2025 22:46 Error

mkhona-nvidia added 2 commits November 18, 2025 14:50

fixed test

cf0a275

Signed-off-by: mikail <[email protected]>

raised typereror during correct place

a677a3a

Signed-off-by: mikail <[email protected]>

copy-pr-bot bot temporarily deployed to test November 18, 2025 22:54 Inactive

copy-pr-bot bot temporarily deployed to nemo-ci November 18, 2025 23:01 Inactive

copy-pr-bot bot temporarily deployed to nemo-ci November 18, 2025 23:04 Inactive

skyw approved these changes Nov 18, 2025

View reviewed changes

skyw merged commit 7d604f1 into NVIDIA-NeMo:main Nov 18, 2025
14 checks passed

Adaptive learning rate for Muon: NorMuon and AdaMuon #76

Adaptive learning rate for Muon: NorMuon and AdaMuon #76

Uh oh!

Conversation

mkhona-nvidia commented Nov 13, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

copy-pr-bot bot commented Nov 13, 2025

Uh oh!

skyw left a comment • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

skyw left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

skyw left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

mkhona-nvidia commented Nov 18, 2025

Uh oh!

mkhona-nvidia commented Nov 18, 2025

Uh oh!

mkhona-nvidia commented Nov 18, 2025

Uh oh!

mkhona-nvidia commented Nov 18, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

mkhona-nvidia commented Nov 13, 2025 •

edited

Loading

skyw left a comment •

edited

Loading