Scion optimizer #70

mkhona-nvidia · 2025-11-04T18:22:02Z

Added Scion.

The main change is the parametrization to allow Franke-Wolfe. We now DO NOT use weight decay and instead use step size (i.e. the learning rate) and spectral radius, with the unit_rms choice for width scaling

copy-pr-bot · 2025-11-04T18:22:06Z

This pull request requires additional validation before any workflows can run on NVIDIA's runners.

Pull request vetters can view their responsibilities here.

Contributors can view more details about this message here.

Signed-off-by: mikail <[email protected]>

…Optimizer" This reverts commit 09012a3. Signed-off-by: mikail <[email protected]>

Signed-off-by: mikail <[email protected]>

…02.07529 Signed-off-by: mikail <[email protected]>

emerging_optimizers/orthogonalized_optimizers/scion.py

valentyn1boreiko · 2025-11-04T21:18:02Z

Amazing, thanks @mkhona-nvidia! Could you please also

add 5D parallelism support (which includes LayerWiseDistributedOptimizer wrapper and TensorParallel similar to what TensorParallelMuon in this commit is doing);
support 1D and 2D tensors in Scion with the automatic mapping to respective LMOs similar to how it is done here with class Auto and different norms in norms_dict;
allow to import Scion from megatron/core/optimizer/init.py as an alternative Megatron optimizer and allow for passing layer-wise different radii to tune depending on parameter groups (separately for the router, other hidden layers, embedding, output layers, and 1D tensors for example)?

Signed-off-by: mikail <[email protected]>

emerging_optimizers/orthogonalized_optimizers/scion.py

Signed-off-by: mikail <[email protected]>

skyw

Some minor changes needed. otherwise LGTM

emerging_optimizers/orthogonalized_optimizers/scion.py

Signed-off-by: mikail <[email protected]>

skyw · 2025-11-05T18:56:28Z

/ok to test 5521b58

mkhona-nvidia added 3 commits November 4, 2025 10:22

added Scion's franke-wolfe parametrization to orthogonalized Optimizer

c24b358

Signed-off-by: mikail <[email protected]>

Revert "added Scion's franke-wolfe parametrization to orthogonalized …

f5fc32e

…Optimizer" This reverts commit 09012a3. Signed-off-by: mikail <[email protected]>

added Scion's franke-wolfe parametrization to orthogonalized Optimizer

e6db31e

Signed-off-by: mikail <[email protected]>

mkhona-nvidia force-pushed the mkhona/scion branch from ff42aa8 to e6db31e Compare November 4, 2025 18:22

mkhona-nvidia added 3 commits November 4, 2025 10:36

removed choice of scale since we always use unit RMS scaling for muP

a230420

Signed-off-by: mikail <[email protected]>

changed named to scion from muon

617bf0f

Signed-off-by: mikail <[email protected]>

changed full form of name to match the paper https://arxiv.org/pdf/25…

d48d7a0

…02.07529 Signed-off-by: mikail <[email protected]>

mkhona-nvidia self-assigned this Nov 4, 2025

skyw reviewed Nov 4, 2025

View reviewed changes

emerging_optimizers/orthogonalized_optimizers/scion.py Outdated Show resolved Hide resolved

removed wd args from scion

bf129c9

Signed-off-by: mikail <[email protected]>

skyw reviewed Nov 4, 2025

View reviewed changes

emerging_optimizers/orthogonalized_optimizers/scion.py Outdated Show resolved Hide resolved

mkhona-nvidia changed the title ~~Mkhona/scion~~ Scion optimizer Nov 4, 2025

mkhona-nvidia added 2 commits November 4, 2025 16:13

removed nesterov as a choice in scion

1a11302

Signed-off-by: mikail <[email protected]>

used muon scale factor with preset mode

64f0c91

Signed-off-by: mikail <[email protected]>

skyw requested changes Nov 5, 2025

View reviewed changes

emerging_optimizers/orthogonalized_optimizers/scion.py Outdated Show resolved Hide resolved

emerging_optimizers/orthogonalized_optimizers/scion.py Outdated Show resolved Hide resolved

emerging_optimizers/orthogonalized_optimizers/scion.py Outdated Show resolved Hide resolved

mkhona-nvidia added 4 commits November 5, 2025 10:43

removed syrk from demonstration class

ae811e5

Signed-off-by: mikail <[email protected]>

made logging level info

c000e59

Signed-off-by: mikail <[email protected]>

changed args_doc

d67475e

Signed-off-by: mikail <[email protected]>

removed meanignless comment, args

5521b58

Signed-off-by: mikail <[email protected]>

skyw approved these changes Nov 5, 2025

View reviewed changes

skyw enabled auto-merge (squash) November 5, 2025 18:56

copy-pr-bot bot temporarily deployed to test November 5, 2025 18:56 Inactive

copy-pr-bot bot temporarily deployed to nemo-ci November 5, 2025 18:57 Inactive

skyw mentioned this pull request Nov 5, 2025

Add support for Scion as an OrthogonalizedOptimizer subclass #23

Closed

copy-pr-bot bot temporarily deployed to nemo-ci November 5, 2025 18:59 Inactive

skyw merged commit 9139d55 into NVIDIA-NeMo:main Nov 5, 2025
14 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Scion optimizer #70

Scion optimizer #70

Uh oh!

mkhona-nvidia commented Nov 4, 2025

Uh oh!

copy-pr-bot bot commented Nov 4, 2025

Uh oh!

Uh oh!

valentyn1boreiko commented Nov 4, 2025

Uh oh!

Uh oh!

skyw left a comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

skyw commented Nov 5, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Scion optimizer #70

Scion optimizer #70

Uh oh!

Conversation

mkhona-nvidia commented Nov 4, 2025

Uh oh!

copy-pr-bot bot commented Nov 4, 2025

Uh oh!

Uh oh!

valentyn1boreiko commented Nov 4, 2025

Uh oh!

Uh oh!

skyw left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

skyw commented Nov 5, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants