fix: fix mcore train_iters in grpo (#1383)

yuki-97 · web-flow · commit 905a224817e2 · 2025-10-17T16:41:34.000Z
Signed-off-by: Yuki Huang &lt;yukih@nvidia.com&gt;
diff --git a/nemo_rl/algorithms/grpo.py b/nemo_rl/algorithms/grpo.py
@@ -467,7 +467,10 @@ def setup(
 
     if policy_config.get("megatron_cfg", {}).get("enabled", False):
         ## NOTE: this is equal to the total number of scheduler steps
-        total_train_iters = min(grpo_config["max_num_steps"], len(dataloader))
+        total_train_iters = min(
+            grpo_config["max_num_steps"],
+            grpo_config["max_num_epochs"] * len(dataloader),
+        )
         policy_config["megatron_cfg"]["train_iters"] = total_train_iters
 
     policy = Policy(