fix: Set use_flashinfer_fused_rope to False (#1636)

shanmugamr1992 · Shanmugam Ramasamy · web-flow · commit 363165a87fcf · 2025-12-15T04:21:44.000Z
Signed-off-by: Shanmugam Ramasamy &lt;111910568+shanmugamr1992@users.noreply.github.com&gt;
Co-authored-by: Shanmugam Ramasamy &lt;shanmugamr@cw-dfw-cs-001-login-01.cm.cluster&gt;
diff --git a/nemo_rl/models/policy/workers/megatron_policy_worker.py b/nemo_rl/models/policy/workers/megatron_policy_worker.py
@@ -1850,7 +1850,7 @@ def generate(
                 "tensor_model_parallel_size"
             ],
             use_cuda_graphs_for_non_decode_steps=use_cuda_graphs_for_non_decode_steps,
-            use_flashinfer_fused_rope=None,
+            use_flashinfer_fused_rope=False,
             unified_memory_level=unified_memory_level,
             max_tokens_override=max_tokens,
         )
diff --git a/tests/unit/models/policy/test_megatron_worker.py b/tests/unit/models/policy/test_megatron_worker.py
@@ -547,9 +547,6 @@ def generation_setup(request, tiny_llama_model_path):
             cluster.shutdown()
 
 
-@pytest.mark.skip(
-    reason="Skipping mcore generation test to unblock mcore bump. Current issue summarized in https://github.com/NVIDIA-NeMo/RL/issues/1633"
-)
 @pytest.mark.timeout(240)
 @pytest.mark.parametrize(
     "generation_setup",

Original file line number	Diff line number	Diff line change
`@@ -1850,7 +1850,7 @@ def generate(`
`1850`	`1850`	`"tensor_model_parallel_size"`
`1851`	`1851`	`],`
`1852`	`1852`	`use_cuda_graphs_for_non_decode_steps=use_cuda_graphs_for_non_decode_steps,`
`1853`		`- use_flashinfer_fused_rope=None,`
	`1853`	`+ use_flashinfer_fused_rope=False,`
`1854`	`1854`	`unified_memory_level=unified_memory_level,`
`1855`	`1855`	`max_tokens_override=max_tokens,`
`1856`	`1856`	`)`