Merge branch 'ashors/mcore-data' of github.com:NVIDIA-NeMo/RL into ashors/mcore-train

ashors1 · ashors1 · commit 9c7cab8b1cd2 · 2026-01-13T13:04:24.000-08:00
diff --git a/nemo_rl/models/megatron/common.py b/nemo_rl/models/megatron/common.py
@@ -23,13 +23,131 @@
     reduce_aux_losses_tracker_across_ranks,
 )
 
+from nemo_rl.algorithms.loss_functions import LossFunction, SequencePackingLossWrapper
+from nemo_rl.distributed.batched_data_dict import BatchedDataDict
+
+
 def _round_up_to_multiple(value: int, multiple: int) -> int:
     return (
         ((value + multiple - 1) // multiple * multiple)
         if value % multiple != 0
         else value
     )
 
+
+def forward_step_arbitrary_loss(
+    state: GlobalState,
+    global_valid_seqs: torch.Tensor,
+    global_valid_toks: torch.Tensor,
+    data_iterator: Iterator[BatchedDataDict[Any]],
+    model: GPTModel,
+    loss_fn: LossFunction,
+    pack_sequences: bool = False,
+    defer_fp32_logits: Optional[bool] = None,
+    cp_normalize: bool = True,
+    policy_cfg: Optional[dict] = None,
+):
+    """Forward training step with support for packed sequences and context parallelism.
+
+    Args:
+        state (GlobalState): Global state for the run
+        global_valid_seqs: Global count of valid sequences
+        global_valid_toks: Global count of valid tokens
+        data_iterator: Input data iterator
+        model (GPTModel): The GPT Model
+        loss_fn (LossFunction): Loss function to apply
+        pack_sequences (bool): Whether to pack sequences for efficiency
+        defer_fp32_logits (Optional[bool]): Whether to skip the conversion of logits to fp32
+        cp_normalize (bool): Whether to normalize the loss by the cp_size
+        policy_cfg (Optional[dict]): Policy configuration containing generation parameters
+
+    Notes on packed sequences with context parallelism (CP):
+        - When CP > 1, each sequence is padded to a multiple of (cp_size * 2)
+        - The factor of 2 ensures load balancing for causal attention
+        - cu_seqlens tracks actual sequence boundaries
+        - cu_seqlens_padded tracks padded sequence boundaries for CP
+        - Requires TransformerEngine >= 1.10 for CP support
+    """
+    straggler_timer = state.straggler_timer
+
+    # Get the pre-processed microbatch from the iterator
+    processed_mb = next(data_iterator)
+
+    # Extract the processed components
+    data_dict = processed_mb.data_dict
+    input_ids = processed_mb.input_ids
+    input_ids_cp_sharded = processed_mb.input_ids_cp_sharded
+    attention_mask = processed_mb.attention_mask
+    position_ids = processed_mb.position_ids
+    packed_seq_params = processed_mb.packed_seq_params
+    cu_seqlens_padded = processed_mb.cu_seqlens_padded
+
+    multimodal_data = data_dict.get_multimodal_dict(
+        as_tensors=True, device=input_ids_cp_sharded.device
+    )
+    if len(multimodal_data) > 0:
+        position_ids = None
+
+    additional_kwargs = {}
+    # Mamba models currently do not support packed_seq_params
+    if packed_seq_params is not None:
+        additional_kwargs["packed_seq_params"] = packed_seq_params
+
+    if defer_fp32_logits:
+        additional_kwargs["fp32_output"] = False
+
+    with straggler_timer:
+        output_tensor = model(
+            input_ids=input_ids_cp_sharded,
+            position_ids=position_ids,
+            attention_mask=attention_mask,
+            **additional_kwargs,
+            **multimodal_data,
+        )
+
+        # Apply temperature scaling to logits for training
+        # This matches the dtensor worker's _apply_temperature_scaling in the train method
+        if (
+            policy_cfg is not None
+            and "generation" in policy_cfg
+            and policy_cfg["generation"] is not None
+        ):
+            output_tensor.div_(policy_cfg["generation"]["temperature"])
+
+        # Unpack the output tensor if we did packed sequences
+        if pack_sequences and packed_seq_params is not None:
+            # remove padding
+            loss_fn = SequencePackingLossWrapper(
+                loss_fn=loss_fn,
+                cu_seqlens_q=packed_seq_params.cu_seqlens_q,
+                cu_seqlens_q_padded=packed_seq_params.cu_seqlens_q_padded,
+            )
+
+        loss_data = data_dict
+
+    loss_fn_wrapped = partial(
+        loss_fn,
+        data=loss_data,
+        global_valid_seqs=global_valid_seqs,
+        global_valid_toks=global_valid_toks,
+        vocab_parallel_rank=get_tensor_model_parallel_rank(),
+        vocab_parallel_group=get_tensor_model_parallel_group(),
+        context_parallel_group=get_context_parallel_group(),
+    )
+
+    if cp_normalize:
+        cp_size = get_context_parallel_world_size()
+        orig_loss_fn_wrapped = loss_fn_wrapped
+
+        def _div_by_cp_size(*args, **kwargs):
+            loss, metrics = orig_loss_fn_wrapped(*args, **kwargs)
+            return loss / cp_size, metrics
+
+        loss_fn_wrapped = _div_by_cp_size
+
+    return output_tensor, loss_fn_wrapped
+
+
 def broadcast_tensor(
     tensor: torch.Tensor | None, src_rank: int, group: dist.ProcessGroup
 ) -> torch.Tensor:
diff --git a/nemo_rl/models/megatron/data.py b/nemo_rl/models/megatron/data.py
@@ -16,17 +16,17 @@
 from typing import Any, Iterator, Optional, Tuple
 
 import torch
-
 from megatron.core.packed_seq_params import PackedSeqParams
 from megatron.core.parallel_state import (
     get_context_parallel_rank,
     get_context_parallel_world_size,
 )
 from megatron.training.utils import get_ltor_masks_and_position_ids
-from nemo_rl.models.megatron.common import _round_up_to_multiple
+
 from nemo_rl.algorithms.interfaces import LossFunction, LossType
 from nemo_rl.distributed.batched_data_dict import BatchedDataDict
 from nemo_rl.distributed.model_utils import _get_tokens_on_this_cp_rank
+from nemo_rl.models.megatron.common import _round_up_to_multiple
 
 
 @dataclass
@@ -45,6 +45,7 @@ class ProcessedMicrobatch:
         packed_seq_params: PackedSeqParams for sequence packing (None if not packing)
         cu_seqlens_padded: Padded cumulative sequence lengths (None if not packing)
     """
+
     data_dict: BatchedDataDict[Any]
     input_ids: torch.Tensor
     input_ids_cp_sharded: torch.Tensor
@@ -192,6 +193,7 @@ def get_microbatch_iterator(
         padded_seq_length,
     )
 
+
 def process_microbatch(
     data_dict: BatchedDataDict[Any],
     seq_length_key: Optional[str] = None,
@@ -200,7 +202,7 @@ def process_microbatch(
     pad_full_seq_to: Optional[int] = None,
     pack_sequences: bool = False,
 ):
-    #with straggler_timer(bdata=True):
+    # with straggler_timer(bdata=True):
     input_ids = data_dict["input_ids"]
     attention_mask = None
     position_ids = None
@@ -217,9 +219,7 @@ def process_microbatch(
         assert seq_length_key is not None, (
             "seq_length_key must be provided for packed sequences"
         )
-        assert seq_length_key in data_dict, (
-            f"{seq_length_key} not found in data_dict"
-        )
+        assert seq_length_key in data_dict, f"{seq_length_key} not found in data_dict"
 
         # Get sequence lengths and context parallel size
         seq_lengths = data_dict[seq_length_key]
@@ -240,7 +240,7 @@ def process_microbatch(
             cp_rank=get_context_parallel_rank(),
             cp_size=get_context_parallel_world_size(),
         )
-    
+
         # For packed sequences, position_ids and attention_mask are typically None
         # The PackedSeqParams handles all necessary sequence information
         position_ids = None
@@ -265,6 +265,7 @@ def process_microbatch(
         cu_seqlens_padded,
     )
 
+
 def process_global_batch(
     data: BatchedDataDict[Any],
     batch_idx: int,
@@ -301,6 +302,7 @@ def process_global_batch(
         global_valid_toks,
     )
 
+
 def _pack_sequences_for_megatron(
     input_ids: torch.Tensor,
     seq_lengths: torch.Tensor,
@@ -605,6 +607,7 @@ def _unpack_sequences_from_megatron(
 
     return unpacked_output
 
+
 def check_sequence_dim(data: BatchedDataDict[Any]):
     # dim 1 is always assumed to be the sequence dim, sanity check this here
     sequence_dim = 1
@@ -614,4 +617,4 @@ def check_sequence_dim(data: BatchedDataDict[Any]):
             assert v.shape[sequence_dim] == seq_dim_size, (
                 f"Dim 1 must be the sequence dim, expected dim 1={seq_dim_size} but got shape {v.shape}"
             )
-    return sequence_dim, seq_dim_size
+    return sequence_dim, seq_dim_size
diff --git a/nemo_rl/models/policy/workers/megatron_policy_worker.py b/nemo_rl/models/policy/workers/megatron_policy_worker.py
@@ -94,23 +94,16 @@
     verify_right_padding,
 )
 from nemo_rl.models.generation.vllm.config import VllmConfig
-from nemo_rl.models.megatron.common import get_moe_metrics
+from nemo_rl.models.megatron.common import (
+    broadcast_tensor,
+    forward_step_arbitrary_loss,
+    get_moe_metrics,
+)
+from nemo_rl.models.megatron.community_import import import_model_from_hf_name
 from nemo_rl.models.megatron.data import (
     get_microbatch_iterator,
     process_global_batch,
 )
-from nemo_rl.models.megatron.pipeline_parallel import (
-    broadcast_obj_from_pp_rank,
-    broadcast_loss_metrics_from_last_stage,
-    broadcast_tensors_from_last_stage,
-)
-from nemo_rl.models.megatron.train import (
-    megatron_forward_backward,
-    LossPostProcessor,
-    LogprobsPostProcessor,
-    TopkLogitsPostProcessor,
-)
-from nemo_rl.models.megatron.community_import import import_model_from_hf_name
 from nemo_rl.models.policy import PolicyConfig
 from nemo_rl.models.policy.interfaces import (
     ColocatablePolicyInterface,
diff --git a/tests/unit/algorithms/test_sequence_packing_gradients.py b/tests/unit/algorithms/test_sequence_packing_gradients.py
@@ -328,7 +328,16 @@ def forward(
         output_tensor, wrapped_loss_fn = forward_with_post_processing_fn(
             data_iterator=make_processed_microbatch_iterator(
                 iter([packed_data_dict]),
-                cfg=cfg,
+                cfg={
+                    "sequence_packing": {"enabled": True},
+                    "dynamic_batching": {"enabled": False},
+                    "megatron_cfg": {
+                        "tensor_model_parallel_size": 1,
+                        "sequence_parallel": False,
+                        "pipeline_model_parallel_size": 1,
+                        "context_parallel_size": cp_size,
+                    },
+                },
                 seq_length_key="input_lengths",
                 pad_individual_seqs_to_multiple_of=pad_to_multiple,
                 pad_packed_seq_to_multiple_of=1,
diff --git a/tests/unit/models/megatron/test_megatron_data.py b/tests/unit/models/megatron/test_megatron_data.py
@@ -73,6 +73,7 @@ def test_processed_microbatch_fields(self):
         assert microbatch.packed_seq_params == mock_packed_seq_params
         assert torch.equal(microbatch.cu_seqlens_padded, mock_cu_seqlens_padded)
 
+
 class TestCheckSequenceDim:
     """Tests for check_sequence_dim function."""
 
@@ -154,7 +155,9 @@ def test_process_microbatch_no_packing(self, mock_get_masks):
 
         # Create test data
         data_dict = MagicMock()
-        input_ids = torch.tensor([[1, 2, 3, 4, 5, 0, 0, 0, 0, 0], [6, 7, 8, 9, 10, 11, 12, 0, 0, 0]])
+        input_ids = torch.tensor(
+            [[1, 2, 3, 4, 5, 0, 0, 0, 0, 0], [6, 7, 8, 9, 10, 11, 12, 0, 0, 0]]
+        )
         data_dict.__getitem__ = MagicMock(return_value=input_ids)
 
         (
@@ -178,7 +181,9 @@ def test_process_microbatch_no_packing(self, mock_get_masks):
         mock_get_masks.assert_called_once()
 
     @patch("nemo_rl.models.megatron.data.get_context_parallel_rank", return_value=0)
-    @patch("nemo_rl.models.megatron.data.get_context_parallel_world_size", return_value=1)
+    @patch(
+        "nemo_rl.models.megatron.data.get_context_parallel_world_size", return_value=1
+    )
     @patch("nemo_rl.models.megatron.data._pack_sequences_for_megatron")
     def test_process_microbatch_with_packing(
         self, mock_pack, mock_cp_world, mock_cp_rank
@@ -226,7 +231,7 @@ def test_process_microbatch_with_packing(
         assert attention_mask is None
         assert position_ids is None
         assert cu_seqlens_padded is not None
-  
+
         # Verify pack was called
         mock_pack.assert_called_once()
 
@@ -323,6 +328,7 @@ def test_process_global_batch_requires_sample_mask(self):
 
         assert "sample_mask must be present" in str(exc_info.value)
 
+
 class TestGetMicrobatchIterator:
     """Tests for get_microbatch_iterator function."""
 
@@ -383,8 +389,13 @@ def test_get_microbatch_iterator_sequence_packing(
         mock_make_iterator.return_value = mock_iterator
 
         mock_data = MagicMock()
-        mock_data.make_microbatch_iterator_for_packable_sequences.return_value = iter([])
-        mock_data.get_microbatch_iterator_for_packable_sequences_len.return_value = (10, 512)
+        mock_data.make_microbatch_iterator_for_packable_sequences.return_value = iter(
+            []
+        )
+        mock_data.get_microbatch_iterator_for_packable_sequences_len.return_value = (
+            10,
+            512,
+        )
 
         cfg = {
             "dynamic_batching": {"enabled": False},
@@ -473,8 +484,13 @@ def test_get_microbatch_iterator_auto_detects_seq_length_key(
         mock_make_iterator.return_value = mock_iterator
 
         mock_data = MagicMock()
-        mock_data.make_microbatch_iterator_for_packable_sequences.return_value = iter([])
-        mock_data.get_microbatch_iterator_for_packable_sequences_len.return_value = (5, 256)
+        mock_data.make_microbatch_iterator_for_packable_sequences.return_value = iter(
+            []
+        )
+        mock_data.get_microbatch_iterator_for_packable_sequences_len.return_value = (
+            5,
+            256,
+        )
 
         cfg = {
             "dynamic_batching": {"enabled": False},
@@ -1677,4 +1693,3 @@ def test_get_pack_sequence_parameters_for_megatron(get_pack_sequence_parameters_
     # Check that all workers succeeded
     for i, result in enumerate(results):
         assert result["success"], f"Worker {i} failed: {result['error']}"
-