fix: guard AutoConfig.from_pretrained in PP mask precomputation (#1378)

hemildesai · claude · NeMo Bot · commit fd706e7a876a · 2026-02-25T15:31:10.000Z
* fix: guard AutoConfig.from_pretrained in PP mask precomputation

Wrap the AutoConfig.from_pretrained call in a try/except so that if it
fails (e.g. network issues, invalid model name), the pipeline parallel
mask precomputation is gracefully skipped with a warning instead of
crashing the dataloader setup.

Co-Authored-By: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
Signed-off-by: Hemil Desai &lt;hemild@nvidia.com&gt;

* fix

Signed-off-by: Hemil Desai &lt;hemild@nvidia.com&gt;

---------

Signed-off-by: Hemil Desai &lt;hemild@nvidia.com&gt;
Co-authored-by: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
Signed-off-by: NeMo Bot &lt;nemo-bot@nvidia.com&gt;
diff --git a/examples/llm_finetune/deepseek_v32/deepseek_v32_hellaswag_pp.yaml b/examples/llm_finetune/deepseek_v32/deepseek_v32_hellaswag_pp.yaml
@@ -13,9 +13,7 @@
 # limitations under the License.
 
 # Finetuning config for DeepSeek V3.2 on HellaSwag
-#
-# To run this recipe, please use the following command:
-# torchrun --nproc-per-node=8 recipes/llm/finetune.py --config examples/llm_finetune/deepseek_v32/deepseek_v32_hellaswag_pp.yaml
+# Replace /path/to/deepseek-v32 with the path to the DeepSeek V3.2 model
 
 seed: 1234
 
@@ -57,14 +55,16 @@ model:
   _target_: nemo_automodel.NeMoAutoModelForCausalLM.from_config
   config:
     _target_: nemo_automodel.components.models.deepseek_v32.config.DeepseekV32Config.from_pretrained
-    pretrained_model_name_or_path: deepseek-ai/DeepSeek-V3.2
+    pretrained_model_name_or_path: /path/to/deepseek-v32
+    name_or_path: /path/to/deepseek-v32
   trust_remote_code: true
+  load_base_model: true
   backend:
     _target_: nemo_automodel.components.models.common.BackendConfig
     attn: sdpa # TE requires the latest cudnn version so disabling by default
     linear: te
     rms_norm: te
-    rope_fusion: true
+    rope_fusion: false
     enable_deepep: true
     fake_balanced_gate: false
     enable_hf_state_dict_adapter: true
@@ -82,6 +82,9 @@ dataset:
   _target_: nemo_automodel.components.datasets.llm.hellaswag.HellaSwag
   path_or_dataset: rowan/hellaswag
   split: train
+  tokenizer:
+    _target_: transformers.AutoTokenizer.from_pretrained
+    pretrained_model_name_or_path: /path/to/deepseek-v32
 
 packed_sequence:
   packed_sequence_size: 0
@@ -97,6 +100,9 @@ validation_dataset:
   _target_: nemo_automodel.components.datasets.llm.hellaswag.HellaSwag
   path_or_dataset: rowan/hellaswag
   split: train
+  tokenizer:
+    _target_: transformers.AutoTokenizer.from_pretrained
+    pretrained_model_name_or_path: /path/to/deepseek-v32
 
 validation_dataloader:
   _target_: torchdata.stateful_dataloader.StatefulDataLoader
diff --git a/nemo_automodel/recipes/llm/train_ft.py b/nemo_automodel/recipes/llm/train_ft.py
@@ -558,26 +558,32 @@ def build_dataloader(
         if pp_enabled:
             from nemo_automodel.components.datasets.utils import add_causal_masks_to_batch
 
-            hf_model_config = AutoConfig.from_pretrained(
-                _get_model_name(cfg_model), trust_remote_code=compute_trust_remote_code_from_model(cfg_model)
-            )
-
-            if "collate_fn" in dl_kwargs:
-                # Case 1: PP enabled + collate_fn exists -> chain them
-                # base_collate_fn -> add_causal_masks_to_batch
-                base_collate_fn = dl_kwargs["collate_fn"]
+            try:
+                hf_model_config = AutoConfig.from_pretrained(
+                    _get_model_name(cfg_model), trust_remote_code=compute_trust_remote_code_from_model(cfg_model)
+                )
+            except Exception:
+                logger.warning(
+                    "Failed to load model config for causal mask precomputation. "
+                    "Pipeline parallel mask precomputation will be skipped."
+                )
+            else:
+                if "collate_fn" in dl_kwargs:
+                    # Case 1: PP enabled + collate_fn exists -> chain them
+                    # base_collate_fn -> add_causal_masks_to_batch
+                    base_collate_fn = dl_kwargs["collate_fn"]
 
-                def chained_collate_fn(batch, base_fn=base_collate_fn, config=hf_model_config):
-                    batch = base_fn(batch)  # Apply base collate (padding, batching, etc.)
-                    batch = add_causal_masks_to_batch(batch, model_config=config)  # Add masks
-                    return batch
+                    def chained_collate_fn(batch, base_fn=base_collate_fn, config=hf_model_config):
+                        batch = base_fn(batch)  # Apply base collate (padding, batching, etc.)
+                        batch = add_causal_masks_to_batch(batch, model_config=config)  # Add masks
+                        return batch
 
-                dl_kwargs["collate_fn"] = chained_collate_fn
-            else:
-                # Case 2: PP enabled + no collate_fn -> only add masks
-                dl_kwargs["collate_fn"] = lambda batch, config=hf_model_config: add_causal_masks_to_batch(
-                    batch, model_config=config
-                )
+                    dl_kwargs["collate_fn"] = chained_collate_fn
+                else:
+                    # Case 2: PP enabled + no collate_fn -> only add masks
+                    dl_kwargs["collate_fn"] = lambda batch, config=hf_model_config: add_causal_masks_to_batch(
+                        batch, model_config=config
+                    )
 
         try:
             import torch.multiprocessing as mp
diff --git a/tests/unit_tests/recipes/test_train_ft.py b/tests/unit_tests/recipes/test_train_ft.py
@@ -1171,6 +1171,160 @@ def test_build_model_and_optimizer_return_values():
 # Tests for _get_model_name helper
 # =============================================================================
 
+# =============================================================================
+# Tests for PP mask precomputation guard in build_dataloader
+# =============================================================================
+
+
+def test_build_dataloader_pp_autoconfig_failure_skips_mask_collate(caplog):
+    """When AutoConfig.from_pretrained raises, mask precomputation is skipped and a warning is logged."""
+    cfg_ds = ConfigNode(
+        {
+            "_target_": "tests.unit_tests.recipes.test_train_ft.DummyIterableDataset",
+            "tokenizer": None,
+            "num_shards": 4,
+        }
+    )
+    cfg_dl = ConfigNode(
+        {
+            "_target_": "tests.unit_tests.recipes.test_train_ft.dl_factory_capture",
+            "num_workers": 0,
+        }
+    )
+    cfg_model = ConfigNode({"pretrained_model_name_or_path": "bad/model"})
+    cfg_ps = ConfigNode({})
+
+    with (
+        patch("nemo_automodel.recipes.llm.train_ft.AutoConfig.from_pretrained", side_effect=OSError("not found")),
+        caplog.at_level(logging.WARNING),
+    ):
+        dl, tok = build_dataloader(
+            cfg_ds=cfg_ds,
+            cfg_dl=cfg_dl,
+            cfg_model=cfg_model,
+            cfg_ps=cfg_ps,
+            seed=123,
+            local_batch_size=2,
+            global_batch_size=4,
+            max_steps=None,
+            val_check_interval=None,
+            dp_rank=0,
+            dp_world_size=1,
+            pp_enabled=True,
+        )
+
+    assert "Failed to load model config for causal mask precomputation" in caplog.text
+    # collate_fn should NOT have been set since AutoConfig failed
+    mod = importlib.import_module("tests.unit_tests.recipes.test_train_ft")
+    captured = getattr(mod.dl_factory_capture, "captured")
+    assert "collate_fn" not in captured
+
+
+def test_build_dataloader_pp_autoconfig_success_sets_mask_collate():
+    """When AutoConfig.from_pretrained succeeds and no collate_fn exists, a mask-only collate is set."""
+    cfg_ds = ConfigNode(
+        {
+            "_target_": "tests.unit_tests.recipes.test_train_ft.DummyIterableDataset",
+            "tokenizer": None,
+            "num_shards": 4,
+        }
+    )
+    cfg_dl = ConfigNode(
+        {
+            "_target_": "tests.unit_tests.recipes.test_train_ft.dl_factory_capture",
+            "num_workers": 0,
+        }
+    )
+    cfg_model = ConfigNode({"pretrained_model_name_or_path": "good/model"})
+    cfg_ps = ConfigNode({})
+
+    mock_config = MagicMock()
+    with (
+        patch("nemo_automodel.recipes.llm.train_ft.AutoConfig.from_pretrained", return_value=mock_config),
+        patch("nemo_automodel.components.datasets.utils.add_causal_masks_to_batch", side_effect=lambda b, **kw: b),
+    ):
+        dl, tok = build_dataloader(
+            cfg_ds=cfg_ds,
+            cfg_dl=cfg_dl,
+            cfg_model=cfg_model,
+            cfg_ps=cfg_ps,
+            seed=123,
+            local_batch_size=2,
+            global_batch_size=4,
+            max_steps=None,
+            val_check_interval=None,
+            dp_rank=0,
+            dp_world_size=1,
+            pp_enabled=True,
+        )
+
+    # collate_fn should have been set (mask-only path)
+    mod = importlib.import_module("tests.unit_tests.recipes.test_train_ft")
+    captured = getattr(mod.dl_factory_capture, "captured")
+    assert "collate_fn" in captured
+    assert callable(captured["collate_fn"])
+
+
+def test_build_dataloader_pp_autoconfig_success_chains_existing_collate():
+    """When AutoConfig.from_pretrained succeeds and collate_fn exists, they are chained."""
+    call_order = []
+
+    def my_collate(batch):
+        call_order.append("base")
+        return batch
+
+    cfg_ds = ConfigNode(
+        {
+            "_target_": "tests.unit_tests.recipes.test_train_ft.DummyIterableDataset",
+            "tokenizer": None,
+            "num_shards": 4,
+        }
+    )
+    cfg_dl = ConfigNode(
+        {
+            "_target_": "tests.unit_tests.recipes.test_train_ft.dl_factory_capture",
+            "num_workers": 0,
+            "collate_fn": my_collate,
+        }
+    )
+    cfg_model = ConfigNode({"pretrained_model_name_or_path": "good/model"})
+    cfg_ps = ConfigNode({})
+
+    mock_config = MagicMock()
+
+    def mock_add_masks(batch, model_config=None):
+        call_order.append("masks")
+        return batch
+
+    with (
+        patch("nemo_automodel.recipes.llm.train_ft.AutoConfig.from_pretrained", return_value=mock_config),
+        patch("nemo_automodel.components.datasets.utils.add_causal_masks_to_batch", side_effect=mock_add_masks),
+    ):
+        dl, tok = build_dataloader(
+            cfg_ds=cfg_ds,
+            cfg_dl=cfg_dl,
+            cfg_model=cfg_model,
+            cfg_ps=cfg_ps,
+            seed=123,
+            local_batch_size=2,
+            global_batch_size=4,
+            max_steps=None,
+            val_check_interval=None,
+            dp_rank=0,
+            dp_world_size=1,
+            pp_enabled=True,
+        )
+
+    mod = importlib.import_module("tests.unit_tests.recipes.test_train_ft")
+    captured = getattr(mod.dl_factory_capture, "captured")
+    assert "collate_fn" in captured
+    chained_fn = captured["collate_fn"]
+
+    # Invoke the chained collate to verify ordering
+    chained_fn(["dummy_batch"])
+    assert call_order == ["base", "masks"]
+
+
 @pytest.mark.parametrize("cfg_attrs,expected", [
     # String config
     ({"config": "org/model-name"}, "org/model-name"),