fix: adapt to mcore bump — mtp_loss_scaling_factor, padding_mask xfail, mock tokenizer

yaoyu-33 · yaoyu-33 · commit 2e3a6475c45d · 2026-02-06T11:46:08.000-08:00
- Remove explicit mtp_loss_scaling_factor=None from Qwen3NextModelProvider80B_A3B
  to inherit new mcore default of 0.1
- Mark Qwen3 MoE quantization tests as xfail: ModelOpt _QuantMoELayer
  does not support padding_mask yet
- Add mock tokenizer with vocab_size, eod, and unique_identifiers to
  test_samplers for MockGPTLowLevelDataset compatibility
diff --git a/src/megatron/bridge/models/qwen/qwen_provider.py b/src/megatron/bridge/models/qwen/qwen_provider.py
@@ -480,4 +480,3 @@ class Qwen3NextModelProvider80B_A3B(Qwen3NextModelProvider):
     moe_ffn_hidden_size: int = 512
     moe_shared_expert_intermediate_size: int = 512
     mtp_num_layers: Optional[int] = None
-    mtp_loss_scaling_factor: Optional[float] = None
diff --git a/tests/functional_tests/data/test_samplers.py b/tests/functional_tests/data/test_samplers.py
@@ -12,6 +12,9 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+from collections import OrderedDict
+from types import SimpleNamespace
+
 from megatron.bridge.data.loaders import build_train_valid_test_datasets
 from megatron.bridge.data.samplers import (
     RandomSeedDataset,
@@ -21,6 +24,19 @@
 from megatron.bridge.recipes.llama.llama3 import llama3_8b_pretrain_config as pretrain_config
 
 
+def _mock_tokenizer():
+    """Create a lightweight mock tokenizer for MockGPTLowLevelDataset.
+
+    MockGPTLowLevelDataset requires ``tokenizer.vocab_size`` and
+    ``tokenizer.eod`` when building mock datasets.
+    """
+    return SimpleNamespace(
+        vocab_size=128256,
+        eod=0,
+        unique_identifiers=OrderedDict({"class": "MockTokenizer"}),
+    )
+
+
 class TestDataSamplers:
     def test_build_pretraining_data_loader(self):
         dataloader = build_pretraining_data_loader(
@@ -49,6 +65,7 @@ def to_megatron_provider(self, load_weights=False):
             mock_from.return_value = _DummyBridge()
             cfg = pretrain_config()
         cfg.train.train_iters = 1000
+        cfg.dataset.tokenizer = _mock_tokenizer()
         cfg.dataset.finalize()
         dataset_provider = get_dataset_provider(cfg.dataset)
         dataset = build_train_valid_test_datasets(cfg=cfg, build_train_valid_test_datasets_provider=dataset_provider)
@@ -92,6 +109,7 @@ def to_megatron_provider(self, load_weights=False):
             mock_from.return_value = _DummyBridge()
             cfg = pretrain_config()
         cfg.train.train_iters = 1000
+        cfg.dataset.tokenizer = _mock_tokenizer()
         cfg.dataset.finalize()
         dataset_provider = get_dataset_provider(cfg.dataset)
         dataset = build_train_valid_test_datasets(cfg=cfg, build_train_valid_test_datasets_provider=dataset_provider)
@@ -144,6 +162,7 @@ def to_megatron_provider(self, load_weights=False):
             mock_from.return_value = _DummyBridge()
             cfg = pretrain_config()
         cfg.train.train_iters = 1000
+        cfg.dataset.tokenizer = _mock_tokenizer()
         cfg.dataset.finalize()
         dataset_provider = get_dataset_provider(cfg.dataset)
         dataset = build_train_valid_test_datasets(cfg=cfg, build_train_valid_test_datasets_provider=dataset_provider)
@@ -568,6 +587,7 @@ def to_megatron_provider(self, load_weights=False):
             cfg = pretrain_config()
         cfg.train.train_iters = 1000
         cfg.train.global_batch_size = 16
+        cfg.dataset.tokenizer = _mock_tokenizer()
         cfg.dataset.finalize()
         dataset_provider = get_dataset_provider(cfg.dataset)
         dataset = build_train_valid_test_datasets(cfg=cfg, build_train_valid_test_datasets_provider=dataset_provider)
@@ -604,6 +624,7 @@ def to_megatron_provider(self, load_weights=False):
             mock_from.return_value = _DummyBridge()
             cfg = pretrain_config()
         cfg.train.train_iters = 1000
+        cfg.dataset.tokenizer = _mock_tokenizer()
         cfg.dataset.finalize()
         dataset_provider = get_dataset_provider(cfg.dataset)
         dataset = build_train_valid_test_datasets(cfg=cfg, build_train_valid_test_datasets_provider=dataset_provider)
diff --git a/tests/functional_tests/quantization/models/qwen/test_qwen3_moe_quantization_workflow.py b/tests/functional_tests/quantization/models/qwen/test_qwen3_moe_quantization_workflow.py
@@ -227,6 +227,11 @@ def _run_generation(self, model_path, checkpoint_dir, tp=1, pp=1, etp=1):
         )
 
     @pytest.mark.run_only_on("GPU")
+    @pytest.mark.xfail(
+        reason="mcore bump: TransformerLayer now passes padding_mask to MoE MLP, "
+        "but modelopt's _QuantMoELayer.forward() does not accept it yet.",
+        strict=False,
+    )
     def test_qwen3_moe_quantization_and_generation_with_expert_parallelism(self, qwen3_moe_toy_model_path, tmp_path):
         """
         Test complete Qwen3 MoE workflow: quantize with expert tensor parallelism (tp=2, etp=2),
@@ -307,6 +312,11 @@ def test_qwen3_moe_quantization_and_generation_with_expert_parallelism(self, qwe
             raise
 
     @pytest.mark.run_only_on("GPU")
+    @pytest.mark.xfail(
+        reason="mcore bump: TransformerLayer now passes padding_mask to MoE MLP, "
+        "but modelopt's _QuantMoELayer.forward() does not accept it yet.",
+        strict=False,
+    )
     @pytest.mark.parametrize(
         "quant_tp,quant_pp,quant_etp,gen_tp,gen_pp,gen_etp,test_name",
         [