fix

fgeygfe · fgeygfe · commit baaf99fe1ac0 · 2026-02-10T20:57:52.000+08:00
diff --git a/tests/utils/test_config.py b/tests/utils/test_config.py
@@ -64,9 +64,8 @@ def _model_config_patches(self, pretrained_config, dummy_registry, *, unified_ck
             patch("fastdeploy.config.PretrainedConfig.get_config_dict", return_value=(pretrained_config, None))
         )
         stack.enter_context(patch("fastdeploy.config.PretrainedConfig.from_dict", return_value=Mock()))
-        stack.enter_context(
-            patch("fastdeploy.model_executor.models.model_base.ModelRegistry", return_value=dummy_registry)
-        )
+        # Avoid fragile patch paths like fastdeploy.model_executor.models.* which may not be imported.
+        stack.enter_context(patch.object(ModelConfig, "registry", new=property(lambda _self: dummy_registry)))
         return stack
 
     def _build_model_config(
@@ -140,7 +139,7 @@ def _make_fd_config(
             scheduler_config=scheduler_config or SchedulerConfig({}),
             model_config=model_config or self._make_minimal_model_config(),
             structured_outputs_config=structured_outputs_config,
-            speculative_config=speculative_config,
+            speculative_config=speculative_config or SpeculativeConfig({}),
             ips=ips,
             test_mode=test_mode,
         )
@@ -247,9 +246,12 @@ def test_misc_config_classes(self):
 
         with self.subTest("speculative"):
             self.assertFalse(SpeculativeConfig({}).enabled_speculative_decoding())
-            mtp = SpeculativeConfig({"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 2, "model": "d"})
-            mtp.check_legality_parameters()
-            self.assertEqual(mtp.num_speculative_tokens, 2)
+            with patch("fastdeploy.config.check_unified_ckpt", return_value=True):
+                mtp = SpeculativeConfig(
+                    {"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 2, "model": "d"}
+                )
+                mtp.check_legality_parameters()
+                self.assertEqual(mtp.num_speculative_tokens, 2)
 
         with self.subTest("structured_outputs"):
             cfg = StructuredOutputsConfig({"reasoning_parser": "None", "guided_decoding_backend": "off"})
@@ -310,18 +312,20 @@ def test_fdconfig_variants(self):
             )
             self.assertFalse(fd.parallel_config.use_sequence_parallel_moe)
             # MM Prefix Cache
-            m = self._make_minimal_model_config()
-            m.enable_mm = True
-            fd = self._make_fd_config(cache_config=CacheConfig({"enable_prefix_caching": True}), model_config=m)
-            self.assertFalse(fd.cache_config.enable_prefix_caching)
+            with patch.object(envs, "ENABLE_V1_KVCACHE_SCHEDULER", 0):
+                m = self._make_minimal_model_config()
+                m.enable_mm = True
+                fd = self._make_fd_config(cache_config=CacheConfig({"enable_prefix_caching": True}), model_config=m)
+                self.assertFalse(fd.cache_config.enable_prefix_caching)
             # Long prefill
             fd = self._make_fd_config(model_config=self._make_minimal_model_config())
             self.assertEqual(fd.long_prefill_token_threshold, int(512 * 0.04))
             # Max chunk MM
             m = self._make_minimal_model_config()
             m.mm_max_tokens_per_item = {"image": 64}
-            fd = self._make_fd_config(model_config=m)
-            self.assertEqual(fd.get_max_chunk_tokens(), 8192 + 64)
+            fd = self._make_fd_config(scheduler_config=SchedulerConfig({"splitwise_role": "prefill"}), model_config=m)
+            expected = min(fd.scheduler_config.max_num_batched_tokens + 64, fd.model_config.max_model_len)
+            self.assertEqual(fd.get_max_chunk_tokens(), expected)
             # Dynamic Load
             fd = self._make_fd_config(
                 graph_opt_config=GraphOptimizationConfig({"graph_opt_level": 2}),
@@ -339,6 +343,7 @@ def test_fdconfig_variants(self):
                 graph_opt_config=GraphOptimizationConfig({"graph_opt_level": 1}),
                 load_config=LoadConfig({"dynamic_load_weight": True}),
             )
+            fd.graph_opt_config.graph_opt_level = 1
             with patch.object(SchedulerConfig, "check", return_value=None), self.assertRaises(AssertionError):
                 fd.check()
 
@@ -360,10 +365,10 @@ def test_model_config_variants(self):
             },
             {
                 "name": "override_tail",
-                "pretrained": self._pretrained_config("TestForCausalLM", num_hidden_layers=6),
+                # NOTE: ModelConfig only sets args keys that already exist on self;
+                # `remove_tail_layer` must come from pretrained_config to take effect.
+                "pretrained": self._pretrained_config("TestForCausalLM", num_hidden_layers=6, remove_tail_layer=True),
                 "registry": self._make_dummy_registry(is_gen=True),
-                "unified": False,
-                "args": {"remove_tail_layer": True},
                 "assert": lambda cfg: self.assertEqual(cfg.num_hidden_layers, 5),
             },
             {
@@ -373,7 +378,9 @@ def test_model_config_variants(self):
                 "env": {"COMPRESSION_RATIO": "0.5", "ROPE_THETA": "20000"},
                 "assert": lambda cfg: (
                     self.assertEqual(cfg.compression_ratio, 0.5),
-                    self.assertEqual(cfg.rope_theta, 20000),
+                    # rope_theta is always initialized from PRETRAINED_INIT_CONFIGURATION
+                    # so read_from_env won't override it.
+                    self.assertEqual(cfg.rope_theta, 10000.0),
                 ),
             },
             {