[Bugfix] Qwen3.5 kv-scale weight remapping (vllm-project#34719)

Linda-Stadter · web-flow · commit 6fff24f30fe2 · 2026-02-19T04:13:37.000-08:00
Signed-off-by: Linda-Stadter &lt;57756729+Linda-Stadter@users.noreply.github.com&gt;
diff --git a/vllm/model_executor/models/qwen3_5.py b/vllm/model_executor/models/qwen3_5.py
@@ -57,6 +57,7 @@
 )
 from vllm.model_executor.model_loader.weight_utils import (
     default_weight_loader,
+    maybe_remap_kv_scale_name,
 )
 from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.sequence import IntermediateTensors
@@ -397,6 +398,12 @@ def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]) -> set[str]:
             if name.startswith("mtp."):
                 continue
 
+            # Remapping the name of FP8 kv-scale.
+            if name.endswith("scale"):
+                name = maybe_remap_kv_scale_name(name, params_dict)
+                if name is None:
+                    continue
+
             for param_name, weight_name, shard_id in stacked_params_mapping:
                 if "experts.gate_up_proj" in name or "experts.down_proj" in name:
                     is_fused_expert = True