add self.global_num_experts for moe layer plugin (vllm-project#1769)

ranzhejiang · web-flow · commit 0cd2bc6f3f9f · 2025-08-19T08:37:38.000+08:00
@czhu15 @Wei-Lin-Intel
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
@@ -956,6 +956,7 @@ def __init__(
                                                   UnquantizedFusedMoEMethod):
                 moe_op = VllmMixtureOfExpertsOp(
                     num_experts,
+                    self.global_num_experts,
                     experts_min,
                     experts_max,
                 )
@@ -964,12 +965,14 @@ def __init__(
                            ) and not envs.VLLM_HPU_FORCE_CHANNEL_FP8:
                     moe_op = VllmMixtureOfExpertsOpFP8(
                         num_experts,
+                        self.global_num_experts,
                         experts_min,
                         experts_max,
                     )
                 else:
                     moe_op = VllmMixtureOfExpertsOpFP8PerChannel(
                         num_experts,
+                        self.global_num_experts,
                         experts_min,
                         experts_max,
                     )