review comments, only initialize pplx if EP is enabled

bnellnm · bnellnm · commit 9b97c83d931b · 2025-05-14T14:55:37.000Z
Signed-off-by: Bill Nell &lt;bnell@redhat.com&gt;
diff --git a/vllm/distributed/parallel_state.py b/vllm/distributed/parallel_state.py
@@ -979,6 +979,7 @@ def pplx_finalize():
 def initialize_model_parallel(
     tensor_model_parallel_size: int = 1,
     pipeline_model_parallel_size: int = 1,
+    enable_expert_parallel: bool = False,
     backend: Optional[str] = None,
 ) -> None:
     """
@@ -1081,12 +1082,14 @@ def initialize_model_parallel(
         _DP.rank_in_group, _PP.rank_in_group, _TP.rank_in_group,
         _EP.rank_in_group)
 
-    pplx_init(rank, world_size)
+    if enable_expert_parallel:
+        pplx_init(rank, world_size)
 
 
 def ensure_model_parallel_initialized(
     tensor_model_parallel_size: int,
     pipeline_model_parallel_size: int,
+    enable_expert_parallel: bool = False,
     backend: Optional[str] = None,
 ) -> None:
     """Helper to initialize model parallel groups if they are not initialized,
@@ -1097,7 +1100,8 @@ def ensure_model_parallel_initialized(
         get_world_group().device_group)
     if not model_parallel_is_initialized():
         initialize_model_parallel(tensor_model_parallel_size,
-                                  pipeline_model_parallel_size, backend)
+                                  pipeline_model_parallel_size,
+                                  enable_expert_parallel, backend)
         return
 
     assert (
diff --git a/vllm/model_executor/layers/fused_moe/cutlass_moe.py b/vllm/model_executor/layers/fused_moe/cutlass_moe.py
@@ -175,29 +175,6 @@ def apply(
         return c3
 
 
-def modular_cutlass_moe_fp8(
-    per_act_token: bool,
-    ab_strides1: torch.Tensor,
-    c_strides1: torch.Tensor,
-    ab_strides2: torch.Tensor,
-    c_strides2: torch.Tensor,
-    out_dtype: torch.dtype = torch.half,
-) -> mk.FusedMoEModularKernel:
-    return mk.FusedMoEModularKernel(
-        StandardPrepareAndFinalize(
-            per_channel_quant=per_act_token,
-            quant_dtype=torch.float8_e4m3fn,
-        ),
-        CutlassExpertsFp8(
-            ab_strides1,
-            c_strides1,
-            ab_strides2,
-            c_strides2,
-            out_dtype,
-        ),
-    )
-
-
 #TODO make the grouped gemm kernel consistent with scaled gemm kernel
 def cutlass_moe_fp8(
     a: torch.Tensor,
@@ -263,13 +240,18 @@ def cutlass_moe_fp8(
     per_act_token = a1_scale.numel() != 1 if a1_scale is not None else (
         a2_scale.numel() != 1 if a2_scale is not None else False)
 
-    fn = modular_cutlass_moe_fp8(
-        per_act_token,
-        ab_strides1,
-        c_strides1,
-        ab_strides2,
-        c_strides2,
-        out_dtype,
+    fn = mk.FusedMoEModularKernel(
+        StandardPrepareAndFinalize(
+            per_channel_quant=per_act_token,
+            quant_dtype=torch.float8_e4m3fn,
+        ),
+        CutlassExpertsFp8(
+            ab_strides1,
+            c_strides1,
+            ab_strides2,
+            c_strides2,
+            out_dtype,
+        ),
     )
 
     return fn(
diff --git a/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
@@ -151,14 +151,6 @@ def apply(
         return workspace3
 
 
-def modular_deep_gemm_fused_moe_fp8() -> mk.FusedMoEModularKernel:
-    return mk.FusedMoEModularKernel(
-        StandardPrepareAndFinalize(quant_dtype=torch.float8_e4m3fn,
-                                   block_shape=deep_gemm_block_shape()),
-        DeepGemmExperts(),
-    )
-
-
 def deep_gemm_moe_fp8(
     hidden_states: torch.Tensor,
     w1: torch.Tensor,
@@ -212,7 +204,11 @@ def deep_gemm_moe_fp8(
     Returns:
     - torch.Tensor: The bfloat16 output tensor after applying the MoE layer.
     """
-    fn = modular_deep_gemm_fused_moe_fp8()
+    fn = mk.FusedMoEModularKernel(
+        StandardPrepareAndFinalize(quant_dtype=torch.float8_e4m3fn,
+                                   block_shape=deep_gemm_block_shape()),
+        DeepGemmExperts(),
+    )
     return fn(
         hidden_states,
         w1,
diff --git a/vllm/model_executor/layers/fused_moe/fused_batched_moe.py b/vllm/model_executor/layers/fused_moe/fused_batched_moe.py
@@ -381,11 +381,6 @@ def invoke_moe_batched_triton_kernel(
         BLOCK_K=BLOCK_K)
 
 
-def rank_chunk(num, r, w):
-    rem = num % w
-    return (num // w) + (1 if r < rem else 0)
-
-
 class BatchedPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
     """
     A reference prepare/finalize class that reorganizes the tokens into
@@ -475,12 +470,12 @@ def finalize(
         last_expert = first_expert + num_local_experts
 
         for expert_id in range(first_expert, last_expert):
-            topkws = topk_ids == expert_id
-            topks = torch.any(topkws, dim=1).flatten()
+            matching_tokens = topk_ids == expert_id
+            topks = torch.any(matching_tokens, dim=1).flatten()
             rows = torch.count_nonzero(topks)
             rhs = fused_expert_output[expert_id - first_expert, :rows, :]
             if not apply_router_weight_on_input:
-                rhs.mul_(topk_weights[topkws].view(rhs.size(0), 1))
+                rhs.mul_(topk_weights[matching_tokens].view(rhs.size(0), 1))
             output[topks] = output[topks] + rhs
 
 
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -979,7 +979,7 @@ def get_config_dtype_str(
     return None
 
 
-# TODO: use scalar_type instead of bools?
+# TODO (bnell): use scalar_type instead of bools?
 def get_config_qtype(
     use_fp8_w8a8: bool,
     use_int8_w8a8: bool,
@@ -1585,6 +1585,7 @@ def apply(
 
         assert hidden_states.is_contiguous(
         ), "Hidden_states must be contiguous"
+        assert hidden_states.dim() == 2
         assert w1.stride(-1) == 1, "Stride of last dimension must be 1"
         assert w2.stride(-1) == 1, "Stride of last dimension must be 1"
         assert hidden_states.dtype in [
@@ -1632,30 +1633,9 @@ def apply(
         intermediate_cache3 = _resize_cache(workspace13,
                                             (num_tokens, top_k_num, K))
 
-        if hidden_states.dim() == 2:  #block_m is None:
-            sorted_token_ids, expert_ids, num_tokens_post_padded = (
-                moe_align_block_size(topk_ids, config['BLOCK_SIZE_M'],
-                                     global_num_experts, expert_map))
-        else:
-            max_num_tokens = hidden_states.size(1)
-            sorted_token_ids = torch.arange(0,
-                                            hidden_states.size(0) *
-                                            max_num_tokens,
-                                            device=hidden_states.device,
-                                            dtype=torch.int)
-            sorted_token_ids = sorted_token_ids.flatten()
-            expert_ids = torch.arange(0,
-                                      global_num_experts,
-                                      device=hidden_states.device,
-                                      dtype=torch.int)
-            expert_ids = torch.repeat_interleave(expert_ids,
-                                                 max_num_tokens,
-                                                 dim=0)
-            num_tokens_post_padded = torch.zeros(1,
-                                                 device=hidden_states.device,
-                                                 dtype=torch.int32)
-            num_tokens_post_padded.fill_(max_num_tokens)
-            hidden_states = hidden_states.view(-1, hidden_states.size(-1))
+        sorted_token_ids, expert_ids, num_tokens_post_padded = (
+            moe_align_block_size(topk_ids, config['BLOCK_SIZE_M'],
+                                 global_num_experts, expert_map))
 
         invoke_fused_moe_kernel(hidden_states,
                                 w1,
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
@@ -687,7 +687,7 @@ def _construct_prepare_finalize(
     rank = moe.ep_rank
 
     if moe.use_pplx_kernels:
-        logger.debug("using pplx dispatch")
+        logger.debug("using PplxPrepareAndFinalize")
 
         all_to_all = get_all_to_all(
             max_num_tokens=max_num_tokens,
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
@@ -341,7 +341,8 @@ def init_worker_distributed_environment(
                                  distributed_init_method, local_rank)
 
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
 
     ensure_kv_transfer_initialized(vllm_config)
 
diff --git a/vllm/v1/worker/tpu_worker.py b/vllm/v1/worker/tpu_worker.py
@@ -265,4 +265,5 @@ def init_tpu_worker_distributed_environment(
         backend="gloo",
     )
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
diff --git a/vllm/worker/cpu_worker.py b/vllm/worker/cpu_worker.py
@@ -390,7 +390,8 @@ def init_distributed_environment(self) -> None:
 
         ensure_model_parallel_initialized(
             parallel_config.tensor_parallel_size,
-            parallel_config.pipeline_parallel_size)
+            parallel_config.pipeline_parallel_size,
+            parallel_config.enable_expert_parallel)
 
     def get_cache_block_size_bytes(self) -> int:
         """Return the size in bytes of a single KV cache block.
diff --git a/vllm/worker/hpu_worker.py b/vllm/worker/hpu_worker.py
@@ -416,7 +416,8 @@ def init_worker_distributed_environment(
                                  backend='hccl')
 
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
 
     if torch.distributed.is_initialized():
         torch_world_size = torch.distributed.get_world_size()
@@ -442,7 +443,8 @@ def init_worker_distributed_environment(
     torch.distributed.all_reduce(dummy_tensor_hpu)
     assert dummy_tensor_hpu.item() == parallel_config.world_size
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
 
 
 def raise_if_cache_size_invalid(num_gpu_blocks, block_size, max_model_len,
diff --git a/vllm/worker/tpu_worker.py b/vllm/worker/tpu_worker.py
@@ -76,7 +76,8 @@ def init_device(self) -> None:
         )
         ensure_model_parallel_initialized(
             self.parallel_config.tensor_parallel_size,
-            self.parallel_config.pipeline_parallel_size)
+            self.parallel_config.pipeline_parallel_size,
+            self.parallel_config.enable_expert_parallel)
 
         # Device initialization should happen after initializing the distributed
         # runtime.
diff --git a/vllm/worker/worker.py b/vllm/worker/worker.py
@@ -530,7 +530,8 @@ def init_worker_distributed_environment(
     init_distributed_environment(parallel_config.world_size, rank,
                                  distributed_init_method, local_rank)
     ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,
-                                      parallel_config.pipeline_parallel_size)
+                                      parallel_config.pipeline_parallel_size,
+                                      parallel_config.enable_expert_parallel)
 
     ensure_kv_transfer_initialized(vllm_config)
 
diff --git a/vllm/worker/xpu_worker.py b/vllm/worker/xpu_worker.py
@@ -176,7 +176,8 @@ def init_worker_distributed_environment(self) -> None:
 
         ensure_model_parallel_initialized(
             parallel_config.tensor_parallel_size,
-            parallel_config.pipeline_parallel_size)
+            parallel_config.pipeline_parallel_size,
+            parallel_config.enable_expert_parallel)
         # global all_reduce needed for overall oneccl warm up
         torch.distributed.all_reduce(torch.zeros(1).xpu())
 

Original file line number	Diff line number	Diff line change
`@@ -265,4 +265,5 @@ def init_tpu_worker_distributed_environment(`
`265`	`265`	`backend="gloo",`
`266`	`266`	`)`
`267`	`267`	`ensure_model_parallel_initialized(parallel_config.tensor_parallel_size,`
`268`		`- parallel_config.pipeline_parallel_size)`
	`268`	`+ parallel_config.pipeline_parallel_size,`
	`269`	`+ parallel_config.enable_expert_parallel)`