rename StandardPrepareAndFinalize

bnellnm · bnellnm · commit 9461d7324c06 · 2025-05-14T14:55:37.000Z
Signed-off-by: Bill Nell &lt;bnell@redhat.com&gt;
diff --git a/vllm/model_executor/layers/fused_moe/cutlass_moe.py b/vllm/model_executor/layers/fused_moe/cutlass_moe.py
@@ -8,7 +8,7 @@
 import vllm.model_executor.layers.fused_moe.modular_kernel as mk
 from vllm import _custom_ops as ops
 from vllm.model_executor.layers.fused_moe.prepare_finalize import (
-    StandardPrepareAndFinalize)
+    MoEPrepareAndFinalizeNoEP)
 from vllm.model_executor.layers.fused_moe.utils import _fp8_perm, _resize_cache
 from vllm.scalar_type import scalar_types
 
@@ -241,7 +241,7 @@ def cutlass_moe_fp8(
         a2_scale.numel() != 1 if a2_scale is not None else False)
 
     fn = mk.FusedMoEModularKernel(
-        StandardPrepareAndFinalize(
+        MoEPrepareAndFinalizeNoEP(
             per_channel_quant=per_act_token,
             quant_dtype=torch.float8_e4m3fn,
         ),
diff --git a/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/deep_gemm_moe.py
@@ -10,7 +10,7 @@
 from vllm.model_executor.layers.fused_moe.moe_permute_unpermute import (
     _moe_permute)
 from vllm.model_executor.layers.fused_moe.prepare_finalize import (
-    StandardPrepareAndFinalize)
+    MoEPrepareAndFinalizeNoEP)
 from vllm.model_executor.layers.fused_moe.utils import (_fp8_quantize,
                                                         _resize_cache)
 from vllm.utils import round_up
@@ -205,8 +205,8 @@ def deep_gemm_moe_fp8(
     - torch.Tensor: The bfloat16 output tensor after applying the MoE layer.
     """
     fn = mk.FusedMoEModularKernel(
-        StandardPrepareAndFinalize(quant_dtype=torch.float8_e4m3fn,
-                                   block_shape=deep_gemm_block_shape()),
+        MoEPrepareAndFinalizeNoEP(quant_dtype=torch.float8_e4m3fn,
+                                  block_shape=deep_gemm_block_shape()),
         DeepGemmExperts(),
     )
     return fn(
diff --git a/vllm/model_executor/layers/fused_moe/fused_moe.py b/vllm/model_executor/layers/fused_moe/fused_moe.py
@@ -16,7 +16,7 @@
 from vllm.model_executor.layers.fused_moe.moe_align_block_size import (
     moe_align_block_size)
 from vllm.model_executor.layers.fused_moe.prepare_finalize import (
-    StandardPrepareAndFinalize)
+    MoEPrepareAndFinalizeNoEP)
 from vllm.model_executor.layers.fused_moe.utils import (
     _resize_cache, moe_kernel_quantize_input)
 from vllm.platforms import current_platform
@@ -1706,7 +1706,7 @@ def modular_triton_fused_moe(
         use_int4_w4a16=use_int4_w4a16,
     )
     return mk.FusedMoEModularKernel(
-        StandardPrepareAndFinalize(
+        MoEPrepareAndFinalizeNoEP(
             quant_dtype=qtype,
             per_channel_quant=per_channel_quant,
             block_shape=block_shape,
diff --git a/vllm/model_executor/layers/fused_moe/prepare_finalize.py b/vllm/model_executor/layers/fused_moe/prepare_finalize.py
@@ -10,7 +10,7 @@
     moe_kernel_quantize_input)
 
 
-class StandardPrepareAndFinalize(mk.FusedMoEPrepareAndFinalize):
+class MoEPrepareAndFinalizeNoEP(mk.FusedMoEPrepareAndFinalize):
 
     def __init__(
         self,