more lint stuff

bnellnm · bnellnm · commit 448658a80109 · 2025-04-30T16:53:32.000Z
Signed-off-by: Bill Nell &lt;bnell@redhat.com&gt;
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
@@ -32,6 +32,7 @@
     from .fused_batched_moe import BatchedDispatchCombine, BatchedTritonExperts
     from .fused_moe import TritonExperts, fused_experts
     from .modular_kernel import (FusedMoEModularKernel,
+                                 FusedMoEPermuteExpertsUnpermute,
                                  FusedMoEQuantizeDispatchCombine)
     from .pplx_dispatch_combine import PplxDispatchCombine
 else:
@@ -249,6 +250,8 @@ def set_dispatch_combine(
 
         #block_m = MOE_DP_CHUNK_SIZE * (self.moe.ep_size // self.moe.dp_size)
 
+        experts: FusedMoEPermuteExpertsUnpermute = None
+
         if isinstance(dispatch_combine,
                       (BatchedDispatchCombine, PplxDispatchCombine)):
             logger.info("BatchedTritonExperts %s", self.moe)
@@ -619,6 +622,8 @@ def __init__(
         assert quant_method is not None
         self.quant_method = quant_method
 
+        dispatch_combine: FusedMoEQuantizeDispatchCombine = None
+
         # TODO: move to method?
         if self.dp_size > 1:
             logger.info("using pplx dispatch")
diff --git a/vllm/model_executor/layers/fused_moe/triton_deep_gemm_moe.py b/vllm/model_executor/layers/fused_moe/triton_deep_gemm_moe.py
@@ -6,21 +6,25 @@
 import vllm.model_executor.layers.fused_moe.modular_kernel as mk
 from vllm.model_executor.layers.fused_moe.deep_gemm_moe import (
     DeepGemmExperts, _valid_deep_gemm, _valid_deep_gemm_shape)
-from vllm.model_executor.layers.fused_moe.fused_moe import TritonExpert
+from vllm.model_executor.layers.fused_moe.fused_moe import TritonExperts
 
 
 class TritonOrDeepGemmExperts(mk.FusedMoEPermuteExpertsUnpermute):
 
     def __init__(self,
                  use_fp8_w8a8: bool,
+                 use_int8_w8a8: bool,
                  use_int8_w8a16: bool,
                  use_int4_w4a16: bool,
+                 per_channel_quant: bool,
                  block_shape: Optional[List[int]] = None,
                  block_m: Optional[int] = None,
                  allow_deep_gemm: bool = False):
         super().__init__()
-        self.triton_expert = TritonExpert(use_fp8_w8a8, use_int4_w4a16,
-                                          use_int8_w8a16, block_shape, block_m)
+        self.triton_expert = TritonExperts(use_fp8_w8a8, use_int8_w8a8,
+                                           use_int4_w4a16, use_int8_w8a16,
+                                           per_channel_quant, block_shape,
+                                           block_m)
         self.deep_gemm_expert = DeepGemmExperts()
         self.allow_deep_gemm = allow_deep_gemm
         self.use_fp8_w8a8 = use_fp8_w8a8