[None][fix] Rename: slot_count -> invalid_expert_id (#8783)

bobboli · web-flow · commit 4c5a8f4ec6cf · 2025-11-01T21:36:59.000+08:00
Signed-off-by: Bo Li &lt;22713281+bobboli@users.noreply.github.com&gt;
diff --git a/cpp/tensorrt_llm/kernels/moePrepareKernels.cu b/cpp/tensorrt_llm/kernels/moePrepareKernels.cu
@@ -280,7 +280,7 @@ __global__ void computeCumsumDevice(int* sendCountsCumsum, int* recvCountsCumsum
 }
 
 __global__ void memsetExpertIdsDevice(
-    int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int slotCount, int rankCount)
+    int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int invalidExpertId, int rankCount)
 {
     int maxTokenCount = maxTokenCountPerRank * rankCount;
 #if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
@@ -291,7 +291,7 @@ __global__ void memsetExpertIdsDevice(
     for (int i = blockIdx.x * blockDim.x + threadIdx.x; i + totalRecvTokenCount * topK < maxTokenCount * topK;
          i += gridDim.x * blockDim.x)
     {
-        *(expertIds + i + totalRecvTokenCount * topK) = slotCount;
+        *(expertIds + i + totalRecvTokenCount * topK) = invalidExpertId;
     }
 }
 
@@ -355,7 +355,7 @@ void moveIndice(int* sendCountsCumsum, int* recvCountsCumsum, int* sendIndice, i
         maxTokenCountPerRank);
 }
 
-void memsetExpertIds(int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int slotCount,
+void memsetExpertIds(int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int invalidExpertId,
     int rankCount, cudaStream_t stream)
 {
     int smCount = tensorrt_llm::common::getMultiProcessorCount();
@@ -364,7 +364,7 @@ void memsetExpertIds(int* expertIds, int* recvCountsCumsum, int maxTokenCountPer
     dim3 grid(smCount);
 
     launchWithPdlWhenEnabled("memsetExpertIds", memsetExpertIdsDevice, grid, block, 0, stream, expertIds,
-        recvCountsCumsum, maxTokenCountPerRank, topK, slotCount, rankCount);
+        recvCountsCumsum, maxTokenCountPerRank, topK, invalidExpertId, rankCount);
 }
 
 size_t getMoePrepareWorkspaceSize(int epSize)
diff --git a/cpp/tensorrt_llm/kernels/moePrepareKernels.h b/cpp/tensorrt_llm/kernels/moePrepareKernels.h
@@ -80,7 +80,7 @@ void moveIndice(int* sendCountsCumsum, int* recvCountsCumsum, int* sendIndice, i
     int* backwardIndice, int* gatherBackwardIndice, int* recvIndice, int* gatherRecvIndice, int rankId, int rankCount,
     int maxTokenCountPerRank, cudaStream_t stream);
 
-void memsetExpertIds(int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int slotCount,
+void memsetExpertIds(int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int invalidExpertId,
     int epSize, cudaStream_t stream);
 
 size_t getMoePrepareWorkspaceSize(int epSize);
diff --git a/cpp/tensorrt_llm/thop/moeCommOp.cpp b/cpp/tensorrt_llm/thop/moeCommOp.cpp
@@ -228,7 +228,7 @@ moePrepareOp(torch::Tensor expertsIds, c10::optional<torch::Tensor> expertsStati
 }
 
 void memsetExpertIds(torch::Tensor expertsIds, torch::Tensor recvRankCountCumSum, int64_t maxTokenCountPerRank,
-    int64_t topK, int64_t slotCount, int64_t epSize)
+    int64_t topK, int64_t invalidExpertId, int64_t epSize)
 {
     CHECK_INPUT(expertsIds, torch::kInt32);
     TORCH_CHECK(expertsIds.dim() == 2, "expertsIds must be a 1D tensor");
@@ -243,7 +243,7 @@ void memsetExpertIds(torch::Tensor expertsIds, torch::Tensor recvRankCountCumSum
     auto stream = at::cuda::getCurrentCUDAStream();
 
     tensorrt_llm::kernels::moe_prepare::memsetExpertIds(expertsIds.data_ptr<int>(), recvRankCountCumSum.data_ptr<int>(),
-        static_cast<int>(maxTokenCountPerRank), static_cast<int>(topK), static_cast<int>(slotCount),
+        static_cast<int>(maxTokenCountPerRank), static_cast<int>(topK), static_cast<int>(invalidExpertId),
         static_cast<int>(epSize), stream);
 }
 
@@ -310,7 +310,7 @@ TORCH_LIBRARY_FRAGMENT(trtllm, m)
     m.def(
         "memset_expert_ids(Tensor(a!) experts_ids, Tensor recv_rank_count_cumsum, int max_token_count_per_rank, int "
         "top_k, "
-        "int slot_count, int ep_size) -> ()");
+        "int invalid_expert_id, int ep_size) -> ()");
 }
 
 TORCH_LIBRARY_IMPL(trtllm, CUDA, m)
diff --git a/tensorrt_llm/_torch/custom_ops/cpp_custom_ops.py b/tensorrt_llm/_torch/custom_ops/cpp_custom_ops.py
@@ -283,7 +283,7 @@ def _(single_layer_load_balancer_ptr: int,
 
     @torch.library.register_fake("trtllm::memset_expert_ids")
     def _(experts_ids: torch.Tensor, recv_rank_count_cumsum: torch.Tensor,
-          max_token_count_per_rank: int, top_k: int, slot_count: int,
+          max_token_count_per_rank: int, top_k: int, invalid_expert_id: int,
           ep_size: int):
         pass
 
diff --git a/tensorrt_llm/_torch/modules/fused_moe/fused_moe_trtllm_gen.py b/tensorrt_llm/_torch/modules/fused_moe/fused_moe_trtllm_gen.py
@@ -370,7 +370,7 @@ def forward_impl(
                 alltoall_info.recv_rank_count_cumsum,
                 max_num_token,
                 top_k,
-                self.num_slots,
+                -1,  # Trtllm Gen uses -1 as invalid expert id
                 self.ep_size,
             )
 

Original file line number	Diff line number	Diff line change
`@@ -280,7 +280,7 @@ __global__ void computeCumsumDevice(int* sendCountsCumsum, int* recvCountsCumsum`
`280`	`280`	`}`
`281`	`281`
`282`	`282`	`__global__ void memsetExpertIdsDevice(`
`283`		`- int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int slotCount, int rankCount)`
	`283`	`+ int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int invalidExpertId, int rankCount)`
`284`	`284`	`{`
`285`	`285`	`int maxTokenCount = maxTokenCountPerRank * rankCount;`
`286`	`286`	`#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))`
`@@ -291,7 +291,7 @@ __global__ void memsetExpertIdsDevice(`
`291`	`291`	`for (int i = blockIdx.x * blockDim.x + threadIdx.x; i + totalRecvTokenCount * topK < maxTokenCount * topK;`
`292`	`292`	`i += gridDim.x * blockDim.x)`
`293`	`293`	`{`
`294`		`- (expertIds + i + totalRecvTokenCount topK) = slotCount;`
	`294`	`+ (expertIds + i + totalRecvTokenCount topK) = invalidExpertId;`
`295`	`295`	`}`
`296`	`296`	`}`
`297`	`297`
`@@ -355,7 +355,7 @@ void moveIndice(int* sendCountsCumsum, int* recvCountsCumsum, int* sendIndice, i`
`355`	`355`	`maxTokenCountPerRank);`
`356`	`356`	`}`
`357`	`357`
`358`		`-void memsetExpertIds(int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int slotCount,`
	`358`	`+void memsetExpertIds(int* expertIds, int* recvCountsCumsum, int maxTokenCountPerRank, int topK, int invalidExpertId,`
`359`	`359`	`int rankCount, cudaStream_t stream)`
`360`	`360`	`{`
`361`	`361`	`int smCount = tensorrt_llm::common::getMultiProcessorCount();`
`@@ -364,7 +364,7 @@ void memsetExpertIds(int* expertIds, int* recvCountsCumsum, int maxTokenCountPer`
`364`	`364`	`dim3 grid(smCount);`
`365`	`365`
`366`	`366`	`launchWithPdlWhenEnabled("memsetExpertIds", memsetExpertIdsDevice, grid, block, 0, stream, expertIds,`
`367`		`- recvCountsCumsum, maxTokenCountPerRank, topK, slotCount, rankCount);`
	`367`	`+ recvCountsCumsum, maxTokenCountPerRank, topK, invalidExpertId, rankCount);`
`368`	`368`	`}`
`369`	`369`
`370`	`370`	`size_t getMoePrepareWorkspaceSize(int epSize)`
Original file line number	Diff line number	Diff line change
`@@ -228,7 +228,7 @@ moePrepareOp(torch::Tensor expertsIds, c10::optional<torch::Tensor> expertsStati`
`228`	`228`	`}`
`229`	`229`
`230`	`230`	`void memsetExpertIds(torch::Tensor expertsIds, torch::Tensor recvRankCountCumSum, int64_t maxTokenCountPerRank,`
`231`		`- int64_t topK, int64_t slotCount, int64_t epSize)`
	`231`	`+ int64_t topK, int64_t invalidExpertId, int64_t epSize)`
`232`	`232`	`{`
`233`	`233`	`CHECK_INPUT(expertsIds, torch::kInt32);`
`234`	`234`	`TORCH_CHECK(expertsIds.dim() == 2, "expertsIds must be a 1D tensor");`
`@@ -243,7 +243,7 @@ void memsetExpertIds(torch::Tensor expertsIds, torch::Tensor recvRankCountCumSum`
`243`	`243`	`auto stream = at::cuda::getCurrentCUDAStream();`
`244`	`244`
`245`	`245`	`tensorrt_llm::kernels::moe_prepare::memsetExpertIds(expertsIds.data_ptr<int>(), recvRankCountCumSum.data_ptr<int>(),`
`246`		`- static_cast<int>(maxTokenCountPerRank), static_cast<int>(topK), static_cast<int>(slotCount),`
	`246`	`+ static_cast<int>(maxTokenCountPerRank), static_cast<int>(topK), static_cast<int>(invalidExpertId),`
`247`	`247`	`static_cast<int>(epSize), stream);`
`248`	`248`	`}`
`249`	`249`
`@@ -310,7 +310,7 @@ TORCH_LIBRARY_FRAGMENT(trtllm, m)`
`310`	`310`	`m.def(`
`311`	`311`	`"memset_expert_ids(Tensor(a!) experts_ids, Tensor recv_rank_count_cumsum, int max_token_count_per_rank, int "`
`312`	`312`	`"top_k, "`
`313`		`- "int slot_count, int ep_size) -> ()");`
	`313`	`+ "int invalid_expert_id, int ep_size) -> ()");`
`314`	`314`	`}`
`315`	`315`
`316`	`316`	`TORCH_LIBRARY_IMPL(trtllm, CUDA, m)`
Original file line number	Diff line number	Diff line change
`@@ -370,7 +370,7 @@ def forward_impl(`
`370`	`370`	`alltoall_info.recv_rank_count_cumsum,`
`371`	`371`	`max_num_token,`
`372`	`372`	`top_k,`
`373`		`- self.num_slots,`
	`373`	`+ -1, # Trtllm Gen uses -1 as invalid expert id`
`374`	`374`	`self.ep_size,`
`375`	`375`	`)`
`376`	`376`