bugfix: Verify num_experts greater or equal to local_experts + offset (#1469)

amirkl94 · web-flow · commit cd33db6c53c5 · 2025-08-12T00:59:39.000-07:00
## 📌 Description
Verify that `num_experts &gt;= local_num_experts + local_expert_offset` to
avoid Illegal memory access.
Currently when calling `fused_moe.trtllm_fp8_per_tensor_scale_moe` with
`local_num_experts+local_expert_offset &gt; num_experts`, it results in a
`CUDA: Illegal memory access`.

Signed-off-by: Amir Klein &lt;203507526+amirkl94@users.noreply.github.com&gt;
diff --git a/csrc/trtllm_fused_moe_kernel_launcher.cu b/csrc/trtllm_fused_moe_kernel_launcher.cu
@@ -96,6 +96,8 @@ at::Tensor trtllm_fp8_per_tensor_scale_moe_launcher(
   TORCH_CHECK(num_experts % 4 == 0,
               "Routing kernel expects that num_experts must be divisible by 4");
   TORCH_CHECK(num_experts > top_k, "num_experts must be greater than top_k");
+  TORCH_CHECK(local_num_experts + local_expert_offset <= num_experts,
+              "num_experts must be greater or equal to local_num_experts + local_expert_offset");
 
   tensorrt_llm::kernels::trtllmgen_moe::MoE::MoERunnerArgs args;
   tensorrt_llm::kernels::trtllmgen_moe::MoE::MoEWorkspace workspace;