[https://nvbugs/5340941] - fix: Correct custom ops used by Qwen3 Moe … (NVIDIA#6285)

liji-nv · web-flow · commit e07fff4f78ea · 2025-07-25T14:49:45.000+08:00
Signed-off-by: Jin Li &lt;59594262+liji-nv@users.noreply.github.com&gt;
diff --git a/cpp/tensorrt_llm/thop/fusedQKNormRopeOp.cpp b/cpp/tensorrt_llm/thop/fusedQKNormRopeOp.cpp
@@ -75,9 +75,8 @@ void fused_qk_norm_rope(
 TORCH_LIBRARY_FRAGMENT(trtllm, m)
 {
     m.def(
-        "fused_qk_norm_rope(Tensor qkv, int num_heads_q, int num_heads_k, int num_heads_v, int head_dim, float eps, "
-        "Tensor q_weight, Tensor k_weight, float base, bool is_neox, Tensor position_ids) -> ()",
-        &fused_qk_norm_rope);
+        "fused_qk_norm_rope(Tensor(a!) qkv, int num_heads_q, int num_heads_k, int num_heads_v, int head_dim, float "
+        "eps, Tensor q_weight, Tensor k_weight, float base, bool is_neox, Tensor position_ids) -> ()");
 }
 
 // Register the CUDA implementation
diff --git a/cpp/tensorrt_llm/thop/renormMoeRoutingOp.cpp b/cpp/tensorrt_llm/thop/renormMoeRoutingOp.cpp
@@ -74,7 +74,7 @@ std::tuple<at::Tensor, at::Tensor> renorm_moe_routing_op(th::Tensor const& route
 TORCH_LIBRARY_FRAGMENT(trtllm, m)
 {
     m.def(
-        "renorm_moe_routing_op(Tensor router_logits, int topk"
+        "renorm_moe_routing_op(Tensor router_logits, SymInt topk"
         ") -> (Tensor, Tensor)");
 }
 
diff --git a/tensorrt_llm/_torch/compilation/utils.py b/tensorrt_llm/_torch/compilation/utils.py
@@ -55,6 +55,9 @@ def inplace_info():
         },
         torch.ops.trtllm.mla_custom_op_inplace.default: {
             1: "output"
+        },
+        torch.ops.trtllm.fused_qk_norm_rope.default: {
+            1: "qkv"
         }
     }
     return inplace_map
diff --git a/tensorrt_llm/_torch/custom_ops/cpp_custom_ops.py b/tensorrt_llm/_torch/custom_ops/cpp_custom_ops.py
@@ -523,3 +523,11 @@ def _(input, residual, norm_weight, expanded_idx_to_permuted_idx,
             torch.empty_like(residual),
             torch.empty_like(residual),
         ]
+
+    @torch.library.register_fake("trtllm::renorm_moe_routing_op")
+    def _(router_logits, topk):
+        num_tokens = router_logits.shape[0]
+        sz = (num_tokens, topk)
+        return router_logits.new_empty(
+            sz, dtype=torch.int32), router_logits.new_empty(sz,
+                                                            dtype=torch.float32)

Original file line number	Diff line number	Diff line change
`@@ -75,9 +75,8 @@ void fused_qk_norm_rope(`
`75`	`75`	`TORCH_LIBRARY_FRAGMENT(trtllm, m)`
`76`	`76`	`{`
`77`	`77`	`m.def(`
`78`		`- "fused_qk_norm_rope(Tensor qkv, int num_heads_q, int num_heads_k, int num_heads_v, int head_dim, float eps, "`
`79`		`- "Tensor q_weight, Tensor k_weight, float base, bool is_neox, Tensor position_ids) -> ()",`
`80`		`- &fused_qk_norm_rope);`
	`78`	`+ "fused_qk_norm_rope(Tensor(a!) qkv, int num_heads_q, int num_heads_k, int num_heads_v, int head_dim, float "`
	`79`	`+ "eps, Tensor q_weight, Tensor k_weight, float base, bool is_neox, Tensor position_ids) -> ()");`
`81`	`80`	`}`
`82`	`81`
`83`	`82`	`// Register the CUDA implementation`
Original file line number	Diff line number	Diff line change
`@@ -74,7 +74,7 @@ std::tuple<at::Tensor, at::Tensor> renorm_moe_routing_op(th::Tensor const& route`
`74`	`74`	`TORCH_LIBRARY_FRAGMENT(trtllm, m)`
`75`	`75`	`{`
`76`	`76`	`m.def(`
`77`		`- "renorm_moe_routing_op(Tensor router_logits, int topk"`
	`77`	`+ "renorm_moe_routing_op(Tensor router_logits, SymInt topk"`
`78`	`78`	`") -> (Tensor, Tensor)");`
`79`	`79`	`}`
`80`	`80`
Original file line number	Diff line number	Diff line change
`@@ -55,6 +55,9 @@ def inplace_info():`
`55`	`55`	`},`
`56`	`56`	`torch.ops.trtllm.mla_custom_op_inplace.default: {`
`57`	`57`	`1: "output"`
	`58`	`+ },`
	`59`	`+ torch.ops.trtllm.fused_qk_norm_rope.default: {`
	`60`	`+ 1: "qkv"`
`58`	`61`	`}`
`59`	`62`	`}`
`60`	`63`	`return inplace_map`