[None][fix] Enabled simultaneous support for low-precision combine and MTP. (NVIDIA#9091)

yilin-void · web-flow · commit 47404196fa2d · 2025-12-17T13:37:08.000+08:00
Signed-off-by: Yilin Zhang &lt;18275976+yilin-void@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/modules/fused_moe/fused_moe_wide_ep.py b/tensorrt_llm/_torch/modules/fused_moe/fused_moe_wide_ep.py
@@ -382,6 +382,13 @@ def is_post_quant_all2all_supported(self):
         else:
             return False
 
+    def is_low_precision_combine_supported(self):
+        if not self.use_low_precision_combine:
+            return False
+        if self.alltoall_method_type == AlltoallMethodType.DeepEPLowLatency:
+            return self.has_fp8_qdq or self.has_nvfp4 or self.has_w4afp8
+        return False
+
     def forward_chunk(
         self,
         x: Union[torch.Tensor, Fp4QuantizedTensor],
@@ -671,8 +678,7 @@ def forward_chunk(
                 final_hidden_states = final_hidden_states.view(
                     self.expert_size_per_partition,
                     num_tokens_per_expert_for_fused_moe, self.hidden_size)
-                if self.use_low_precision_combine:
-                    assert self.has_nvfp4 or self.has_w4afp8 or self.has_fp8_qdq, "Low precision combine only supports nvfp4, w4afp8 and fp8 qdq"
+                if self.is_low_precision_combine_supported():
                     precision = "fp8"
                     global_scales = None
                     if self.has_nvfp4: