[Deepseek] Pass hidden_states_fp4 to shared_experts (NVIDIA#3819)

hlu1 · web-flow · commit d72add1794ec · 2025-04-24T13:12:12.000-07:00
Signed-off-by: Hao Lu &lt;14827759+hlu1@users.noreply.github.com@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/models/modeling_deepseekv3.py b/tensorrt_llm/_torch/models/modeling_deepseekv3.py
@@ -466,7 +466,8 @@ def forward(
             assert not self.use_dp
 
         def _compute_shared_output():
-            shared_output = self.shared_experts(hidden_states)
+            shared_output = self.shared_experts(hidden_states_fp4
+                                                or hidden_states)
             if self.shared_output_scale is not None:
                 shared_output *= self.shared_output_scale
             return shared_output