PaddlePaddle
diff --git a/‎paddlenlp/transformers/deepseek_v2/configuration.py
Lines changed: 7 additions & 0 deletions b/‎paddlenlp/transformers/deepseek_v2/configuration.py
Lines changed: 7 additions & 0 deletions
diff --git a/‎paddlenlp/transformers/deepseek_v2/modeling_pp.py
Lines changed: 1 addition & 1 deletion b/‎paddlenlp/transformers/deepseek_v2/modeling_pp.py
Lines changed: 1 addition & 1 deletion
@@ -181,6 +181,9 @@ def __init__(
         using_flex_token=False,
         use_dualpipev=False,
         send_mtp_embed=False,
+        recompute_fwd_gate_up=False,
+        dequant_input=False,
+        is_split_group_gemm=False,
         **kwargs,
     ):
         self.vocab_size = vocab_size
@@ -231,6 +234,10 @@ def __init__(
         self.using_flex_token = using_flex_token
         self.use_dualpipev = use_dualpipev
         self.send_mtp_embed = send_mtp_embed
+        self.recompute_fwd_gate_up = recompute_fwd_gate_up
+        self.dequant_input = dequant_input
+        self.is_split_group_gemm = is_split_group_gemm
+
 
         super().__init__(
             pad_token_id=pad_token_id,
 
@@ -174,7 +174,7 @@ def backward(self, output_grad):
 
         assert not self.send_mtp_embed, "not support have mtp have yet"
 
-        dx, dw1, dw2 = fp8_mlp_bwd(do3, self.x_fp8, self.x_scale, self.shared_experts.w1, self.shared_experts.w2)
+        dx = fp8_mlp_bwd(do3, self.x_fp8, self.x_scale, self.shared_experts.w1, self.shared_experts.w2)
 
         self.x_fp8 = None
         self.x_scale = None