update

zhangbo9674 · zhangbo9674 · commit 2110d10016d0 · 2025-08-11T13:10:46.000Z
diff --git a/paddlenlp/transformers/deepseek_v2/modeling_pp.py b/paddlenlp/transformers/deepseek_v2/modeling_pp.py
@@ -195,6 +195,8 @@ def forward_without_residual(self, inputs):
                     _, _, shared_expert_output = FP8LinearFunctionBase.fp8_mlp_fwd(
                         norm_output, self.shared_experts.w1, self.shared_experts.w2
                     )
+                    norm_output = None
+                    del norm_output
                 else:
                     _, _, shared_expert_output = FP8LinearFunctionBase.fp8_mlp_fwd(
                         hidden_states, self.shared_experts.w1, self.shared_experts.w2
@@ -226,13 +228,19 @@ def forward(self, inputs):
         with paddle.no_grad():
             if self.shared_experts is not None:
                 if self.using_post_norm_recompute:
-                    shared_expert_output = FP8LinearFunctionBase.fp8_mlp_fwd_norm_rc(
-                        hidden_states,
-                        self.shared_experts.norm_weight,
-                        self.shared_experts.norm_eps,
-                        self.shared_experts.w1,
-                        self.shared_experts.w2,
+                    global norm_out
+                    # shared_expert_output = FP8LinearFunctionBase.fp8_mlp_fwd_norm_rc(
+                    #     hidden_states,
+                    #     self.shared_experts.norm_weight,
+                    #     self.shared_experts.norm_eps,
+                    #     self.shared_experts.w1,
+                    #     self.shared_experts.w2,
+                    # )
+                    _, _, shared_expert_output = FP8LinearFunctionBase.fp8_mlp_fwd(
+                        norm_output, self.shared_experts.w1, self.shared_experts.w2
                     )
+                    norm_output = None
+                    del norm_output
                 else:
                     _, _, shared_expert_output = FP8LinearFunctionBase.fp8_mlp_fwd(
                         hidden_states, self.shared_experts.w1, self.shared_experts.w2