algorithm1832
diff --git a/‎paddle/fluid/eager/accumulation/accumulation_node.h‎
Lines changed: 10 additions & 6 deletions b/‎paddle/fluid/eager/accumulation/accumulation_node.h‎
Lines changed: 10 additions & 6 deletions
diff --git a/‎paddle/fluid/eager/api/manual/eager_manual/forwards/add_n_fwd_func.cc‎
Lines changed: 3 additions & 0 deletions b/‎paddle/fluid/eager/api/manual/eager_manual/forwards/add_n_fwd_func.cc‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎paddle/fluid/eager/api/manual/eager_manual/forwards/conv2d_fwd_function.cc‎
Lines changed: 4 additions & 0 deletions b/‎paddle/fluid/eager/api/manual/eager_manual/forwards/conv2d_fwd_function.cc‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎paddle/fluid/eager/api/manual/eager_manual/forwards/dtensor_from_local_fwd_func.cc‎
Lines changed: 3 additions & 0 deletions b/‎paddle/fluid/eager/api/manual/eager_manual/forwards/dtensor_from_local_fwd_func.cc‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎paddle/fluid/eager/api/manual/eager_manual/forwards/dtensor_to_local_fwd_func.cc‎
Lines changed: 3 additions & 0 deletions b/‎paddle/fluid/eager/api/manual/eager_manual/forwards/dtensor_to_local_fwd_func.cc‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎paddle/fluid/eager/api/manual/eager_manual/forwards/multiply_fwd_func.cc‎
Lines changed: 4 additions & 0 deletions b/‎paddle/fluid/eager/api/manual/eager_manual/forwards/multiply_fwd_func.cc‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎paddle/fluid/eager/api/manual/eager_manual/forwards/reshard_fwd_func.cc‎
Lines changed: 3 additions & 0 deletions b/‎paddle/fluid/eager/api/manual/eager_manual/forwards/reshard_fwd_func.cc‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎paddle/fluid/eager/api/manual/eager_manual/forwards/sync_batch_norm_fwd_func.cc‎
Lines changed: 7 additions & 0 deletions b/‎paddle/fluid/eager/api/manual/eager_manual/forwards/sync_batch_norm_fwd_func.cc‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎paddle/fluid/eager/api/manual/fluid_manual/forwards/fused_attention_fwd_func.cc‎
Lines changed: 12 additions & 27 deletions b/‎paddle/fluid/eager/api/manual/fluid_manual/forwards/fused_attention_fwd_func.cc‎
Lines changed: 12 additions & 27 deletions
diff --git a/‎paddle/fluid/eager/auto_code_generator/generator/eager_gen.py‎
Lines changed: 16 additions & 0 deletions b/‎paddle/fluid/eager/auto_code_generator/generator/eager_gen.py‎
Lines changed: 16 additions & 0 deletions
@@ -17,6 +17,7 @@
 #include "paddle/fluid/eager/autograd_meta.h"
 #include "paddle/fluid/eager/grad_node_info.h"
 #include "paddle/fluid/eager/hooks.h"
+#include "paddle/fluid/eager/utils.h"
 #include "paddle/utils/test_macros.h"
 
 COMMON_DECLARE_int32(call_stack_level);
@@ -26,21 +27,24 @@ namespace egr {
 class TEST_API GradNodeAccumulation : public GradNodeBase {
  public:
   // Constructor: configure fwd input tensors to grad node
-  explicit GradNodeAccumulation(AutogradMeta* meta) : GradNodeBase(1, 1) {
-    VLOG(5) << "Construct GradNodeAccumulation";
+  explicit GradNodeAccumulation(const paddle::Tensor& fwd_tensor)
+      : GradNodeBase(1, 1) {
+    VLOG(5) << "Construct GradNodeAccumulation(" << this << ")";
+    auto* meta = egr::EagerUtils::nullable_autograd_meta(fwd_tensor);
     if (meta) {
       weak_grad_ = meta->WeakGrad();
     }
-
     if (FLAGS_call_stack_level == 3) {
       this->SetForwardTrace(egr::Controller::Instance().GetPythonStack());
     }
-
     SetDefaultGradInOutMeta();
+    SetGradInMeta(fwd_tensor, 0);
   }
 
+  GradNodeAccumulation(const GradNodeAccumulation& other) = default;
+
   ~GradNodeAccumulation() override {
-    VLOG(5) << "Destruct GradNodeAccumulation";
+    VLOG(5) << "Destruct GradNodeAccumulation(" << this << ")";
   }
 
   // Functor: perform backward computations
@@ -68,7 +72,7 @@ class TEST_API GradNodeAccumulation : public GradNodeBase {
 
   std::shared_ptr<GradNodeBase> Copy() const override {
     return std::shared_ptr<GradNodeAccumulation>(
-        new GradNodeAccumulation(nullptr));
+        new GradNodeAccumulation(*this));
   }
 
   void SetFakeEmpty(bool is_fake_empty) { is_fake_empty_ = is_fake_empty; }
 
@@ -66,6 +66,9 @@ paddle::Tensor add_n_ad_func(const std::vector<paddle::Tensor>& x,
   std::vector<egr::AutogradMeta*> x_autograd_meta_vec =
       egr::EagerUtils::nullable_autograd_meta(x);
   std::vector<egr::AutogradMeta*>* x_autograd_meta = &x_autograd_meta_vec;
+  // Check LeafTensor if its GradNodeAccumulation TensorMeta is consistent with
+  // its TensorMeta
+  egr::CheckGradNodeAccumulation(x);
   // Forward API Call
   std::string unique_api_name;
   if (VLOG_IS_ON(3) || FLAGS_enable_unique_name) {
 
@@ -113,6 +113,10 @@ paddle::Tensor conv2d_ad_func(
       egr::EagerUtils::nullable_autograd_meta(input);
   egr::AutogradMeta* filter_autograd_meta =
       egr::EagerUtils::nullable_autograd_meta(filter);
+  // Check LeafTensor if its GradNodeAccumulation TensorMeta is consistent with
+  // its TensorMeta
+  egr::CheckGradNodeAccumulation(input);
+  egr::CheckGradNodeAccumulation(filter);
   // Forward API Call
   std::string unique_api_name;
   if (VLOG_IS_ON(3) || FLAGS_enable_unique_name) {
 
@@ -46,6 +46,9 @@ paddle::Tensor dtensor_from_local_ad_function(
   // Get Input AutoGradMeta
   egr::AutogradMeta* input_autograd_meta =
       egr::EagerUtils::nullable_autograd_meta(input);
+  // Check LeafTensor if its GradNodeAccumulation TensorMeta is consistent with
+  // its TensorMeta
+  egr::CheckGradNodeAccumulation(input);
   bool trace_backward = egr::Controller::Instance().HasGrad();
   bool require_any_grad =
       egr::EagerUtils::ComputeRequireGrad(trace_backward, input_autograd_meta);
 
@@ -48,6 +48,9 @@ paddle::Tensor dtensor_to_local_ad_function(
   // Get Input AutoGradMeta
   egr::AutogradMeta* input_autograd_meta =
       egr::EagerUtils::nullable_autograd_meta(input);
+  // Check LeafTensor if its GradNodeAccumulation TensorMeta is consistent with
+  // its TensorMeta
+  egr::CheckGradNodeAccumulation(input);
   bool trace_backward = egr::Controller::Instance().HasGrad();
   bool require_any_grad =
       egr::EagerUtils::ComputeRequireGrad(trace_backward, input_autograd_meta);
 
@@ -125,6 +125,10 @@ paddle::Tensor multiply_ad_func(
       egr::EagerUtils::nullable_autograd_meta(x);
   egr::AutogradMeta* y_autograd_meta =
       egr::EagerUtils::nullable_autograd_meta(y);
+  // Check LeafTensor if its GradNodeAccumulation TensorMeta is consistent with
+  // its TensorMeta
+  egr::CheckGradNodeAccumulation(x);
+  egr::CheckGradNodeAccumulation(y);
 
   // Before log info
 
 
@@ -37,6 +37,9 @@ paddle::Tensor reshard_ad_function(
   // Get Input AutoGradMeta
   egr::AutogradMeta* input_autograd_meta =
       egr::EagerUtils::nullable_autograd_meta(input);
+  // Check LeafTensor if its GradNodeAccumulation TensorMeta is consistent with
+  // its TensorMeta
+  egr::CheckGradNodeAccumulation(input);
   bool trace_backward = egr::Controller::Instance().HasGrad();
   bool require_any_grad =
       egr::EagerUtils::ComputeRequireGrad(trace_backward, input_autograd_meta);
 
@@ -131,6 +131,13 @@ sync_batch_norm__ad_func(const paddle::Tensor& x,
       egr::EagerUtils::nullable_autograd_meta(scale);
   egr::AutogradMeta* bias_autograd_meta =
       egr::EagerUtils::nullable_autograd_meta(bias);
+  // Check LeafTensor if its GradNodeAccumulation TensorMeta is consistent with
+  // its TensorMeta
+  egr::CheckGradNodeAccumulation(x);
+  egr::CheckGradNodeAccumulation(mean);
+  egr::CheckGradNodeAccumulation(variance);
+  egr::CheckGradNodeAccumulation(scale);
+  egr::CheckGradNodeAccumulation(bias);
 
   // Before log info
 
 
@@ -423,11 +423,10 @@ fused_attention_dygraph_function(
         grad_node->SetGradOutMeta(QKVBias, 4);
 
         auto QKVBiasOut_accumulation_node =
-            std::make_shared<egr::GradNodeAccumulation>(p_autograd_QKVBiasOut);
+            std::make_shared<egr::GradNodeAccumulation>(QKVBiasOut);
         egr::EagerUtils::SetOutRankWithSlot(p_autograd_QKVBiasOut, 0);
         egr::EagerUtils::SetHistory(p_autograd_QKVBiasOut,
                                     QKVBiasOut_accumulation_node);
-        QKVBiasOut_accumulation_node->SetGradInMeta(QKVBiasOut, 0);
         grad_node->SetGradOutMeta(QKVBiasOut, 11);
       }
 
@@ -436,11 +435,10 @@ fused_attention_dygraph_function(
         grad_node->SetTensorWrapper_SrcMaskOut(SrcMaskOut);
 
         auto SrcMaskOut_accumulation_node =
-            std::make_shared<egr::GradNodeAccumulation>(p_autograd_SrcMaskOut);
+            std::make_shared<egr::GradNodeAccumulation>(SrcMaskOut);
         egr::EagerUtils::SetOutRankWithSlot(p_autograd_SrcMaskOut, 0);
         egr::EagerUtils::SetHistory(p_autograd_SrcMaskOut,
                                     SrcMaskOut_accumulation_node);
-        SrcMaskOut_accumulation_node->SetGradInMeta(SrcMaskOut, 0);
         grad_node->SetGradOutMeta(SrcMaskOut, 12);
       }
 
@@ -462,11 +460,10 @@ fused_attention_dygraph_function(
           grad_node->SetTensorWrapper_LnOut(LnOut);
 
           auto LnOut_accumulation_node =
-              std::make_shared<egr::GradNodeAccumulation>(p_autograd_LnOut);
+              std::make_shared<egr::GradNodeAccumulation>(LnOut);
           egr::EagerUtils::SetOutRankWithSlot(p_autograd_LnOut, 0);
           egr::EagerUtils::SetHistory(p_autograd_LnOut,
                                       LnOut_accumulation_node);
-          LnOut_accumulation_node->SetGradInMeta(LnOut, 0);
           grad_node->SetGradOutMeta(LnOut, 13);
         }
         if (LnMean.has_allocation()) {
@@ -490,14 +487,11 @@ fused_attention_dygraph_function(
         grad_node->SetTensorWrapper_Ln2Variance(Ln2Variance);
 
         auto BiasDropoutResidualOut_accumulation_node =
-            std::make_shared<egr::GradNodeAccumulation>(
-                p_autograd_BiasDropoutResidualOut);
+            std::make_shared<egr::GradNodeAccumulation>(BiasDropoutResidualOut);
         egr::EagerUtils::SetOutRankWithSlot(p_autograd_BiasDropoutResidualOut,
                                             0);
         egr::EagerUtils::SetHistory(p_autograd_BiasDropoutResidualOut,
                                     BiasDropoutResidualOut_accumulation_node);
-        BiasDropoutResidualOut_accumulation_node->SetGradInMeta(
-            BiasDropoutResidualOut, 0);
         grad_node->SetGradOutMeta(BiasDropoutResidualOut, 14);
       }
 
@@ -520,68 +514,59 @@ fused_attention_dygraph_function(
       egr::EagerUtils::SetHistory(p_autograd_Y, grad_node);
       grad_node->SetGradInMeta(Y, 19);
       auto QKVOut_accumulation_node =
-          std::make_shared<egr::GradNodeAccumulation>(p_autograd_QKVOut);
+          std::make_shared<egr::GradNodeAccumulation>(QKVOut);
       egr::EagerUtils::SetOutRankWithSlot(p_autograd_QKVOut, 0);
       egr::EagerUtils::SetHistory(p_autograd_QKVOut, QKVOut_accumulation_node);
-      QKVOut_accumulation_node->SetGradInMeta(QKVOut, 0);
       grad_node->SetGradOutMeta(QKVOut, 15);
 
       auto QKTVOut_accumulation_node =
-          std::make_shared<egr::GradNodeAccumulation>(p_autograd_QKTVOut);
+          std::make_shared<egr::GradNodeAccumulation>(QKTVOut);
       egr::EagerUtils::SetOutRankWithSlot(p_autograd_QKTVOut, 0);
       egr::EagerUtils::SetHistory(p_autograd_QKTVOut,
                                   QKTVOut_accumulation_node);
-      QKTVOut_accumulation_node->SetGradInMeta(QKTVOut, 0);
       grad_node->SetGradOutMeta(QKTVOut, 16);
 
       auto TransposeOut2_accumulation_node =
-          std::make_shared<egr::GradNodeAccumulation>(p_autograd_TransposeOut2);
+          std::make_shared<egr::GradNodeAccumulation>(TransposeOut2);
       egr::EagerUtils::SetOutRankWithSlot(p_autograd_TransposeOut2, 0);
       egr::EagerUtils::SetHistory(p_autograd_TransposeOut2,
                                   TransposeOut2_accumulation_node);
-      TransposeOut2_accumulation_node->SetGradInMeta(TransposeOut2, 0);
       grad_node->SetGradOutMeta(TransposeOut2, 17);
 
       auto QKOut_accumulation_node =
-          std::make_shared<egr::GradNodeAccumulation>(p_autograd_QKOut);
+          std::make_shared<egr::GradNodeAccumulation>(QKOut);
       egr::EagerUtils::SetOutRankWithSlot(p_autograd_QKOut, 0);
       egr::EagerUtils::SetHistory(p_autograd_QKOut, QKOut_accumulation_node);
-      QKOut_accumulation_node->SetGradInMeta(QKOut, 0);
       grad_node->SetGradOutMeta(QKOut, 18);
 
       auto SoftmaxOut_accumulation_node =
-          std::make_shared<egr::GradNodeAccumulation>(p_autograd_SoftmaxOut);
+          std::make_shared<egr::GradNodeAccumulation>(SoftmaxOut);
       egr::EagerUtils::SetOutRankWithSlot(p_autograd_SoftmaxOut, 0);
       egr::EagerUtils::SetHistory(p_autograd_SoftmaxOut,
                                   SoftmaxOut_accumulation_node);
-      SoftmaxOut_accumulation_node->SetGradInMeta(SoftmaxOut, 0);
       grad_node->SetGradOutMeta(SoftmaxOut, 19);
 
       if (AttnDropoutOut.has_allocation()) {
         auto AttnDropoutOut_accumulation_node =
-            std::make_shared<egr::GradNodeAccumulation>(
-                p_autograd_AttnDropoutOut);
+            std::make_shared<egr::GradNodeAccumulation>(AttnDropoutOut);
         egr::EagerUtils::SetOutRankWithSlot(p_autograd_AttnDropoutOut, 0);
         egr::EagerUtils::SetHistory(p_autograd_AttnDropoutOut,
                                     AttnDropoutOut_accumulation_node);
-        AttnDropoutOut_accumulation_node->SetGradInMeta(AttnDropoutOut, 0);
         grad_node->SetGradOutMeta(AttnDropoutOut, 20);
       }
 
       auto FMHAOut_accumulation_node =
-          std::make_shared<egr::GradNodeAccumulation>(p_autograd_FMHAOut);
+          std::make_shared<egr::GradNodeAccumulation>(FMHAOut);
       egr::EagerUtils::SetOutRankWithSlot(p_autograd_FMHAOut, 0);
       egr::EagerUtils::SetHistory(p_autograd_FMHAOut,
                                   FMHAOut_accumulation_node);
-      FMHAOut_accumulation_node->SetGradInMeta(FMHAOut, 0);
       grad_node->SetGradOutMeta(FMHAOut, 21);
 
       auto OutLinearOut_accumulation_node =
-          std::make_shared<egr::GradNodeAccumulation>(p_autograd_OutLinearOut);
+          std::make_shared<egr::GradNodeAccumulation>(OutLinearOut);
       egr::EagerUtils::SetOutRankWithSlot(p_autograd_OutLinearOut, 0);
       egr::EagerUtils::SetHistory(p_autograd_OutLinearOut,
                                   OutLinearOut_accumulation_node);
-      OutLinearOut_accumulation_node->SetGradInMeta(OutLinearOut, 0);
       grad_node->SetGradOutMeta(OutLinearOut, 22);
     }
   }
 
@@ -534,6 +534,9 @@ class {} : public egr::GradNodeBase {{
   // Get Input AutoGradMeta
 {}
 
+  // Check LeafTensor if its GradNodeAccumulation TensorMeta is consistent with its TensorMeta
+{}
+
  // Before log info
 {}
 
@@ -1913,6 +1916,7 @@ def GenerateForwardDefinitionAndDeclaration(
         else:
             forward_inplace_map = {}
         indent = GetIndent(1)
+        check_input_grad_node_str = ""
 
         # Get Function Args
         num_inputs = len(forward_attrs_list) + len(forward_inputs_position_map)
@@ -2328,6 +2332,17 @@ def GenerateForwardDefinitionAndDeclaration(
                 outputs_autograd_meta_list.append(output_autograd_meta)
             outputs_autograd_meta_str = "\n".join(outputs_autograd_meta_list)
 
+            # 3. Check Input Accumulation Node
+            check_input_grad_node_str_list = []
+            for name, (_, _) in forward_inputs_position_map.items():
+                check_input_grad_node_str_list.append(
+                    f"{indent}egr::CheckGradNodeAccumulation({name});"
+                )
+            if check_input_grad_node_str_list:
+                check_input_grad_node_str = "\n".join(
+                    check_input_grad_node_str_list
+                )
+
             # Node Creation
             self.GenerateNodeCreationCodes(is_inplaced=is_inplaced)
             node_creation_str = self.node_creation_str
@@ -2595,6 +2610,7 @@ def GenerateForwardDefinitionAndDeclaration(
                 type_autocast_logic_str,
                 layout_logic_str,
                 inputs_autograd_meta_str,
+                check_input_grad_node_str,
                 before_log_str,
                 compute_require_grad_args_str,
                 self.grad_node_name,