[NPU] add avgpool2dgrad aclnn suport (#1341)

xuanyuanminzheng · web-flow · commit bcc47be2979e · 2024-07-12T14:53:43.000+08:00
diff --git a/backends/npu/kernels/pool2d_kernel.cc b/backends/npu/kernels/pool2d_kernel.cc
@@ -23,6 +23,12 @@ void CastKernel(const Context& dev_ctx,
                 phi::DataType dtype,
                 phi::DenseTensor* out);
 
+template <typename T, typename Context>
+void TransposeKernel(const Context& dev_ctx,
+                     const phi::DenseTensor& x,
+                     const std::vector<int>& axis,
+                     phi::DenseTensor* out);
+
 template <typename T = int>
 inline void UpdatePadding(std::vector<T>* paddings,
                           const bool global_pooling,
@@ -233,21 +239,21 @@ void Pool2dKernel(const Context& dev_ctx,
 }
 
 template <typename T, typename Context>
-void Pool2dGradKernel(const Context& dev_ctx,
-                      const phi::DenseTensor& in_x,
-                      const phi::DenseTensor& out,
-                      const phi::DenseTensor& out_grad,
-                      const phi::IntArray& kernel_size,
-                      const std::vector<int>& strides_t,
-                      const std::vector<int>& paddings_t,
-                      bool ceil_mode,
-                      bool exclusive,
-                      const std::string& data_format,
-                      const std::string& pooling_type,
-                      bool global_pooling,
-                      bool adaptive,
-                      const std::string& padding_algorithm,
-                      phi::DenseTensor* in_x_grad) {
+void AclopPool2dGradKernel(const Context& dev_ctx,
+                           const phi::DenseTensor& in_x,
+                           const phi::DenseTensor& out,
+                           const phi::DenseTensor& out_grad,
+                           const phi::IntArray& kernel_size,
+                           const std::vector<int>& strides_t,
+                           const std::vector<int>& paddings_t,
+                           bool ceil_mode,
+                           bool exclusive,
+                           const std::string& data_format,
+                           const std::string& pooling_type,
+                           bool global_pooling,
+                           bool adaptive,
+                           const std::string& padding_algorithm,
+                           phi::DenseTensor* in_x_grad) {
   dev_ctx.template Alloc<T>(in_x_grad);
 
   std::vector<int> ksize(kernel_size.GetData().begin(),
@@ -451,6 +457,200 @@ void Pool2dGradKernel(const Context& dev_ctx,
   }
 }
 
+template <typename T, typename Context>
+void Pool2dGradKernel(const Context& dev_ctx,
+                      const phi::DenseTensor& in_x,
+                      const phi::DenseTensor& out,
+                      const phi::DenseTensor& out_grad,
+                      const phi::IntArray& kernel_size,
+                      const std::vector<int>& strides_t,
+                      const std::vector<int>& paddings_t,
+                      bool ceil_mode,
+                      bool exclusive,
+                      const std::string& data_format,
+                      const std::string& pooling_type,
+                      bool global_pooling,
+                      bool adaptive,
+                      const std::string& padding_algorithm,
+                      phi::DenseTensor* in_x_grad) {
+  DO_COMPATIBILITY(
+      aclnnAvgPool2dBackward,
+      (custom_kernel::AclopPool2dGradKernel<T, Context>(dev_ctx,
+                                                        in_x,
+                                                        out,
+                                                        out_grad,
+                                                        kernel_size,
+                                                        strides_t,
+                                                        paddings_t,
+                                                        ceil_mode,
+                                                        exclusive,
+                                                        data_format,
+                                                        pooling_type,
+                                                        global_pooling,
+                                                        adaptive,
+                                                        padding_algorithm,
+                                                        in_x_grad)));
+  // aclnnAvgPool2dBackward do not support padding_algorithm = "SAME"
+  if (pooling_type == "max" || padding_algorithm == "SAME") {
+    return custom_kernel::AclopPool2dGradKernel<T, Context>(dev_ctx,
+                                                            in_x,
+                                                            out,
+                                                            out_grad,
+                                                            kernel_size,
+                                                            strides_t,
+                                                            paddings_t,
+                                                            ceil_mode,
+                                                            exclusive,
+                                                            data_format,
+                                                            pooling_type,
+                                                            global_pooling,
+                                                            adaptive,
+                                                            padding_algorithm,
+                                                            in_x_grad);
+  }
+
+  dev_ctx.template Alloc<T>(in_x_grad);
+  const bool channel_last = data_format == "NHWC";
+
+  std::vector<int> ksize(kernel_size.GetData().begin(),
+                         kernel_size.GetData().end());
+  auto strides = strides_t;
+  auto paddings = paddings_t;
+
+  // update paddings
+  auto in_x_dims = in_x.dims();
+  auto out_dims = out.dims();
+  phi::DDim data_dims;
+  phi::DDim out_data_dims;
+  std::vector<int64_t> ksize_vec = {static_cast<int64_t>(ksize[0]),
+                                    static_cast<int64_t>(ksize[1])};
+  std::vector<int64_t> strides_vec = {static_cast<int64_t>(strides[0]),
+                                      static_cast<int64_t>(strides[1])};
+
+  if (channel_last) {
+    data_dims = phi::slice_ddim(in_x_dims, 1, in_x_dims.size() - 1);
+    out_data_dims = phi::slice_ddim(out_dims, 1, out_dims.size() - 1);
+  } else {
+    data_dims = phi::slice_ddim(in_x_dims, 2, in_x_dims.size());
+    out_data_dims = phi::slice_ddim(out_dims, 2, out_dims.size());
+  }
+  if (data_dims[0] == 1 && data_dims[1] == 1) {
+    TensorCopy(dev_ctx, out_grad, false, in_x_grad);
+    return;
+  }
+
+  UpdatePadding(&paddings,
+                global_pooling,
+                adaptive,
+                padding_algorithm,
+                data_dims,
+                strides,
+                ksize);
+
+  PADDLE_ENFORCE_LT(
+      std::max(paddings[0], paddings[1]),
+      ksize[0],
+      phi::errors::InvalidArgument(
+          "Paddings should be less than %d, but max(pads[0], pads[1]) is %d.",
+          ksize[0],
+          std::max(paddings[0], paddings[1])));
+  PADDLE_ENFORCE_LT(
+      std::max(paddings[2], paddings[3]),
+      ksize[1],
+      phi::errors::InvalidArgument(
+          "Paddings should be less than %d, but max(pads[2], pads[3]) is %d.",
+          ksize[1],
+          std::max(paddings[2], paddings[3])));
+
+  if (adaptive) {
+    strides_vec[0] = std::floor(data_dims[0] / out_data_dims[0]);
+    strides_vec[1] = std::floor(data_dims[1] / out_data_dims[1]);
+    ksize_vec[0] = data_dims[0] - ((out_data_dims[0] - 1) * strides_vec[0]);
+    ksize_vec[1] = data_dims[1] - ((out_data_dims[1] - 1) * strides_vec[1]);
+
+    for (auto& pad : paddings) {
+      pad = 0;
+    }
+  }
+  PADDLE_ENFORCE_LT(
+      std::max(strides[0], strides[1]),
+      64,
+      phi::errors::InvalidArgument("strides should be less than %d, but "
+                                   "max(strides[0], strides[1]) is %d.",
+                                   64,
+                                   std::max(strides[0], strides[1])));
+
+  bool count_include_pad = !exclusive;
+  int64_t divison_override = 0;
+  int8_t cube_math_type = 0;
+
+  std::vector<int64_t> paddings_new;
+  paddings_new = {static_cast<int64_t>(paddings[1]),
+                  static_cast<int64_t>(paddings[2])};
+
+  phi::DenseTensor transformed_out_grad, transformed_in_x,
+      transformed_in_x_grad;
+  if (channel_last) {
+    std::vector<int> perm = {0, 3, 1, 2};
+    std::vector<int> out_grad_tensor_shape = {
+        out_grad.dims()[0],
+        out_grad.dims()[3],
+        out_grad.dims()[1],
+        out_grad.dims()[2],
+    };
+    transformed_out_grad.Resize(phi::make_ddim(out_grad_tensor_shape));
+    dev_ctx.template Alloc<T>(&transformed_out_grad);
+    custom_kernel::TransposeKernel<T, Context>(
+        dev_ctx, out_grad, perm, &transformed_out_grad);
+
+    std::vector<int> in_x_tensor_shape = {
+        in_x.dims()[0],
+        in_x.dims()[3],
+        in_x.dims()[1],
+        in_x.dims()[2],
+    };
+    transformed_in_x.Resize(phi::make_ddim(in_x_tensor_shape));
+    dev_ctx.template Alloc<T>(&transformed_in_x);
+    custom_kernel::TransposeKernel<T, Context>(
+        dev_ctx, in_x, perm, &transformed_in_x);
+
+    std::vector<int> in_x_grad_tensor_shape = {
+        in_x_grad->dims()[0],
+        in_x_grad->dims()[3],
+        in_x_grad->dims()[1],
+        in_x_grad->dims()[2],
+    };
+    transformed_in_x_grad.Resize(phi::make_ddim(in_x_grad_tensor_shape));
+    dev_ctx.template Alloc<T>(&transformed_in_x_grad);
+  } else {
+    transformed_out_grad = out_grad;
+    transformed_in_x = in_x;
+    transformed_in_x_grad = *in_x_grad;
+  }
+  if (pooling_type == "avg") {
+    EXEC_NPU_CMD(aclnnAvgPool2dBackward,
+                 dev_ctx,
+                 transformed_out_grad,
+                 transformed_in_x,
+                 ksize_vec,
+                 strides_vec,
+                 paddings_new,
+                 ceil_mode,
+                 count_include_pad,
+                 divison_override,
+                 cube_math_type,
+                 transformed_in_x_grad);
+  }
+
+  if (channel_last) {
+    std::vector<int> perm;
+    perm = {0, 2, 3, 1};
+    custom_kernel::TransposeKernel<T, Context>(
+        dev_ctx, transformed_in_x_grad, perm, in_x_grad);
+  } else {
+    in_x_grad = &transformed_in_x_grad;
+  }
+}
 }  // namespace custom_kernel
 
 PD_REGISTER_PLUGIN_KERNEL(pool2d,