PaddlePaddle
diff --git a/‎backends/metax_gpu/CMakeLists.txt
Lines changed: 2 additions & 2 deletions b/‎backends/metax_gpu/CMakeLists.txt
Lines changed: 2 additions & 2 deletions
diff --git a/‎backends/metax_gpu/kernels/cuda_kernels/weight_only_linear_kernel.cu
Lines changed: 219 additions & 0 deletions b/‎backends/metax_gpu/kernels/cuda_kernels/weight_only_linear_kernel.cu
Lines changed: 219 additions & 0 deletions
diff --git a/‎backends/metax_gpu/kernels/cuda_kernels/weight_quantize_kernel_register.cu
Lines changed: 143 additions & 2 deletions b/‎backends/metax_gpu/kernels/cuda_kernels/weight_quantize_kernel_register.cu
Lines changed: 143 additions & 2 deletions
@@ -165,6 +165,7 @@ file(
   ${PADDLE_SOURCE_DIR}/paddle/phi/kernels/gpu/elementwise_grad_kernel.cu
   ${PADDLE_SOURCE_DIR}/paddle/phi/kernels/gpu/decode_jpeg_kernel.cu
   ${PADDLE_SOURCE_DIR}/paddle/phi/backends/dynload/nvjpeg.cc
+  ${PADDLE_SOURCE_DIR}/paddle/phi/backends/dynload/cupti.cc
   ${PADDLE_SOURCE_DIR}/paddle/phi/kernels/gpu/embedding_kernel.cu
   ${PADDLE_SOURCE_DIR}/paddle/phi/kernels/gpu/embedding_grad_kernel.cu
   ${PADDLE_SOURCE_DIR}/paddle/phi/kernels/gpu/embedding_with_scaled_gradient_grad_kernel_register.cu
@@ -284,8 +285,6 @@ file(
   ${CMAKE_SOURCE_DIR}/kernels/gpudnn/cudnn.cc
   ${CMAKE_SOURCE_DIR}/kernels/cross_entropy_kernel_register.cu
   ${CMAKE_SOURCE_DIR}/kernels/cross_entropy_grad_kernel_register.cu
-  # ${CMAKE_SOURCE_DIR}/kernels/c_softmax_with_cross_entropy_kernel.cu
-  # ${CMAKE_SOURCE_DIR}/kernels/c_softmax_with_cross_entropy_grad_kernel.cu
   ${CMAKE_SOURCE_DIR}/kernels/layer_norm_kernel_register.cu
   ${CMAKE_SOURCE_DIR}/kernels/layer_norm_grad_kernel_register.cu
   ${CMAKE_SOURCE_DIR}/kernels/flash_attn_grad_kernel.cu
@@ -362,6 +361,7 @@ target_link_libraries(
   ${PADDLE_CORE_LIB})
 target_link_libraries(${TARGET_NAME} /opt/maca/lib/libmccl.so)
 target_link_libraries(${TARGET_NAME} /opt/maca/lib/libmcFlashAttn.so)
+target_link_libraries(${TARGET_NAME} /opt/maca/lib/libmcpti.so)
 include_directories(BEFORE ${PADDLE_SOURCE_DIR})
 
 target_compile_definitions(
 
@@ -0,0 +1,219 @@
+/* Copyright (c) 2023 PaddlePaddle Authors. All Rights Reserved.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License. */
+
+#include "mctlass/epilogue/thread/scale_type.h"
+#include "mctlass/half.h"
+#include "mctlass/layout/matrix.h"
+#include "mctlass/mctlass_ex.h"
+#include "paddle/phi/backends/gpu/gpu_context.h"
+#include "paddle/phi/common/datatype_traits.h"
+#include "paddle/phi/core/kernel_registry.h"
+#include "paddle/phi/kernels/funcs/weight_only_gemv.h"
+#include "paddle/phi/kernels/weight_only_linear_kernel.h"
+
+namespace phi {
+
+template <typename T, typename Context>
+void WeightOnlyLinearKernel(const Context& dev_ctx,
+                            const DenseTensor& x,
+                            const DenseTensor& weight,
+                            const paddle::optional<DenseTensor>& bias,
+                            const DenseTensor& weight_scale,
+                            const std::string& weight_dtype,
+                            const int32_t arch,
+                            const int32_t group_size,
+                            DenseTensor* out) {
+  dev_ctx.template Alloc<T>(out);
+  const T* x_data = x.data<T>();
+  const int8_t* weight_data = weight.data<int8_t>();
+  const T* bias_data = bias ? bias.get().data<T>() : nullptr;
+  const T* weight_scale_data = weight_scale.data<T>();
+  T* out_data = out->data<T>();
+  const auto x_dims = x.dims();
+  const auto w_dims = weight.dims();
+  int n = group_size > 0 ? weight_scale.dims()[1] : weight_scale.dims()[0];
+  int k = w_dims[1];
+  int m = x.numel() / k;
+
+  using ElementA = maca_bfloat16;
+  using ElementB_w8a16 = int8_t;
+  using ElementB_w4a16 = uint8_t;
+  using ElementC = maca_bfloat16;
+  using ElementCompute = float;
+  using ElementOutput = ElementC;
+  using LayoutA = mctlass::layout::RowMajor;
+  using LayoutB = mctlass::layout::ColumnMajor;
+  using LayoutC = mctlass::layout::RowMajor;
+  using ArchTag = mctlass::arch::Sm80;
+
+  using mctlassGemmScaleOp_w8a16_nobias =
+      mctlassGemmScale<ElementA,
+                       LayoutA,
+                       ElementB_w8a16,
+                       LayoutB,
+                       ElementC,
+                       LayoutC,
+                       ElementCompute,
+                       ArchTag,
+                       mctlass::epilogue::thread::ScaleType::NoScaleAsBs>;
+
+  using mctlassGemmScaleOp_w8a16_bias =
+      mctlassGemmScale<ElementA,
+                       LayoutA,
+                       ElementB_w8a16,
+                       LayoutB,
+                       ElementC,
+                       LayoutC,
+                       ElementCompute,
+                       ArchTag,
+                       mctlass::epilogue::thread::ScaleType::ScaleOnlyBias>;
+
+  using mctlassGemmScaleOp_w4a16_nobias =
+      mctlassGemmScale<ElementA,
+                       LayoutA,
+                       ElementB_w4a16,
+                       LayoutB,
+                       ElementC,
+                       LayoutC,
+                       ElementCompute,
+                       ArchTag,
+                       mctlass::epilogue::thread::ScaleType::NoScaleAsBs>;
+
+  using mctlassGemmScaleOp_w4a16_bias =
+      mctlassGemmScale<ElementA,
+                       LayoutA,
+                       ElementB_w4a16,
+                       LayoutB,
+                       ElementC,
+                       LayoutC,
+                       ElementCompute,
+                       ArchTag,
+                       mctlass::epilogue::thread::ScaleType::ScaleOnlyBias>;
+
+  mctlass::gemm::GemmCoord problem_size(m, n, k);
+
+  if (weight_dtype == "int8") {
+    if (bias_data == nullptr) {
+      mctlassGemmScaleOp_w8a16_nobias mctlass_op;
+      typename mctlassGemmScaleOp_w8a16_nobias::Arguments arguments{
+          mctlass::gemm::GemmUniversalMode::kGemmQuantB,
+          problem_size,
+          1,
+          mctlassGemmScaleOp_w8a16_nobias::epilogueParams(
+              reinterpret_cast<const maca_bfloat16*>(bias_data)),
+          mctlassGemmScaleOp_w8a16_nobias::quantscaleParams(
+              1,
+              group_size,
+              reinterpret_cast<const maca_bfloat16*>(weight_scale_data)),
+          reinterpret_cast<const maca_bfloat16*>(x_data),
+          weight_data,
+          reinterpret_cast<const maca_bfloat16*>(out_data),
+          out_data,
+          m * k,
+          n * k,
+          m * n,
+          m * n,
+          k,
+          k,
+          n,
+          n};
+      mctlass_op(arguments);
+    } else {
+      mctlassGemmScaleOp_w8a16_bias mctlass_op;
+      typename mctlassGemmScaleOp_w8a16_bias::Arguments arguments{
+          mctlass::gemm::GemmUniversalMode::kGemmQuantB,
+          problem_size,
+          1,
+          mctlassGemmScaleOp_w8a16_bias::epilogueParams(
+              reinterpret_cast<const maca_bfloat16*>(bias_data)),
+          mctlassGemmScaleOp_w8a16_bias::quantscaleParams(
+              1,
+              group_size,
+              reinterpret_cast<const maca_bfloat16*>(weight_scale_data)),
+          reinterpret_cast<const maca_bfloat16*>(x_data),
+          weight_data,
+          reinterpret_cast<const maca_bfloat16*>(out_data),
+          out_data,
+          m * k,
+          n * k,
+          m * n,
+          m * n,
+          k,
+          k,
+          n,
+          n};
+      mctlass_op(arguments);
+    }
+  } else if (weight_dtype == "int4") {
+    if (bias_data == nullptr) {
+      mctlassGemmScaleOp_w4a16_nobias mctlass_op;
+      typename mctlassGemmScaleOp_w4a16_nobias::Arguments arguments{
+          mctlass::gemm::GemmUniversalMode::kGemmQuantB,
+          problem_size,
+          1,
+          mctlassGemmScaleOp_w4a16_nobias::epilogueParams(
+              reinterpret_cast<const maca_bfloat16*>(bias_data)),
+          mctlassGemmScaleOp_w4a16_nobias::quantscaleParams(
+              1,
+              group_size,
+              reinterpret_cast<const maca_bfloat16*>(weight_scale_data)),
+          reinterpret_cast<const maca_bfloat16*>(x_data),
+          weight_data,
+          reinterpret_cast<const maca_bfloat16*>(out_data),
+          out_data,
+          m * k,
+          n * k,
+          m * n,
+          m * n,
+          k,
+          k,
+          n,
+          n};
+      mctlass_op(arguments);
+    } else {
+      mctlassGemmScaleOp_w4a16_bias mctlass_op;
+      typename mctlassGemmScaleOp_w4a16_bias::Arguments arguments{
+          mctlass::gemm::GemmUniversalMode::kGemmQuantB,
+          problem_size,
+          1,
+          mctlassGemmScaleOp_w4a16_bias::epilogueParams(
+              reinterpret_cast<const maca_bfloat16*>(bias_data)),
+          mctlassGemmScaleOp_w4a16_bias::quantscaleParams(
+              1,
+              group_size,
+              reinterpret_cast<const maca_bfloat16*>(weight_scale_data)),
+          reinterpret_cast<const maca_bfloat16*>(x_data),
+          weight_data,
+          reinterpret_cast<const maca_bfloat16*>(out_data),
+          out_data,
+          m * k,
+          n * k,
+          m * n,
+          m * n,
+          k,
+          k,
+          n,
+          n};
+      mctlass_op(arguments);
+    }
+  }
+}
+}  // namespace phi
+
+PD_REGISTER_PLUGIN_KERNEL(weight_only_linear,
+                          metax_gpu,
+                          ALL_LAYOUT,
+                          phi::WeightOnlyLinearKernel,
+                          phi::dtype::float16,
+                          phi::dtype::bfloat16) {}
@@ -11,11 +11,152 @@
 // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 // See the License for the specific language governing permissions and
 // limitations under the License.
+#include "paddle/common/enforce.h"
+#include "paddle/phi/backends/gpu/gpu_context.h"
+#include "paddle/phi/common/datatype_traits.h"
+#include "paddle/phi/core/dense_tensor.h"
 #include "paddle/phi/core/kernel_registry.h"
-#include "paddle/phi/kernels/gpu/weight_quantize_kernel.cu"  // NOLINT
+#include "paddle/phi/kernels/funcs/common_shape.h"
+#include "paddle/phi/kernels/funcs/math_function.h"
 #include "paddle/phi/kernels/impl/weight_quantize_kernel_gpu_impl.h"
 
-PD_CUSTOM_KERNEL_REGISTER(weight_quantize,
+namespace phi {
+
+template <typename T, typename Context>
+void WeightQuantizeKernel(const Context& dev_ctx,
+                          const DenseTensor& x,
+                          const std::string& algo,
+                          const int32_t arch,
+                          const int32_t group_size,
+                          DenseTensor* out,
+                          DenseTensor* scale) {
+  PADDLE_ENFORCE_EQ(
+      ((group_size == -1) || (group_size == 64) || (group_size == 128)),
+      true,
+      common::errors::InvalidArgument(
+          "Currently, group_size only support -1(per-channel), 64 or 128."));
+
+  const int64_t m = x.dims()[0];
+  const int64_t n = x.dims()[1];
+  PADDLE_ENFORCE_LE(
+      m,
+      std::numeric_limits<int>::max(),
+      common::errors::InvalidArgument(
+          "Currently only supports x.shape[0] <= INT_MAX, but got %d", m));
+
+  DenseTensor quanted_x;
+  dev_ctx.template Alloc<int8_t>(out);
+  if (out->numel() == 0) {
+    if (algo == "llm.int8") {
+      dev_ctx.template Alloc<float>(scale);
+    } else {
+      dev_ctx.template Alloc<T>(scale);
+    }
+    return;
+  }
+  quanted_x.Resize({m, n});
+  dev_ctx.template Alloc<int8_t>(&quanted_x);
+  std::vector<int64_t> weight_shape{m, n};
+#ifndef PADDLE_WITH_HIP
+  PADDLE_ENFORCE_EQ(
+      ((arch == 70) || (arch == 75) || (arch == 80) || (arch == 86) ||
+       (arch == 89) || (arch == 90)),
+      true,
+      common::errors::InvalidArgument(
+          "Currently, arch only support 70, 75, 80, 86, 89, 90."));
+#endif
+  if (algo == "llm.int8") {
+    dev_ctx.template Alloc<float>(scale);
+    std::vector<int> axis = {1, 0};
+    funcs::Transpose<Context, int8_t, 2> trans;
+    weight_quant_gpu<T, Context>(dev_ctx,
+                                 x.data<T>(),
+                                 quanted_x.data<int8_t>(),
+                                 scale->data<float>(),
+                                 weight_shape,
+                                 arch,
+                                 algo);
+    trans(dev_ctx, quanted_x, out, axis);
+  } else if (algo == "weight_only_int8") {
+    dev_ctx.template Alloc<T>(scale);
+
+    if (std::is_same<T, int8_t>::value) {
+      // Zkk: you are loading already quantized weight, so we skip doing
+      // quantize. and just copy!
+#ifdef PADDLE_WITH_CUDA
+      cudaMemcpy(quanted_x.data<int8_t>(),
+                 x.data<T>(),
+                 x.numel(),
+                 cudaMemcpyDeviceToDevice);
+#endif
+    } else {
+      weight_quant_gpu<T, Context>(dev_ctx,
+                                   x.data<T>(),
+                                   out->data<int8_t>(),
+                                   scale->data<T>(),
+                                   weight_shape,
+                                   arch,
+                                   algo);
+    }
+    out->Resize({m, n});
+#ifdef PADDLE_WITH_HIP
+    std::vector<int> axis = {1, 0};
+    funcs::Transpose<Context, int8_t, 2> trans;
+    trans(dev_ctx, quanted_x, out, axis);
+// #else
+//     weight_permute_gpu<Context>(dev_ctx,
+//                                 quanted_x.data<int8_t>(),
+//                                 out->data<int8_t>(),
+//                                 weight_shape,
+//                                 arch,
+//                                 algo);
+#endif
+  } else if (algo == "weight_only_int4") {
+    dev_ctx.template Alloc<T>(scale);
+    weight_quant_gpu<T, Context>(dev_ctx,
+                                 x.data<T>(),
+                                 quanted_x.data<int8_t>(),
+                                 scale->data<T>(),
+                                 weight_shape,
+                                 arch,
+                                 algo);
+#ifdef PADDLE_WITH_HIP
+    DenseTensor x_int_tmp(out->type());
+    x_int_tmp.Resize({m, n / 2});
+    dev_ctx.template Alloc<int8_t>(&x_int_tmp);
+    int8_t* x_int_tmp_data = x_int_tmp.data<int8_t>();
+    int8_t* quanted_x_data = quanted_x.data<int8_t>();
+    for (int i = 0; i < out->numel(); ++i) {
+      x_int_tmp_data[i] = quanted_x_data[i];
+    }
+    std::vector<int> axis = {1, 0};
+    funcs::Transpose<Context, int8_t, 2> trans;
+    trans(dev_ctx, x_int_tmp, out, axis);
+#else
+    weight_permute_gpu<Context>(dev_ctx,
+                                quanted_x.data<int8_t>(),
+                                out->data<int8_t>(),
+                                weight_shape,
+                                arch,
+                                algo);
+#endif
+  } else if (algo == "w4a8") {
+    weight_permute_gpu_w4a8<Context>(dev_ctx,
+                                     x.data<int8_t>(),
+                                     out->data<int8_t>(),
+                                     weight_shape,
+                                     arch,
+                                     algo);
+  } else {
+    PADDLE_FATAL(
+        "The algo must be in ['weight_only_int8', 'weight_only_int4', "
+        "'llm.int8', 'w4a8'], but got[%s]",
+        algo);
+  }
+}
+}  // namespace phi
+
+PD_REGISTER_PLUGIN_KERNEL(weight_quantize,
                           metax_gpu,
                           ALL_LAYOUT,
                           phi::WeightQuantizeKernel,