Revert "Enable quant save/load through prepack fn registration (#3078)"

Nuullll · Nuullll · commit c6ea20bede12 · 2023-10-09T20:33:03.000+08:00
This reverts commit 7db2f1c.
diff --git a/csrc/gpu/CMakeLists.txt b/csrc/gpu/CMakeLists.txt
@@ -150,6 +150,10 @@ if (USE_PROFILER)
   list(APPEND IPEX_COMPILE_DEFINITIONS "USE_PROFILER")
 endif()
 
+if (BUILD_JIT_QUANTIZATION_SAVE)
+  list(APPEND IPEX_COMPILE_DEFINITIONS "BUILD_JIT_QUANTIZATION_SAVE")
+endif()
+
 if (USE_SPLIT_FP64_LOOPS)
   list(APPEND IPEX_COMPILE_DEFINITIONS "USE_SPLIT_FP64_LOOPS")
 endif()
diff --git a/csrc/gpu/aten/operators/QConv_prepack.cpp b/csrc/gpu/aten/operators/QConv_prepack.cpp
@@ -2,7 +2,6 @@
 #include <oneDNN/oneDNN.h>
 #include <runtime/Utils.h>
 
-#include <ATen/native/quantized/PackedParams.h>
 #include "comm/ParamUtils.h"
 
 #include <quantized/QUtils.h>
@@ -124,18 +123,3 @@ TORCH_LIBRARY_IMPL(quantized, XPU, m) {
 
 } // namespace AtenIpexTypeQuantizedXPU
 } // namespace at
-
-int init_prepack_fn() {
-  register_prepack<2>(
-      at::QEngine::QXPU,
-      at::AtenIpexTypeQuantizedXPU::PackedConvWeightQDPCPP<2>::prepack);
-  register_prepack<3>(
-      at::QEngine::QXPU,
-      at::AtenIpexTypeQuantizedXPU::PackedConvWeightQDPCPP<3>::prepack);
-  register_linear_prepack(
-      at::QEngine::QXPU,
-      at::AtenIpexTypeQuantizedXPU::PackedLinearWeightQDPCPP::prepack);
-  return 1;
-}
-
-auto xpu_prepack = init_prepack_fn();
diff --git a/csrc/gpu/aten/quantized/QTensor.cpp b/csrc/gpu/aten/quantized/QTensor.cpp
@@ -131,11 +131,7 @@ Tensor& set_(
   auto* self_ = self.unsafeGetTensorImpl();
   self_->set_storage_keep_dtype(storage);
   self_->set_storage_offset(storage_offset);
-  if (strides.data() == nullptr) {
-    self_->set_sizes_contiguous(sizes);
-  } else {
-    self_->set_sizes_and_strides(sizes, strides);
-  }
+  self_->set_sizes_and_strides(sizes, strides);
   return self;
 }
 
diff --git a/csrc/gpu/aten/quantized/QUtils.cpp b/csrc/gpu/aten/quantized/QUtils.cpp
@@ -0,0 +1,102 @@
+#include <ATen/ATen.h>
+#include <ATen/native/TensorFactories.h>
+#include <ATen/quantized/QTensorImpl.h>
+#include <ATen/quantized/Quantizer.h>
+#include <c10/core/QScheme.h>
+#include <c10/core/TensorOptions.h>
+#include <c10/util/accumulate.h>
+#include <torch/custom_class.h>
+#include <torch/custom_class_detail.h>
+
+#include <oneapi/dnnl/dnnl.hpp>
+#include <quantized/QUtils.h>
+
+#ifdef BUILD_JIT_QUANTIZATION_SAVE
+// Following code is not in any namespace. This is due to
+// we align to PyTorch side. If any code is need added in this
+// file except packedparam serialization, please write it in a
+// proper namespace.
+// QConv prepack pickling method hacking
+template <int kSpatialDim = 2>
+torch::class_<ConvPackedParamsBase<kSpatialDim>> register_conv_params();
+
+extern template torch::class_<ConvPackedParamsBase<2>> register_conv_params<
+    2>();
+extern template torch::class_<ConvPackedParamsBase<3>> register_conv_params<
+    3>();
+
+template <int kSpatialDim = 2>
+ConvParamsSerializationTypeV2 serialize_conv(
+    const c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>>& params);
+extern template ConvParamsSerializationTypeV2 serialize_conv(
+    const c10::intrusive_ptr<ConvPackedParamsBase<2>>& params);
+extern template ConvParamsSerializationTypeV2 serialize_conv(
+    const c10::intrusive_ptr<ConvPackedParamsBase<3>>& params);
+
+template <uint32_t kSpatialDim>
+ConvParamsSerializationTypeV3 parse_conv_serialized_state(c10::IValue v);
+
+template <int kSpatialDim>
+int redefine_prepack() {
+  auto conv_prepack_class = register_conv_params<kSpatialDim>();
+  auto clsptr = torch::getCustomClass(
+      "__torch__.torch.classes.quantized.Conv" + c10::to_string(kSpatialDim) +
+      "dPackedParamsBase");
+  clsptr->unsafeRemoveMethod("__getstate__");
+  clsptr->unsafeRemoveMethod("__setstate__");
+  conv_prepack_class.def_pickle(
+      [](const c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>>& params)
+          -> ConvParamsSerializationType { // __getstate__
+        return serialize_conv<kSpatialDim>(params);
+      },
+      // __setstate__ takes c10::IValue because we support parsing historical
+      // serialization versions.
+      [](c10::IValue v) -> c10::intrusive_ptr<
+                            ConvPackedParamsBase<kSpatialDim>> { // __setstate__
+        ConvParamsSerializationTypeV3 state =
+            parse_conv_serialized_state<kSpatialDim>(v);
+        return deserialize_conv_dpcpp<kSpatialDim>(state);
+      });
+  return 0;
+}
+
+template int redefine_prepack<2>();
+template int redefine_prepack<3>();
+
+// QLinear prepack pickling method hacking
+torch::class_<LinearPackedParamsBase> register_linear_params();
+
+int redefine_linear_prepack() {
+  auto linear_prepack_class = register_linear_params();
+  auto clsptr = torch::getCustomClass(
+      "__torch__.torch.classes.quantized.LinearPackedParamsBase");
+  clsptr->unsafeRemoveMethod("__getstate__");
+  clsptr->unsafeRemoveMethod("__setstate__");
+  using SerializationType = std::tuple<at::Tensor, c10::optional<at::Tensor>>;
+  linear_prepack_class.def_pickle(
+      [](const c10::intrusive_ptr<LinearPackedParamsBase>& params)
+          -> SerializationType { // __getstate__
+        at::Tensor weight;
+        c10::optional<at::Tensor> bias;
+        std::tie(weight, bias) = params->unpack();
+        return std::make_tuple(std::move(weight), std::move(bias));
+      },
+      [](SerializationType state)
+          -> c10::intrusive_ptr<LinearPackedParamsBase> { // __setstate__
+        at::Tensor weight;
+        c10::optional<at::Tensor> bias;
+        weight = std::move(std::get<0>(state));
+        bias = std::move(std::get<1>(state));
+
+        return at::AtenIpexTypeQuantizedXPU::PackedLinearWeightQDPCPP::prepack(
+            std::move(weight), std::move(bias));
+      });
+  return 0;
+}
+
+namespace {
+static auto conv2d_params = redefine_prepack<2>();
+static auto conv3d_params = redefine_prepack<3>();
+static auto linear_params = redefine_linear_prepack();
+} // namespace
+#endif
diff --git a/csrc/gpu/aten/quantized/QUtils.h b/csrc/gpu/aten/quantized/QUtils.h
@@ -20,7 +20,6 @@
 
 namespace xpu {
 namespace dpcpp {
-
 // Note: [Opaque u8 tensor]
 // Due to the difference between oneDNN and PyTorch u8 quantization, we quant
 // tensor with kQUint8 and 128 zp to memory::data_type::s8 and 0 zp inside. This
@@ -327,3 +326,93 @@ struct PackedLinearWeightQDPCPP : public LinearPackedParamsBase {
 
 } // namespace AtenIpexTypeQuantizedXPU
 } // namespace at
+
+#ifdef BUILD_JIT_QUANTIZATION_SAVE
+
+// Repeat torch type definition here again
+using ConvParamsSerializationTypeV2 = std::tuple<
+    // version, for versions 2 and up
+    std::string,
+    // non-optional tensors
+    std::vector<at::Tensor>,
+    // optional tensors
+    std::vector<c10::optional<at::Tensor>>>;
+using ConvParamsSerializationTypeV3 = std::tuple<
+    // version, int for versions 3 and up
+    int64_t,
+    // configuration values
+    std::vector<int64_t>,
+    // optional tensors
+    std::vector<c10::optional<at::Tensor>>>;
+
+using ConvParamsSerializationType = ConvParamsSerializationTypeV2;
+
+template <uint32_t kSpatialDim>
+c10::intrusive_ptr<ConvPackedParamsBase<kSpatialDim>> deserialize_conv_dpcpp(
+    ConvParamsSerializationTypeV3 state) {
+  int64_t version;
+  std::vector<int64_t> config_vals;
+  std::vector<c10::optional<at::Tensor>> tensors;
+
+  std::tie(version, config_vals, tensors) = state;
+  TORCH_INTERNAL_ASSERT(
+      version == 3, "Unexpected serialized qconv version: ", version);
+
+  TORCH_CHECK(tensors.size() == 3, "Wrong number of tensors", tensors.size());
+  c10::optional<at::Tensor> weight = tensors[1];
+  c10::optional<at::Tensor> bias = tensors[2];
+  TORCH_INTERNAL_ASSERT(
+      weight, "Weight should always be present in serialized qconv.");
+
+  torch::List<int64_t> stride, padding, output_padding, dilation;
+  // skip kSpatialDim
+  int idx = 1;
+  for (const auto i : c10::irange(kSpatialDim)) {
+    (void)i; // Suppress unused variable
+    stride.emplace_back(config_vals.at(idx));
+    idx++;
+  }
+  for (const auto i : c10::irange(kSpatialDim)) {
+    (void)i; // Suppress unused variable
+    padding.emplace_back(config_vals.at(idx));
+    idx++;
+  }
+  for (const auto i : c10::irange(kSpatialDim)) {
+    (void)i; // Suppress unused variable
+    dilation.emplace_back(config_vals.at(idx));
+    idx++;
+  }
+  for (const auto i : c10::irange(kSpatialDim)) {
+    (void)i; // Suppress unused variable
+    output_padding.emplace_back(config_vals.at(idx));
+    idx++;
+  }
+  int64_t groups = config_vals.at(idx);
+  idx++;
+  int64_t flags = config_vals.at(idx);
+  idx++;
+  TORCH_INTERNAL_ASSERT(
+      idx == static_cast<int64_t>(config_vals.size()),
+      "Unexpected length of config_vals, expected ",
+      idx,
+      " got ",
+      config_vals.size());
+
+  bool transpose = flags & (1 << 0);
+
+  int64_t other_flags = flags & ~(1 << 0);
+  TORCH_INTERNAL_ASSERT(
+      other_flags == 0, "Unexpected flags set in ", flags, ".");
+
+  return at::AtenIpexTypeQuantizedXPU::PackedConvWeightQDPCPP<kSpatialDim>::
+      prepack(
+          weight.value(),
+          bias,
+          stride,
+          padding,
+          output_padding,
+          dilation,
+          groups,
+          transpose);
+}
+#endif
diff --git a/csrc/gpu/utils/Settings.cpp b/csrc/gpu/utils/Settings.cpp
@@ -1,4 +1,3 @@
-#include <ATen/native/quantized/PackedParams.h>
 #include <oneDNN/Runtime.h>
 #include <runtime/Device.h>
 #include <utils/Settings.h>
@@ -293,6 +292,14 @@ bool Settings::is_channels_last_1d_enabled() const {
 #endif
 }
 
+bool Settings::is_jit_quantization_save_enabled() const {
+#if defined(BUILD_JIT_QUANTIZATION_SAVE)
+  return true;
+#else
+  return false;
+#endif
+}
+
 bool Settings::is_xetla_enabled() const {
 #if defined(USE_XETLA)
   return true;
diff --git a/csrc/gpu/utils/Settings.h b/csrc/gpu/utils/Settings.h
@@ -72,6 +72,7 @@ class IPEX_API Settings final {
   bool is_multi_context_enabled() const;
 
   bool is_channels_last_1d_enabled() const;
+  bool is_jit_quantization_save_enabled() const;
   bool is_xetla_enabled() const;
 
   bool is_simple_trace_enabled() const;
diff --git a/intel_extension_for_pytorch/csrc/xpu/Module.cpp b/intel_extension_for_pytorch/csrc/xpu/Module.cpp
@@ -677,6 +677,10 @@ void init_xpu_module(pybind11::module& m) {
     return Settings::I().is_multi_context_enabled();
   });
 
+  m.def("_is_jit_quantization_save_enabled", []() {
+    return Settings::I().is_jit_quantization_save_enabled();
+  });
+
   m.def("_is_channels_last_1d_enabled", []() {
     return Settings::I().is_channels_last_1d_enabled();
   });
diff --git a/intel_extension_for_pytorch/xpu/utils.py b/intel_extension_for_pytorch/xpu/utils.py
@@ -310,6 +310,10 @@ def disable_tile_as_device():
 ################################################################
 
 
+def has_jit_quantization_save():
+    return _C._is_jit_quantization_save_enabled()
+
+
 def has_xetla():
     return _C._is_xetla_enabled()
 
diff --git a/tests/gpu/examples/test_int8_jit_save.py b/tests/gpu/examples/test_int8_jit_save.py
diff --git a/tests/gpu/examples/test_jit_save_load.py b/tests/gpu/examples/test_jit_save_load.py