intel
diff --git a/‎torch_ipex/csrc/auto_opt_config.h‎
Lines changed: 65 additions & 38 deletions b/‎torch_ipex/csrc/auto_opt_config.h‎
Lines changed: 65 additions & 38 deletions
diff --git a/‎torch_ipex/csrc/cpu/DevOPs.cpp‎
Lines changed: 35 additions & 36 deletions b/‎torch_ipex/csrc/cpu/DevOPs.cpp‎
Lines changed: 35 additions & 36 deletions
diff --git a/‎torch_ipex/csrc/cpu/dbl/Common.cpp‎
Lines changed: 8 additions & 5 deletions b/‎torch_ipex/csrc/cpu/dbl/Common.cpp‎
Lines changed: 8 additions & 5 deletions
diff --git a/‎torch_ipex/csrc/cpu/dbl/Common.h‎
Lines changed: 1 addition & 1 deletion b/‎torch_ipex/csrc/cpu/dbl/Common.h‎
Lines changed: 1 addition & 1 deletion
@@ -61,27 +61,35 @@ class AutoOptConfig {
   }
 
   inline void insert_or_updata_observer(std::string op_name,
-    std::vector<float> input_min_max_values, std::vector<float> output_min_max_values) {
+    std::vector<std::vector<float>> i_min_max_values, std::vector<std::vector<float>> o_min_max_values) {
     num_ops_id++;
     if (observers_.size() < num_ops_id) {
       // this path is that user not set int8 op's configure, using default configures
-      Observer new_observer = {num_ops_id - 1, op_name, input_min_max_values, output_min_max_values};
+      Observer new_observer = {num_ops_id - 1, op_name, i_min_max_values, o_min_max_values};
       observers_.push_back(new_observer);
     } else {
       // user has set configure or have run one interation
-      auto input_pre = observers_[num_ops_id - 1].Input_min_max_values;
-      auto output_pre = observers_[num_ops_id - 1].Output_min_max_values;
-      if (observers_[num_ops_id - 1].Algorithm == "min_max") {
-        observers_[num_ops_id - 1].Input_min_max_values[0] = std::min(input_pre[0], input_min_max_values[0]);
-        observers_[num_ops_id - 1].Input_min_max_values[1] = std::max(input_pre[1], input_min_max_values[1]);
-        observers_[num_ops_id - 1].Output_min_max_values[0] = std::min(output_pre[0], output_min_max_values[0]);
-        observers_[num_ops_id - 1].Output_min_max_values[1] = std::max(output_pre[1], output_min_max_values[1]);
-      } else if(observers_[num_ops_id -1].Algorithm == "moving_averager_min_max"){
-        auto c = observers_[num_ops_id - 1].Averaging_constant;
-        observers_[num_ops_id - 1].Input_min_max_values[0] = (1 - c) * input_pre[0] + c * input_min_max_values[0];
-        observers_[num_ops_id - 1].Input_min_max_values[1] = (1 - c) * input_pre[1] + c * input_min_max_values[1];
-        observers_[num_ops_id - 1].Output_min_max_values[0] = (1 - c) * output_pre[0] + c * output_min_max_values[0];
-        observers_[num_ops_id - 1].Output_min_max_values[1] = (1 - c) * output_pre[1] + c * output_min_max_values[1];
+      auto inputs_pre = observers_[num_ops_id - 1].inputs_min_max_values;
+      auto outputs_pre = observers_[num_ops_id - 1].outputs_min_max_values;
+      if (observers_[num_ops_id - 1].algorithm == "min_max") {
+        for (auto i = 0; i < i_min_max_values.size(); i++) {
+          observers_[num_ops_id - 1].inputs_min_max_values[i][0] = std::min(inputs_pre[i][0], i_min_max_values[i][0]);
+          observers_[num_ops_id - 1].inputs_min_max_values[i][1] = std::max(inputs_pre[i][1], i_min_max_values[i][1]);
+        }
+        for (auto j = 0; j < o_min_max_values.size(); j++) {
+          observers_[num_ops_id - 1].outputs_min_max_values[j][0]= std::min(outputs_pre[j][0], o_min_max_values[j][0]);
+          observers_[num_ops_id - 1].outputs_min_max_values[j][1] = std::max(outputs_pre[j][1], o_min_max_values[j][1]);
+        }
+      } else if(observers_[num_ops_id -1].algorithm == "moving_averager_min_max"){
+        auto c = observers_[num_ops_id - 1].averaging_constant;
+        for (auto i = 0; i < i_min_max_values.size(); i++) {
+          observers_[num_ops_id - 1].inputs_min_max_values[i][0] = (1 - c) * inputs_pre[i][0] + c * i_min_max_values[i][0];
+          observers_[num_ops_id - 1].inputs_min_max_values[i][1] = (1 - c) * inputs_pre[i][1] + c * i_min_max_values[i][1];
+        }
+        for (auto j = 0; j < o_min_max_values.size(); j++) {
+          observers_[num_ops_id - 1].outputs_min_max_values[j][0] = (1 - c) * outputs_pre[j][0] + c * o_min_max_values[j][0];
+          observers_[num_ops_id - 1].outputs_min_max_values[j][1] = (1 - c) * outputs_pre[j][1] + c * o_min_max_values[j][1];
+        }
       }
     }
   }
@@ -93,63 +101,82 @@ class AutoOptConfig {
         std::cout<<observers_[i].max_values[j]<<std::endl;
     }
   }
-*/
   inline void print_indicator() {
     for (auto i = 0; i< indicators_.size(); i++) {
       auto scales = indicators_[i].get_indicator_scales();
       for (auto j = 0; j< scales.size(); j++)
           std::cout<<scales[j]<<std::endl;
     }
   }
+  */
 
   inline void add_indicators() {
     num_ops_id = 0;
     // default used is s8
     for (auto i = 0; i < observers_.size(); i++) {
-      std::vector<float> scales;
-      std::vector<float> input_values = observers_[i].Input_min_max_values;
-      std::vector<float> output_values = observers_[i].Output_min_max_values;
+      std::vector<float> inputs_scale, outputs_scale;
+      std::vector<std::vector<float>> inputs_values = observers_[i].inputs_min_max_values;
+      std::vector<std::vector<float>> outputs_values = observers_[i].outputs_min_max_values;
 
-      scales.push_back(127.5 / std::max(std::abs(input_values[0]), input_values[1]));
-      scales.push_back(127.5 / std::max(std::abs(output_values[0]), output_values[1]));
+      for (auto i = 0; i < inputs_values.size(); i++) {
+        inputs_scale.push_back(127.5 / std::max(std::abs(inputs_values[i][0]), inputs_values[i][1]));
+      }
+      for (auto j = 0; j < outputs_values.size(); j++ ) {
+        outputs_scale.push_back(127.5 / std::max(std::abs(outputs_values[j][0]), outputs_values[j][1]));
+      }
       // zero_points not used now, zero_points = 0 for u8 and 128 for s8.
       //zero_point = 128;
-      Indicator new_indicator(observers_[i].Id, observers_[i].Name, observers_[i].Algorithm,
-        observers_[i].Weight_granularity, scales, {observers_[i].Input_dtype_uint8, observers_[i].Output_dtype_uint8},
-        observers_[i].Quantized);
+      Indicator new_indicator(observers_[i].id, observers_[i].name, observers_[i].algorithm,
+        observers_[i].weight_granularity, inputs_scale, outputs_scale, observers_[i].inputs_dtype_uint8,
+        observers_[i].outputs_dtype_uint8, observers_[i].quantized);
       indicators_.push_back(new_indicator);
     }
     observers_.clear();
   }
 
-  inline std::tuple<std::vector<float>, bool> get_indicator_scales(std::vector<bool> uint8_used) {
+  inline std::tuple<std::vector<std::vector<float>>, bool> get_indicator_scales(std::vector<bool> i_uint8_used, std::vector<bool> o_uint8_used) {
     if (num_ops_id > indicators_.size() - 1) num_ops_id = 0;
 
-    auto indicator_uint8_used = indicators_[num_ops_id].get_indicator_uint8_status();
-    std::vector<float> indicator_scales;
+    std::vector<float> inputs_scale, outputs_scale;
+    std::vector<bool> inputs_uint8_used, outputs_uint8_used;
     bool quantized_status;
-    indicator_scales = indicators_[num_ops_id].get_indicator_scales();
+    std::tie(inputs_uint8_used, outputs_uint8_used) = indicators_[num_ops_id].get_indicator_uint8_status();
+    std::tie(inputs_scale, outputs_scale) = indicators_[num_ops_id].get_indicator_scales();
     quantized_status = indicators_[num_ops_id].get_indicator_quantized_status();
     bool scale_update = false;
-    for (auto i = 0; i < uint8_used.size(); i++) {
-      if (!indicator_uint8_used[i] && uint8_used[i]) {
+    for (auto i = 0; i < i_uint8_used.size(); i++) {
+      if (!inputs_uint8_used[i] && i_uint8_used[i]) {
+        // update zero_point and scales
+        inputs_scale[i] /= 127.5;
+        inputs_scale[i] *= 255.5;
+        scale_update = true;
+      } else if (inputs_uint8_used[i] && !i_uint8_used[i]) {
+        // update zero_point and scales
+        inputs_scale[i] /= 255.5;
+        inputs_scale[i] *= 127.5;
+        scale_update = true;
+      }
+    }
+    for (auto j = 0; j < o_uint8_used.size(); j++) {
+      if (!outputs_uint8_used[j] && o_uint8_used[j]) {
         // update zero_point and scales
-        indicator_scales[i] /= 127.5;
-        indicator_scales[i] *= 255.5;
+        outputs_scale[j] /= 127.5;
+        outputs_scale[j] *= 255.5;
         scale_update = true;
-      } else if (indicator_uint8_used[i] && !uint8_used[i]) {
+      } else if (outputs_uint8_used[j] && !o_uint8_used[j]) {
         // update zero_point and scales
-        indicator_scales[i] /= 255.5;
-        indicator_scales[i] *= 127.5;
+        outputs_scale[j] /= 255.5;
+        outputs_scale[j] *= 127.5;
         scale_update = true;
       }
     }
     if (scale_update) {
-      indicators_[num_ops_id].set_indicator_scales(indicator_scales);
-      indicators_[num_ops_id].set_indicator_uint8_status(uint8_used);
+      indicators_[num_ops_id].set_indicator_scales(inputs_scale, outputs_scale);
+      indicators_[num_ops_id].set_indicator_uint8_status(inputs_uint8_used, outputs_uint8_used);
     }
     num_ops_id++;
-    return std::make_tuple(indicator_scales, quantized_status);
+    std::vector<std::vector<float>> input_output_scale = {inputs_scale, outputs_scale};
+    return std::make_tuple(input_output_scale, quantized_status);
   }
 
   void set_indicators(std::vector<Indicator> indicators) {
 
@@ -54,13 +54,13 @@ at::Tensor AtenIpexCPUDev::dil_convolution(
 
   std::vector<float> output_scale = {};
   if (check_auto_mix_int8_fp32() && !check_int8_calibration()) {
-    std::vector<float> scales;
+    std::vector<std::vector<float>> scales;
     bool quantized;
-    std::tie(scales, quantized) = dbl::comm::get_int8_scales(input, /* uint8_used for output*/false);
+    std::tie(scales, quantized) = dbl::comm::get_int8_scales({input}, /* uint8_used for output*/false);
     //quantized = false;
     if (quantized) {
-      output_scale.push_back(scales[1]);
-      dbl::comm::reorder_to_int8_for_mix_prec(input, {scales[0]});
+      output_scale.push_back(scales[1][0]);
+      dbl::comm::reorder_to_int8_for_mix_prec(input, scales[0]);
       dbl::comm::reorder_to_int8_for_mix_prec(weight, {});
     } else {
       dbl::comm::reorder_to_dtype(input, at::kFloat);
@@ -103,7 +103,7 @@ at::Tensor AtenIpexCPUDev::dil_convolution(
   auto aten_output = dbl::comm::gen_aten_tensor_by(std::move(dil_output));
 
   if (check_auto_mix_int8_fp32() && check_int8_calibration()) {
-    insert_or_updata_observer(input, aten_output, "Convolution");
+    insert_or_updata_observer({input}, {aten_output}, "Convolution");
   }
 
   return aten_output;
@@ -761,13 +761,13 @@ at::Tensor AtenIpexCPUDev::dil_linear(
 
   std::vector<float> output_scale = {};
   if (check_auto_mix_int8_fp32() && !check_int8_calibration()) {
-    std::vector<float> scales;
+    std::vector<std::vector<float>> scales;
     bool quantized;
-    std::tie(scales, quantized) = dbl::comm::get_int8_scales(self, /*  uint8_used for output*/false);
+    std::tie(scales, quantized) = dbl::comm::get_int8_scales({self}, /*  uint8_used for output*/false);
     //quantized = false;
     if (quantized) {
-      output_scale.push_back(scales[1]);
-      dbl::comm::reorder_to_int8_for_mix_prec(self, {scales[0]});
+      output_scale.push_back(scales[1][0]);
+      dbl::comm::reorder_to_int8_for_mix_prec(self, scales[0]);
       dbl::comm::reorder_to_int8_for_mix_prec(weight, {});
     } else {
       dbl::comm::reorder_to_dtype(self, at::kFloat);
@@ -797,7 +797,7 @@ at::Tensor AtenIpexCPUDev::dil_linear(
   auto aten_output = dbl::comm::gen_aten_tensor_by(std::move(y));
 
   if (check_auto_mix_int8_fp32() && check_int8_calibration()) {
-    insert_or_updata_observer(self, aten_output, "Linear");
+    insert_or_updata_observer({self}, {aten_output}, "Linear");
   }
 
   if (self.dim() > 2) {
@@ -955,12 +955,12 @@ std::tuple<at::Tensor, at::Tensor, at::Tensor> AtenIpexCPUDev::dil_native_batch_
   std::vector<float> output_scales = {};
   bool quantized = false;
   if (check_auto_mix_int8_fp32() && !check_int8_calibration()) {
-    std::vector<float> scales;
-    std::tie(scales, quantized) = dbl::comm::get_int8_scales(input, /*  uint8_used for output*/false);
+    std::vector<std::vector<float>> scales;
+    std::tie(scales, quantized) = dbl::comm::get_int8_scales({input}, /*  uint8_used for output*/false);
     //quantized = false;
     if (quantized) {
-      input_scales.push_back(scales[0]);
-      output_scales.push_back(scales[1]);
+      input_scales = scales[0];
+      output_scales = scales[1];
       dbl::comm::reorder_to_int8_for_mix_prec(input, input_scales);
     } else {
       dbl::comm::reorder_to_dtype(input, at::kFloat);
@@ -1005,9 +1005,8 @@ std::tuple<at::Tensor, at::Tensor, at::Tensor> AtenIpexCPUDev::dil_native_batch_
 
     auto aten_output = dbl::comm::gen_aten_tensor_by(std::move(y));
 
-    //dbl::comm::reorder_to_dtype(aten_output, at::kFloat);
     if (check_auto_mix_int8_fp32() && check_int8_calibration()) {
-      insert_or_updata_observer(input, aten_output, "BatchNorm");
+      insert_or_updata_observer({input}, {aten_output}, "BatchNorm");
     }
 
     return std::make_tuple(aten_output, at::Tensor(), at::Tensor());
@@ -1060,12 +1059,12 @@ at::Tensor AtenIpexCPUDev::dil_max_pooling(
   DEBUG("AtenIpexCPUDev::dil_max_pooling\n");
   CHECK_DNNL_OP_PRE_COND(input);
   if (check_auto_mix_int8_fp32() && !check_int8_calibration()) {
-    std::vector<float> scales;
+    std::vector<std::vector<float>> scales;
     bool quantized;
-    std::tie(scales, quantized) = dbl::comm::get_int8_scales(input, /*  uint8_used for output*/false);
+    std::tie(scales, quantized) = dbl::comm::get_int8_scales({input}, /*  uint8_used for output*/false);
     //quantized = false;
     if (quantized) {
-      dbl::comm::reorder_to_int8_for_mix_prec(input, {scales[0]});
+      dbl::comm::reorder_to_int8_for_mix_prec(input, scales[0]);
     } else {
       dbl::comm::reorder_to_dtype(input, at::kFloat);
     }
@@ -1074,7 +1073,7 @@ at::Tensor AtenIpexCPUDev::dil_max_pooling(
   }
 
   if (check_auto_mix_int8_fp32() && check_int8_calibration()) {
-    insert_or_updata_observer(input, at::Tensor(), "MaxPooling");
+    insert_or_updata_observer({input}, {input}, "MaxPooling");
   }
   return dbl::pool::_dil_pooling(
       input,
@@ -1100,12 +1099,12 @@ at::Tensor AtenIpexCPUDev::dil_avg_pool2d(
            "dil_avg_pooling operator does not support divisor");
 
   if (check_auto_mix_int8_fp32() && !check_int8_calibration()) {
-    std::vector<float> scales;
+    std::vector<std::vector<float>> scales;
     bool quantized;
-    std::tie(scales, quantized) = dbl::comm::get_int8_scales(input, /*  uint8_used for output*/false);
+    std::tie(scales, quantized) = dbl::comm::get_int8_scales({input}, /*  uint8_used for output*/false);
     //quantized = false;
     if (quantized) {
-      dbl::comm::reorder_to_int8_for_mix_prec(input, {scales[0]});
+      dbl::comm::reorder_to_int8_for_mix_prec(input, scales[0]);
     } else {
       dbl::comm::reorder_to_dtype(input, at::kFloat);
     }
@@ -1114,7 +1113,7 @@ at::Tensor AtenIpexCPUDev::dil_avg_pool2d(
   }
 
   if (check_auto_mix_int8_fp32() && check_int8_calibration()) {
-    insert_or_updata_observer(input, at::Tensor(), "AvgPool2d");
+    insert_or_updata_observer({input}, {input}, "AvgPool2d");
   }
 
   return dbl::pool::_dil_pooling(
@@ -1161,12 +1160,12 @@ at::Tensor AtenIpexCPUDev::dil_adaptive_avg_pool2d(
   CHECK_DNNL_OP_PRE_COND(input);
 
   if (check_auto_mix_int8_fp32() && !check_int8_calibration()) {
-    std::vector<float> scales;
+    std::vector<std::vector<float>> scales;
     bool quantized;
-    std::tie(scales, quantized) = dbl::comm::get_int8_scales(input, /*  uint8_used for output*/false);
+    std::tie(scales, quantized) = dbl::comm::get_int8_scales({input}, /*  uint8_used for output*/false);
     //quantized = false;
     if (quantized) {
-      dbl::comm::reorder_to_int8_for_mix_prec(input, {scales[0]});
+      dbl::comm::reorder_to_int8_for_mix_prec(input, scales[0]);
     } else {
       dbl::comm::reorder_to_dtype(input, at::kFloat);
     }
@@ -1195,7 +1194,7 @@ at::Tensor AtenIpexCPUDev::dil_adaptive_avg_pool2d(
   }
 
   if (check_auto_mix_int8_fp32() && check_int8_calibration()) {
-    insert_or_updata_observer(input, at::Tensor(), "AdaptiveAvgPool2d");
+    insert_or_updata_observer({input}, {input}, "AdaptiveAvgPool2d");
   }
   return dbl::pool::_dil_pooling(
       input,
@@ -1343,12 +1342,12 @@ at::Tensor AtenIpexCPUDev::dil_relu(const at::Tensor& input) {
   DEBUG("AtenIpexCPUDev::dil_relu\n");
   CHECK_DNNL_OP_PRE_COND(input);
   if (check_auto_mix_int8_fp32() && !check_int8_calibration()) {
-    std::vector<float> scales;
+    std::vector<std::vector<float>> scales;
     bool quantized;
-    std::tie(scales, quantized)= dbl::comm::get_int8_scales(input, /*  uint8_used for output*/true);
+    std::tie(scales, quantized)= dbl::comm::get_int8_scales({input}, /*  uint8_used for output*/true);
     //quantized = false;
     if (quantized) {
-      dbl::comm::reorder_to_int8_for_mix_prec(input, {scales[0]});
+      dbl::comm::reorder_to_int8_for_mix_prec(input, scales[0]);
     } else {
       dbl::comm::reorder_to_dtype(input, at::kFloat);
     }
@@ -1362,7 +1361,7 @@ at::Tensor AtenIpexCPUDev::dil_relu(const at::Tensor& input) {
       x, y, dil::algorithm::eltwise_relu, dil::prop_kind::forward_training, /*alpha*/ 0.0);
 
   if (check_auto_mix_int8_fp32() && check_int8_calibration()) {
-    insert_or_updata_observer(input, at::Tensor(), "Relu");
+    insert_or_updata_observer({input}, {input}, "Relu");
   }
 
   return dbl::comm::gen_aten_tensor_by(std::move(y));
@@ -1373,12 +1372,12 @@ at::Tensor& AtenIpexCPUDev::dil_relu_(at::Tensor& input) {
   CHECK_DNNL_OP_PRE_COND(input);
 
   if (check_auto_mix_int8_fp32() && !check_int8_calibration()) {
-    std::vector<float> scales;
+    std::vector<std::vector<float>> scales;
     bool quantized;
-    std::tie(scales, quantized) = dbl::comm::get_int8_scales(input, /*   uint8_used for output*/true);
+    std::tie(scales, quantized) = dbl::comm::get_int8_scales({input}, /*   uint8_used for output*/true);
     //quantized = false;
     if (quantized) {
-      dbl::comm::reorder_to_int8_for_mix_prec(input, {scales[0]});
+      dbl::comm::reorder_to_int8_for_mix_prec(input, scales[0]);
     } else {
       dbl::comm::reorder_to_dtype(input, at::kFloat);
     }
@@ -1387,7 +1386,7 @@ at::Tensor& AtenIpexCPUDev::dil_relu_(at::Tensor& input) {
   }
 
   if (check_auto_mix_int8_fp32() && check_int8_calibration()) {
-    insert_or_updata_observer(input, at::Tensor(), "Relu_");
+    insert_or_updata_observer({input}, {input}, "Relu_");
   }
 
   auto dil_self = dbl::comm::try_gen_dil_tensor(input);
 
@@ -110,13 +110,16 @@ dil::tensor reorder_dil_tensor_to_dtype(const dil::tensor &dil_tensor, dil::data
   return dst;
 }
 
-std::tuple<std::vector<float>, bool> get_int8_scales(const at::Tensor& input, bool uint8_used) {
+std::tuple<std::vector<std::vector<float>>, bool> get_int8_scales(const at::TensorList& inputs, bool uint8_used) {
   if (check_auto_mix_int8_fp32() && !check_int8_calibration()) {
-    auto src_dil_type = try_gen_dil_tensor(input).get_data_type();
-    bool input_uint8_used = (src_dil_type == dil::data_type::u8);
-    return get_indicator_scales({input_uint8_used, uint8_used});
+    std::vector<bool> inputs_uint8_used;
+    for (auto i = 0; i < inputs.size(); i++) {
+      auto src_dil_type = try_gen_dil_tensor(inputs[i]).get_data_type();
+      inputs_uint8_used.push_back(src_dil_type == dil::data_type::u8);
+    }
+    return get_indicator_scales(inputs_uint8_used, {uint8_used});
   } else {
-    return std::make_tuple(std::vector<float>(), false);
+    return std::make_tuple(std::vector<std::vector<float>>(), false);
   }
 }
 
 
@@ -18,7 +18,7 @@ namespace comm {
  */
 void reorder_to_bf16_for_mix_prec(const at::Tensor& tensor, bool not_reorder_for_training = false);
 
-std::tuple<std::vector<float>, bool> get_int8_scales(const at::Tensor& tensor, bool uint8_used);
+std::tuple<std::vector<std::vector<float>>, bool> get_int8_scales(const at::TensorList& tensor, bool uint8_used);
 
 void reorder_to_int8_for_mix_prec(const at::Tensor& tensor, std::vector<float> scales, bool uint8_used = false);