intel
diff --git a/‎intel_pytorch_extension_py/ops/jit_script.py‎
Lines changed: 0 additions & 2 deletions b/‎intel_pytorch_extension_py/ops/jit_script.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎intel_pytorch_extension_py/ops/module.py‎
Lines changed: 0 additions & 26 deletions b/‎intel_pytorch_extension_py/ops/module.py‎
Lines changed: 0 additions & 26 deletions
diff --git a/‎scripts/cpu/gen-dense-cpu-ops.py‎
Lines changed: 5 additions & 5 deletions b/‎scripts/cpu/gen-dense-cpu-ops.py‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎tests/cpu/test_bf16_lazy_reorder.py‎
Lines changed: 0 additions & 20 deletions b/‎tests/cpu/test_bf16_lazy_reorder.py‎
Lines changed: 0 additions & 20 deletions
diff --git a/‎tests/cpu/test_jit.py‎
Lines changed: 1 addition & 2 deletions b/‎tests/cpu/test_jit.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎torch_ipex/csrc/cpu/CustomOPs.h‎
Lines changed: 9 additions & 9 deletions b/‎torch_ipex/csrc/cpu/CustomOPs.h‎
Lines changed: 9 additions & 9 deletions
diff --git a/‎torch_ipex/csrc/cpu/DevOPs.cpp‎
Lines changed: 20 additions & 44 deletions b/‎torch_ipex/csrc/cpu/DevOPs.cpp‎
Lines changed: 20 additions & 44 deletions
diff --git a/‎torch_ipex/csrc/cpu/ExtendOPs.cpp‎
Lines changed: 7 additions & 7 deletions b/‎torch_ipex/csrc/cpu/ExtendOPs.cpp‎
Lines changed: 7 additions & 7 deletions
@@ -18,8 +18,6 @@ def script_(obj, optimize=None, _frames_up=0, _rcb=None):
         jit_m = wrap_cpp_module(torch._C._jit_pass_fold_convbn(jit_m._c))
         core.enable_auto_dnnl()
 
-        jit_m = wrap_cpp_module(core._jit_prepack_conv_weight(jit_m._c))
-    
     return jit_m
 
 
 
@@ -22,9 +22,9 @@
 ]
 
 _FN_DNNL_FUNCS_WITH_SIMPLE_ATEN_SIG = [
-    # 'aten::add.Tensor(Tensor self, Tensor other, *, Scalar alpha=1) -> Tensor',
-    # 'aten::add_.Tensor(Tensor(a!) self, Tensor other, *, Scalar alpha=1) -> Tensor(a!)',
-    # 'aten::add.out(Tensor self, Tensor other, *, Scalar alpha=1, Tensor(a!) out) -> Tensor(a!)',
+    'aten::add.Tensor(Tensor self, Tensor other, *, Scalar alpha=1) -> Tensor',
+    'aten::add_.Tensor(Tensor(a!) self, Tensor other, *, Scalar alpha=1) -> Tensor(a!)',
+    'aten::add.out(Tensor self, Tensor other, *, Scalar alpha=1, Tensor(a!) out) -> Tensor(a!)',
     'aten::mul.Tensor(Tensor self, Tensor other) -> Tensor',
     'aten::mul_.Tensor(Tensor(a!) self, Tensor other) -> Tensor(a!)',
     'aten::mul.out(Tensor self, Tensor other, *, Tensor(a!) out) -> Tensor(a!)',
@@ -66,8 +66,8 @@
     'aten::clone(Tensor self, *, MemoryFormat? memory_format=None) -> Tensor',
     'aten::gelu(Tensor self) -> Tensor',
     'aten::gelu_backward(Tensor grad, Tensor self) -> Tensor',
-    'aten::native_layer_norm(Tensor input, Tensor? weight, Tensor? bias, int M, int N, float eps) -> (Tensor, Tensor, Tensor)',
-    'aten::native_layer_norm_backward(Tensor grad_out, Tensor input, Tensor mean, Tensor rstd, Tensor? weight, int M, int N, bool[3] output_mask) -> (Tensor, Tensor, Tensor)'
+    #'aten::native_layer_norm(Tensor input, Tensor? weight, Tensor? bias, int M, int N, float eps) -> (Tensor, Tensor, Tensor)',
+    #'aten::native_layer_norm_backward(Tensor grad_out, Tensor input, Tensor mean, Tensor rstd, Tensor? weight, int M, int N, bool[3] output_mask) -> (Tensor, Tensor, Tensor)'
 ]
 
 _SHALLOW_FALLBACK_TO_CPU_TENSOR_LIST = 'shallowFallbackToCPUTensorList'
 
@@ -119,26 +119,6 @@ def test_batch_norm3d(self):
 
                 self.assertEqual(res_man_bf16.float(), res_auto_mix)
 
-class TestLayerNorm(TestCase):
-    def test_layer_norm(self):
-        rand_seed = int(get_rand_seed())
-        print("{} rand sed: {}".format(sys._getframe().f_code.co_name, rand_seed))
-        torch.manual_seed(rand_seed)
-
-        x_fp32 = torch.randn(2, 5, 10, 10, dtype=torch.float32, device=device)
-        x_bf16 = x_fp32.to(torch.bfloat16)
-
-        m = torch.nn.LayerNorm([10, 10])
-        m_man_bf16 =copy.deepcopy(m).to(device=device)
-        m_auto_mix =copy.deepcopy(m).to(device=device)
-
-        res_fp32 = m(x_fp32)
-
-        with AutoDNNL(True), AutoMixPrecision(False):
-            res_man_bf16 = m_man_bf16(x_bf16)
-            self.assertEqual(res_man_bf16.dtype, torch.bfloat16)
-            self.assertEqual(res_fp32.bfloat16().float(), res_man_bf16, 2e-2)
-
 class TestRelu(TestCase):
     def test_relu(self):
         rand_seed = int(get_rand_seed())
 
@@ -259,8 +259,7 @@ def _test_output_bf16(self, model, x, kind=None, prec=None):
         core.enable_auto_dnnl()
 
         core.enable_mix_bf16_fp32()
-        # prepack convolution weight, weight will be a bf16 tensor
-        fused_model = wrap_cpp_module(core._jit_prepack_conv_weight(fused_model._c))
+
         with torch.no_grad():
             # bf16, native path
             result = model(x)
 
@@ -18,7 +18,7 @@ class NewLinearOp : public torch::autograd::Function<NewLinearOp> {
         at::Tensor bias = at::Tensor()) {
         ctx->save_for_backward({input, weight, bias});
         if (torch_ipex::check_auto_dnnl() && input.device().type() == c10::DeviceType::DPCPP) {
-          return torch_ipex::cpu::AtenIpexCPUDev::dil_linear(input.is_contiguous() ? input : input.contiguous(), weight, bias);
+          return torch_ipex::cpu::AtenIpexCPUDev::dil_linear(input.is_contiguous() ? input : input.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), bias.is_contiguous() ? bias : bias.contiguous());
         } else {
           return at::linear(input, weight, bias);
         }
@@ -38,9 +38,9 @@ class NewLinearOp : public torch::autograd::Function<NewLinearOp> {
 
       if (torch_ipex::check_auto_dnnl() && input.device().type() == c10::DeviceType::DPCPP) {
         grad_input = torch_ipex::cpu::AtenIpexCPUDev::dil_linear_backward_input(
-            input.sizes(), grad_output.contiguous(), weight);
+            input.sizes(), grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), weight.is_contiguous() ? weight : weight.contiguous());
         std::tie(grad_weight, grad_bias) = torch_ipex::cpu::AtenIpexCPUDev::dil_linear_backward_weights(
-            grad_output.contiguous(), input, weight, bias.defined());
+            grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), input.is_contiguous() ? input : input.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), bias.defined());
       } else {
         grad_input = grad_output.mm(weight);
         grad_weight = grad_output.t().mm(input);
@@ -69,7 +69,7 @@ class NewMaxPoolingOp : public torch::autograd::Function<NewMaxPoolingOp> {
         ctx->saved_data["ceil_mode"] = ceil_mode;
 
         if (torch_ipex::check_auto_dnnl() && input.device().type() == c10::DeviceType::DPCPP) {
-          at::Tensor output = torch_ipex::cpu::AtenIpexCPUDev::dil_max_pooling(input, kernel_size, stride,
+          at::Tensor output = torch_ipex::cpu::AtenIpexCPUDev::dil_max_pooling(input.is_contiguous() ? input : input.contiguous(), kernel_size, stride,
               padding, dilation, ceil_mode);
           ctx->save_for_backward({input, output});
           return output;
@@ -88,7 +88,7 @@ class NewMaxPoolingOp : public torch::autograd::Function<NewMaxPoolingOp> {
       at::Tensor input = saved[0];
       at::Tensor indices = saved[1];
 
-      at::Tensor grad_output = grad_outputs[0].contiguous();
+      at::Tensor grad_output = grad_outputs[0];
       at::Tensor grad_input;
 
       std::vector<int64_t> kernel_size = ctx->saved_data["kernel_size"].toIntVector();
@@ -99,7 +99,7 @@ class NewMaxPoolingOp : public torch::autograd::Function<NewMaxPoolingOp> {
 
       if (torch_ipex::check_auto_dnnl() && input.device().type() == c10::DeviceType::DPCPP) {
         grad_input = torch_ipex::cpu::AtenIpexCPUDev::dil_max_pooling_backward(
-            grad_output, indices, input, kernel_size, stride, padding, dilation, ceil_mode);
+            grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), indices.is_contiguous() ? indices : indices.contiguous(), input.is_contiguous() ? input : input.contiguous(), kernel_size, stride, padding, dilation, ceil_mode);
       } else {
         grad_input = at::max_pool2d_with_indices_backward(grad_output, input, kernel_size,
             stride, padding, dilation, ceil_mode, indices);
@@ -118,7 +118,7 @@ class NewApaptiveAvgPoolingOp : public torch::autograd::Function<NewApaptiveAvgP
 
         at::Tensor output;
         if (torch_ipex::check_auto_dnnl() && input.device().type() == c10::DeviceType::DPCPP) {
-          output = torch_ipex::cpu::AtenIpexCPUDev::dil_adaptive_avg_pool2d(input, output_size);
+          output = torch_ipex::cpu::AtenIpexCPUDev::dil_adaptive_avg_pool2d(input.is_contiguous() ? input : input.contiguous(), output_size);
         } else {
           output = at::_adaptive_avg_pool2d(input, output_size);
         }
@@ -131,11 +131,11 @@ class NewApaptiveAvgPoolingOp : public torch::autograd::Function<NewApaptiveAvgP
       auto saved = ctx->get_saved_variables();
       at::Tensor input = saved[0];
 
-      at::Tensor grad_output = grad_outputs[0].contiguous();
+      at::Tensor grad_output = grad_outputs[0];
       at::Tensor grad_input;
 
       if (torch_ipex::check_auto_dnnl() && input.device().type() == c10::DeviceType::DPCPP) {
-        grad_input = torch_ipex::cpu::AtenIpexCPUDev::dil_adaptive_avg_pool2d_backward(grad_output, input);
+        grad_input = torch_ipex::cpu::AtenIpexCPUDev::dil_adaptive_avg_pool2d_backward(grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), input.is_contiguous() ? input : input.contiguous());
       } else {
         grad_input = at::_adaptive_avg_pool2d_backward(grad_output, input);
       }
 
@@ -58,34 +58,9 @@ at::Tensor AtenIpexCPUDev::dil_convolution(
     dil_bias = dbl::comm::try_gen_dil_tensor(bias);
   }
 
-  // Prepack weight tensor if it's either a *cpu tensor* or a *plain dil tensor*
-  //
-  // Note: weight tensor will not be re-packed unless user has implicitly
-  //       triggered `to_public` by accessing its data
-  //       One caveat is when the input size has changed and prepacked weight
-  //       might not be the best fit for new input size, the weight will not
-  //       be re-packed in such cases, but it still ensures the correctness
-  //
-  // TODO: once semantics of "own shade context" is equivalent to
-  //       "is dil tensor", we could remove the first check below
   dbl::comm::reorder_to_bf16_for_mix_prec(weight);
-  if (!check_tensor_own_shade_context(weight) ||
-      !cpu::ShadeDataContext::isDilOwnTheTensor(weight) ||
-      cpu::ShadeDataContext::getDilTensor(weight).is_public_format()) {
-    auto packed_desc = dil::convolution_forward::expected_weights_desc(
-      weight.sizes().vec(),
-      dil_input.get_data_type(),
-      stride.vec(),
-      padding.vec(),
-      padding.vec(),
-      dilation.vec(),
-      groups,
-      dil::algorithm::convolution_direct,
-      dil::prop_kind::forward,
-      dil_input.get_data_type(),
-      input.sizes().vec());
-    dbl::comm::reorder_to_desc(weight, packed_desc);
-  }
+  dbl::conv::prepack_conv_weights(input, dil_input, 
+    weight, stride, padding, dilation, groups);
   dil_weight = dbl::comm::try_gen_dil_tensor(weight);
 
   dil::tensor dil_output = dbl::conv::conv2d_impl(
@@ -133,7 +108,8 @@ std::tuple<at::Tensor, at::Tensor> dil_convolution_backward_weights(
   const dil::tensor dil_input = dbl::comm::try_gen_dil_tensor(input);
 
   dil::tensor dil_grad_weight, dil_grad_bias;
-  auto diff_weight_type = get_dil_data_type(weight.scalar_type());
+  dil::tensor w = dbl::comm::try_gen_dil_tensor(weight);
+  auto diff_weight_type = w.get_data_type();
   auto weight_size = weight.sizes();
 
   if (bias_defined) {
@@ -176,7 +152,8 @@ std::tuple<at::Tensor,at::Tensor,at::Tensor> AtenIpexCPUDev::dil_convolution_bac
 {
   DEBUG("AtenIpexCPUDev::dil_convolution_backward\n");
   at::Tensor grad_output = grad_output_t.is_contiguous() ? grad_output_t : grad_output_t.contiguous();
-
+  CHECK_DNNL_OP_PRE_COND(input);
+  CHECK_DNNL_OP_PRE_COND(weight);
   dbl::comm::reorder_to_bf16_for_mix_prec(input);
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output);
   dbl::comm::reorder_to_bf16_for_mix_prec(weight);
@@ -667,7 +644,7 @@ at::Tensor AtenIpexCPUDev::dil_linear(
   dbl::comm::reorder_to_bf16_for_mix_prec(weight);
 
   // reshape first if input dim is greater than 2 and the reshape will cost a memory copy.
-  auto self_reshaped = self.dim() > 2 ? self.reshape({-1, self.size(self.dim() - 1)}) : self;
+  auto self_reshaped = self.dim() > 2 ? dil_reshape(self, {-1, self.size(self.dim() - 1)}) : self;
   const dil::tensor x = dbl::comm::try_gen_dil_tensor(self_reshaped);
   const dil::tensor w = dbl::comm::try_gen_dil_tensor(weight);
 
@@ -704,7 +681,7 @@ at::Tensor AtenIpexCPUDev::dil_linear_fuse_relu(
   dbl::comm::reorder_to_bf16_for_mix_prec(weight);
 
   // reshape first if input dim is greater than 2 and the reshape will cost a memory copy.
-  auto self_reshaped = self.dim() > 2 ? self.reshape({-1, self.size(self.dim() - 1)}) : self;
+  auto self_reshaped = self.dim() > 2 ? dil_reshape(self, {-1, self.size(self.dim() - 1)}) : self;
   const dil::tensor x = dbl::comm::try_gen_dil_tensor(self_reshaped);
   const dil::tensor w = dbl::comm::try_gen_dil_tensor(weight);
 
@@ -740,11 +717,13 @@ at::Tensor AtenIpexCPUDev::dil_linear_backward_input(
     at::IntArrayRef input_size, const at::Tensor& grad_output, const at::Tensor& weight){
   DEBUG("AtenIpexCPUDev::dil_linear_backward_input\n");
 
+  CHECK_DNNL_OP_PRE_COND(grad_output);
+  CHECK_DNNL_OP_PRE_COND(weight);
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output);
   dbl::comm::reorder_to_bf16_for_mix_prec(weight);
 
   auto grad_output_reshaped = grad_output.dim() > 2 ?
-    grad_output.reshape({-1, grad_output.size(grad_output.dim() - 1)}) : grad_output;
+    dil_reshape(grad_output, {-1, grad_output.size(grad_output.dim() - 1)}) : grad_output;
   dil::tensor grady = dbl::comm::try_gen_dil_tensor(grad_output_reshaped);
   const dil::tensor w = dbl::comm::try_gen_dil_tensor(weight);
 
@@ -766,17 +745,22 @@ std::tuple<at::Tensor, at::Tensor> AtenIpexCPUDev::dil_linear_backward_weights(
     const at::Tensor& grad_output, const at::Tensor& input, const at::Tensor& weight, bool bias_defined) {
   DEBUG("AtenIpexCPUDev::dil_linear_backward_weights\n");
 
+  CHECK_DNNL_OP_PRE_COND(input);
+  CHECK_DNNL_OP_PRE_COND(grad_output);
+  CHECK_DNNL_OP_PRE_COND(weight);
   dbl::comm::reorder_to_bf16_for_mix_prec(grad_output);
   dbl::comm::reorder_to_bf16_for_mix_prec(input);
   dbl::comm::reorder_to_bf16_for_mix_prec(weight);
 
   auto grad_output_reshaped = grad_output.dim() > 2 ?
-    grad_output.reshape({-1, grad_output.size(grad_output.dim() - 1)}) : grad_output;
-  auto input_reshaped = input.dim() > 2 ? input.reshape({-1, input.size(input.dim() - 1)}) : input;
+    dil_reshape(grad_output, {-1, grad_output.size(grad_output.dim() - 1)}) : grad_output;
+  auto input_reshaped = input.dim() > 2 ? dil_reshape(input, {-1, input.size(input.dim() - 1)}) : input;
 
   dil::tensor grady = dbl::comm::try_gen_dil_tensor(grad_output_reshaped);
   dil::tensor x = dbl::comm::try_gen_dil_tensor(input_reshaped);
-  auto diff_weight_type = get_dil_data_type(weight.scalar_type());
+  dil::tensor w = dbl::comm::try_gen_dil_tensor(weight);
+  auto diff_weight_type = w.get_data_type();
+
   dil::tensor gradw, gradb;
   if (bias_defined) {
     dil::inner_product_backward_weights::compute(x, grady, gradw, gradb, diff_weight_type);
@@ -795,13 +779,6 @@ std::tuple<at::Tensor, at::Tensor, at::Tensor> AtenIpexCPUDev::dil_linear_backwa
     const at::Tensor& input, const at::Tensor& grad_output,
     const at::Tensor& weight, std::array<bool,3> output_mask) {
   DEBUG("AtenIpexCPUDev::dil_linear_backward\n");
-  CHECK_DNNL_OP_PRE_COND(input);
-  CHECK_DNNL_OP_PRE_COND(grad_output);
-  CHECK_DNNL_OP_PRE_COND(weight);
-
-  dbl::comm::reorder_to_bf16_for_mix_prec(grad_output);
-  dbl::comm::reorder_to_bf16_for_mix_prec(input);
-  dbl::comm::reorder_to_bf16_for_mix_prec(weight);
 
   at::Tensor grad_input, grad_weight, grad_bias;
   if (output_mask[0]) {
@@ -1304,10 +1281,9 @@ at::Tensor AtenIpexCPUDev::dil__softmax_backward_data(
 
 at::Tensor AtenIpexCPUDev::dil_sigmoid(const at::Tensor& self) {
   DEBUG("AtenIpexCPUDev::dil_sigmoid\n");
-
+  CHECK_DNNL_OP_PRE_COND(self);
   dbl::comm::reorder_to_bf16_for_mix_prec(self);
 
-  CHECK_DNNL_OP_PRE_COND(self);
   dil::tensor x = dbl::comm::try_gen_dil_tensor(self);
   dil::tensor y;
   dil::eltwise_forward::compute(
 
@@ -461,38 +461,38 @@ at::Tensor AtenIpexTypeExt::linear(const at::Tensor& input, const at::Tensor& we
 
 at::Tensor AtenIpexTypeExt::linear_fuse_relu(const at::Tensor& input, const at::Tensor& weight, const c10::optional<at::Tensor>& bias) {
     RECORD_FUNCTION("linear_fuse_relu", std::vector<c10::IValue>({input, weight, bias}), torch::autograd::Node::peek_at_next_sequence_nr());
-    return cpu::AtenIpexCPUDev::dil_linear_fuse_relu(input, weight, bias);
+    return cpu::AtenIpexCPUDev::dil_linear_fuse_relu(input.is_contiguous() ? input : input.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), bias);
 }
 
 std::tuple<at::Tensor, at::Tensor, at::Tensor> AtenIpexTypeExt::linear_backward(const at::Tensor& input, const at::Tensor& grad_output, const at::Tensor& weight, std::array<bool,3> output_mask) {
     RECORD_FUNCTION("linear_backward", std::vector<c10::IValue>({input, grad_output, weight}), torch::autograd::Node::peek_at_next_sequence_nr());
-    return cpu::AtenIpexCPUDev::dil_linear_backward(input.is_contiguous() ? input : input.contiguous(), grad_output, weight, output_mask);
+    return cpu::AtenIpexCPUDev::dil_linear_backward(input.is_contiguous() ? input : input.contiguous(), grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), output_mask);
 }
 
 at::Tensor AtenIpexTypeExt::adaptive_avg_pool2d(at::Tensor const& input, at::IntArrayRef output_size) {
     return NewApaptiveAvgPoolingOp::apply(input, output_size);
 }
 
 at::Tensor AtenIpexTypeExt::adaptive_avg_pool2d_backward(const at::Tensor& grad_output, const at::Tensor& input) {
-    return cpu::AtenIpexCPUDev::dil_adaptive_avg_pool2d_backward(grad_output, input);
+    return cpu::AtenIpexCPUDev::dil_adaptive_avg_pool2d_backward(grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), input.is_contiguous() ? input : input.contiguous());
 }
 
 at::Tensor AtenIpexTypeExt::max_pooling(const at::Tensor& input, at::IntArrayRef kernel_size, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, bool ceil_mode) {
-    return NewMaxPoolingOp::apply(input, kernel_size, stride, padding, dilation, ceil_mode);
+    return NewMaxPoolingOp::apply(input.is_contiguous() ? input : input.contiguous(), kernel_size, stride, padding, dilation, ceil_mode);
 }
 
 at::Tensor AtenIpexTypeExt::max_pooling_backward(const at::Tensor& grad_output, const at::Tensor& output, const at::Tensor& input, at::IntArrayRef kernel_size, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, bool ceil_mode) {
-    return cpu::AtenIpexCPUDev::dil_max_pooling_backward(grad_output, output, input, kernel_size, stride, padding, dilation, ceil_mode);
+    return cpu::AtenIpexCPUDev::dil_max_pooling_backward(grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), output.is_contiguous() ? output : output.contiguous(), input.is_contiguous() ? input : input.contiguous(), kernel_size, stride, padding, dilation, ceil_mode);
 }
 
 at::Tensor AtenIpexTypeExt::reshape(const at::Tensor& input, at::IntArrayRef size) {
-    return cpu::AtenIpexCPUDev::dil_reshape(input, size);
+    return cpu::AtenIpexCPUDev::dil_reshape(input.is_contiguous() ? input : input.contiguous(), size);
 }
 
 
 at::Tensor AtenIpexTypeExt::relu_use_dst_for_bwd(const at::Tensor& grad_output, const at::Tensor& output) {
   RECORD_FUNCTION("dil_relu_use_dst_for_bwd", std::vector<c10::IValue>({grad_output, output}), torch::autograd::Node::peek_at_next_sequence_nr());
-  return cpu::AtenIpexCPUDev::dil_relu_use_dst_for_bwd(grad_output, output);
+  return cpu::AtenIpexCPUDev::dil_relu_use_dst_for_bwd(grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), output.is_contiguous() ? output : output.contiguous());
 }
 
 }  // namespace torch_ipex
Original file line number	Diff line number	Diff line change
`@@ -461,38 +461,38 @@ at::Tensor AtenIpexTypeExt::linear(const at::Tensor& input, const at::Tensor& we`
`461`	`461`
`462`	`462`	`at::Tensor AtenIpexTypeExt::linear_fuse_relu(const at::Tensor& input, const at::Tensor& weight, const c10::optional<at::Tensor>& bias) {`
`463`	`463`	`RECORD_FUNCTION("linear_fuse_relu", std::vector<c10::IValue>({input, weight, bias}), torch::autograd::Node::peek_at_next_sequence_nr());`
`464`		`- return cpu::AtenIpexCPUDev::dil_linear_fuse_relu(input, weight, bias);`
	`464`	`+ return cpu::AtenIpexCPUDev::dil_linear_fuse_relu(input.is_contiguous() ? input : input.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), bias);`
`465`	`465`	`}`
`466`	`466`
`467`	`467`	`std::tuple<at::Tensor, at::Tensor, at::Tensor> AtenIpexTypeExt::linear_backward(const at::Tensor& input, const at::Tensor& grad_output, const at::Tensor& weight, std::array<bool,3> output_mask) {`
`468`	`468`	`RECORD_FUNCTION("linear_backward", std::vector<c10::IValue>({input, grad_output, weight}), torch::autograd::Node::peek_at_next_sequence_nr());`
`469`		`- return cpu::AtenIpexCPUDev::dil_linear_backward(input.is_contiguous() ? input : input.contiguous(), grad_output, weight, output_mask);`
	`469`	`+ return cpu::AtenIpexCPUDev::dil_linear_backward(input.is_contiguous() ? input : input.contiguous(), grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), weight.is_contiguous() ? weight : weight.contiguous(), output_mask);`
`470`	`470`	`}`
`471`	`471`
`472`	`472`	`at::Tensor AtenIpexTypeExt::adaptive_avg_pool2d(at::Tensor const& input, at::IntArrayRef output_size) {`
`473`	`473`	`return NewApaptiveAvgPoolingOp::apply(input, output_size);`
`474`	`474`	`}`
`475`	`475`
`476`	`476`	`at::Tensor AtenIpexTypeExt::adaptive_avg_pool2d_backward(const at::Tensor& grad_output, const at::Tensor& input) {`
`477`		`- return cpu::AtenIpexCPUDev::dil_adaptive_avg_pool2d_backward(grad_output, input);`
	`477`	`+ return cpu::AtenIpexCPUDev::dil_adaptive_avg_pool2d_backward(grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), input.is_contiguous() ? input : input.contiguous());`
`478`	`478`	`}`
`479`	`479`
`480`	`480`	`at::Tensor AtenIpexTypeExt::max_pooling(const at::Tensor& input, at::IntArrayRef kernel_size, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, bool ceil_mode) {`
`481`		`- return NewMaxPoolingOp::apply(input, kernel_size, stride, padding, dilation, ceil_mode);`
	`481`	`+ return NewMaxPoolingOp::apply(input.is_contiguous() ? input : input.contiguous(), kernel_size, stride, padding, dilation, ceil_mode);`
`482`	`482`	`}`
`483`	`483`
`484`	`484`	`at::Tensor AtenIpexTypeExt::max_pooling_backward(const at::Tensor& grad_output, const at::Tensor& output, const at::Tensor& input, at::IntArrayRef kernel_size, at::IntArrayRef stride, at::IntArrayRef padding, at::IntArrayRef dilation, bool ceil_mode) {`
`485`		`- return cpu::AtenIpexCPUDev::dil_max_pooling_backward(grad_output, output, input, kernel_size, stride, padding, dilation, ceil_mode);`
	`485`	`+ return cpu::AtenIpexCPUDev::dil_max_pooling_backward(grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), output.is_contiguous() ? output : output.contiguous(), input.is_contiguous() ? input : input.contiguous(), kernel_size, stride, padding, dilation, ceil_mode);`
`486`	`486`	`}`
`487`	`487`
`488`	`488`	`at::Tensor AtenIpexTypeExt::reshape(const at::Tensor& input, at::IntArrayRef size) {`
`489`		`- return cpu::AtenIpexCPUDev::dil_reshape(input, size);`
	`489`	`+ return cpu::AtenIpexCPUDev::dil_reshape(input.is_contiguous() ? input : input.contiguous(), size);`
`490`	`490`	`}`
`491`	`491`
`492`	`492`
`493`	`493`	`at::Tensor AtenIpexTypeExt::relu_use_dst_for_bwd(const at::Tensor& grad_output, const at::Tensor& output) {`
`494`	`494`	`RECORD_FUNCTION("dil_relu_use_dst_for_bwd", std::vector<c10::IValue>({grad_output, output}), torch::autograd::Node::peek_at_next_sequence_nr());`
`495`		`- return cpu::AtenIpexCPUDev::dil_relu_use_dst_for_bwd(grad_output, output);`
	`495`	`+ return cpu::AtenIpexCPUDev::dil_relu_use_dst_for_bwd(grad_output.is_contiguous() ? grad_output : grad_output.contiguous(), output.is_contiguous() ? output : output.contiguous());`
`496`	`496`	`}`
`497`	`497`
`498`	`498`	`} // namespace torch_ipex`