foss-for-synopsys-dwc-arc-processors
diff --git a/‎cmake/settings.cmake‎
Lines changed: 2 additions & 2 deletions b/‎cmake/settings.cmake‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎lib/src/bricks/impl/mli_krn_dotprod_vdsp.h‎
Lines changed: 47 additions & 0 deletions b/‎lib/src/bricks/impl/mli_krn_dotprod_vdsp.h‎
Lines changed: 47 additions & 0 deletions
diff --git a/‎lib/src/bricks/mli_krn_dotprod.h‎
Lines changed: 1 addition & 0 deletions b/‎lib/src/bricks/mli_krn_dotprod.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lib/src/bricks/mli_krn_dotprod_decl.h‎
Lines changed: 12 additions & 0 deletions b/‎lib/src/bricks/mli_krn_dotprod_decl.h‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎lib/src/kernels/convolution/impl/mli_krn_convolution_dsp.h‎
Lines changed: 9 additions & 9 deletions b/‎lib/src/kernels/convolution/impl/mli_krn_convolution_dsp.h‎
Lines changed: 9 additions & 9 deletions
diff --git a/‎lib/src/kernels/convolution/impl/mli_krn_convolution_ref.h‎
Lines changed: 4 additions & 4 deletions b/‎lib/src/kernels/convolution/impl/mli_krn_convolution_ref.h‎
Lines changed: 4 additions & 4 deletions
@@ -71,8 +71,8 @@ if (ARC)
     endif()
 
     list(APPEND MLI_PLATFORM_FLAGS
-        -Hon=Long_enums
-        "SHELL: -mllvm -gen-lpcc=false"
+        -Hon=Long_enums -Wcg,-arc-vdsp-AA=1 
+        "SHELL: -mllvm -gen-lpcc=false -mllvm -arc-sort-out-copy=true -mllvm -arc-vdsp-copy=3"
     )
     if (DEFINED BUILDLIB_DIR)
         list(APPEND MLI_PLATFORM_LINK_OPTIONS
 
@@ -170,6 +170,53 @@ static MLI_FORCE_INLINE acc_T dotprod2D_vv(
 #pragma clang diagnostic pop
 }
 
+template <typename io_T, typename w_T, typename acc_T>
+static MLI_FORCE_INLINE acc_T dotprod2D_vv_ptrvector(
+        const MLI_PTR(io_T) __restrict in,
+        const MLI_PTR(w_T)  __restrict krn,
+        acc_T accu,
+        const int width,
+        const int height,
+        int in_col_step,
+        int in_row_step,
+        int kern_col_step,
+        int kern_row_step) {
+    int in_row_step_orig = in_row_step;
+    in_row_step -= width * in_col_step;
+    kern_row_step -= width * kern_col_step;
+
+    vNint_t addr_vec = 0;
+    int i = 0;
+    int offset = in_row_step_orig * sizeof(io_T);
+#pragma clang loop unroll(full)
+    for (int row = 1; row < height; row++) {
+        addr_vec[i++] = offset;
+        offset += in_row_step_orig * sizeof(io_T);
+    }
+    i = 0;
+    addr_vec += (int)in;
+
+    for (int clmn = 0; clmn < width; clmn++) {
+        accu = mli_prv_mac_load_v_v(accu, krn, in);
+        in += in_col_step;
+        krn += kern_col_step;
+    }
+    krn += kern_row_step;
+
+#pragma clang loop unroll(full)
+    for (int row = 1; row < height; row++) {
+        MLI_PTR(io_T) __restrict in_ptr = (MLI_PTR(io_T))addr_vec[i++];
+#pragma clang loop unroll(full)
+        for (int clmn = 0; clmn < width; clmn++) {
+            accu = mli_prv_mac_load_v_v(accu, krn, in_ptr);
+            in_ptr += in_col_step;
+            krn += kern_col_step;
+        }
+        krn += kern_row_step;
+    }
+    return accu;
+}
+
 template < typename in_T, typename w_T, typename acc_T >
 static MLI_FORCE_INLINE acc_T dotprod3D_v_pad (
         const MLI_PTR (in_T) __restrict in,
 
@@ -33,6 +33,7 @@ using mli::krn::vdsp::dotprod1D_v;
 using mli::krn::vdsp::dotprod1D_v_unroll;
 using mli::krn::ref::dotprod2D;
 using mli::krn::vdsp::dotprod2D_vv;
+using mli::krn::vdsp::dotprod2D_vv_ptrvector;
 using mli::krn::ref::dotprod3D;
 using mli::krn::vdsp::dotprod3D_v;
 using mli::krn::vdsp::dotprod3D_v_unroll;
 
@@ -268,6 +268,18 @@ static MLI_FORCE_INLINE acc_T dotprod2D_vv(
         int kern_col_step,
         int kern_row_step);
 
+template <typename io_T, typename w_T, typename acc_T>
+static MLI_FORCE_INLINE acc_T dotprod2D_vv_ptrvector(
+        const MLI_PTR(io_T) __restrict in,
+        const MLI_PTR(w_T)  __restrict krn,
+        acc_T accu,
+        const int width,
+        const int height,
+        int in_col_step,
+        int in_row_step,
+        int kern_col_step,
+        int kern_row_step);
+
 template < typename in_T, typename w_T, typename acc_T, bool fixed_size = false >
 static MLI_FORCE_INLINE acc_T dotprod3D_v (
         const MLI_PTR (in_T) __restrict in,
 
@@ -26,7 +26,7 @@ namespace dsp {
 //========================================================
 // Depthwise convolution 2D template
 //========================================================
-template <typename io_T, typename w_T, typename b_T, typename acc_T>
+template <typename io_T, typename w_T, typename b_T, typename acc_T, int fix_kernel_width, int fix_kernel_height>
 MLI_FORCE_INLINE void depthwise_convolution2D_hwcn_nopad(
         const tensor_private_t<MLI_PTR(io_T)> &in,
         const conv2d_weights_tensor_private_t<MLI_PTR(w_T)> &w,
@@ -171,7 +171,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D_hwcn_nopad(
     } // for ch_mult_idx
 }
 
-template <typename io_T, typename w_T, typename b_T, typename acc_T>
+template <typename io_T, typename w_T, typename b_T, typename acc_T, int fix_kernel_width, int fix_kernel_height>
 MLI_FORCE_INLINE void depthwise_convolution2D_hwcn(
         const tensor_private_t<MLI_PTR(io_T)> &in,
         const conv2d_weights_tensor_private_t<MLI_PTR(w_T)> &w,
@@ -330,7 +330,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D_hwcn(
     }
 }
 
-template <typename io_T, typename w_T, typename b_T, typename acc_T>
+template <typename io_T, typename w_T, typename b_T, typename acc_T, int fix_kernel_width, int fix_kernel_height>
 MLI_FORCE_INLINE void depthwise_convolution2D_hwcn_nopad(
         const tensor_private_t<MLI_PTR(io_T)> &in,
         const conv2d_weights_tensor_private_t<MLI_PTR(w_T)> &w,
@@ -344,7 +344,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D_hwcn_nopad(
         const int dilation_height, const int dilation_width,
         const int padding_top, const int padding_left,
         const int padding_bot, const int padding_right) {
-    mli::krn::ref::depthwise_convolution2D<io_T, w_T, b_T, acc_T, fx_quant_specific_params>(
+    mli::krn::ref::depthwise_convolution2D<io_T, w_T, b_T, acc_T, fx_quant_specific_params, fix_kernel_width, fix_kernel_height>(
                 in, w, biases, out, perception_area, quant_params,
                 val_min_limit, val_max_limit,
                 stride_height, stride_width,
@@ -353,7 +353,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D_hwcn_nopad(
                 padding_bot, padding_right);
 }
 
-template <typename io_T, typename w_T, typename b_T, typename acc_T>
+template <typename io_T, typename w_T, typename b_T, typename acc_T, int fix_kernel_width, int fix_kernel_height>
 MLI_FORCE_INLINE void depthwise_convolution2D_hwcn(
         const tensor_private_t<MLI_PTR(io_T)> &in,
         const conv2d_weights_tensor_private_t<MLI_PTR(w_T)> &w,
@@ -367,7 +367,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D_hwcn(
         const int dilation_height, const int dilation_width,
         const int padding_top, const int padding_left,
         const int padding_bot, const int padding_right) {
-    mli::krn::ref::depthwise_convolution2D<io_T, w_T, b_T, acc_T, fx_quant_specific_params>(
+    mli::krn::ref::depthwise_convolution2D<io_T, w_T, b_T, acc_T, fx_quant_specific_params, fix_kernel_width, fix_kernel_height>(
                 in, w, biases, out, perception_area, quant_params,
                 val_min_limit, val_max_limit,
                 stride_height, stride_width,
@@ -377,7 +377,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D_hwcn(
 
 }
 
-template <typename io_T, typename w_T, typename b_T, typename acc_T, typename quant_T>
+template <typename io_T, typename w_T, typename b_T, typename acc_T, typename quant_T, int fix_kernel_width, int fix_kernel_height>
 MLI_FORCE_INLINE void depthwise_convolution2D(
         const tensor_private_t<MLI_PTR(io_T)> &in,
         const conv2d_weights_tensor_private_t<MLI_PTR(w_T)> &w,
@@ -402,7 +402,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D(
 
     if ((perception_area_nopad.row_end > perception_area_nopad.row_beg)
         && (perception_area_nopad.clmn_end > perception_area_nopad.clmn_beg)){
-    depthwise_convolution2D_hwcn_nopad<io_T, w_T, b_T, acc_T>(
+    depthwise_convolution2D_hwcn_nopad<io_T, w_T, b_T, acc_T, fix_kernel_width, fix_kernel_height>(
                 in, w, biases, out, perception_area_nopad, quant_params,
                 val_min_limit, val_max_limit,
                 stride_height, stride_width,
@@ -441,7 +441,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D(
             perc_areas[areas_num++].clmn_end = out.width;
         }
         for(int i = 0; i < areas_num; i ++) {
-            depthwise_convolution2D_hwcn<io_T, w_T, b_T, acc_T>(
+            depthwise_convolution2D_hwcn<io_T, w_T, b_T, acc_T, fix_kernel_width, fix_kernel_height>(
                     in, w, biases, out, perc_areas[i], quant_params,
                     val_min_limit, val_max_limit,
                     stride_height, stride_width,
 
@@ -131,7 +131,7 @@ MLI_FORCE_INLINE void convolution2D(
 //========================================================
 // Unified Depthwise convolution 2D template
 //========================================================
-template <typename io_T, typename w_T, typename b_T, typename acc_T, typename quant_T>
+template <typename io_T, typename w_T, typename b_T, typename acc_T, typename quant_T, int fix_kernel_width, int fix_kernel_height>
 MLI_FORCE_INLINE void depthwise_convolution2D(
         const tensor_private_t<MLI_PTR(io_T)> &in,
         const conv2d_weights_tensor_private_t<MLI_PTR(w_T)> &weights,
@@ -220,7 +220,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D(
     } // for H_idx
 }
 
-template <typename io_T, typename w_T, typename b_T, typename acc_T, typename quant_T>
+template <typename io_T, typename w_T, typename b_T, typename acc_T, typename quant_T, int fix_kernel_width, int fix_kernel_height>
 MLI_FORCE_INLINE void depthwise_convolution2D_wrapper(
         MLI_PTR(io_T) __restrict in_ptr,
         MLI_PTR(w_T) __restrict w_ptr,
@@ -245,7 +245,7 @@ MLI_FORCE_INLINE void depthwise_convolution2D_wrapper(
     weights_.ptr = w_ptr;
     out_.ptr = out_ptr;
 
-    mli::krn::depthwise_convolution2D<io_T, w_T, b_T, acc_T, quant_T>(
+    mli::krn::depthwise_convolution2D<io_T, w_T, b_T, acc_T, quant_T, fix_kernel_width, fix_kernel_height>(
             in_, weights_, biases, out_, perception_area, quant_params,
             val_min_limit, val_max_limit,
             stride_height, stride_width, dilation_height, dilation_width,
@@ -358,7 +358,7 @@ MLI_FORCE_INLINE void conv2d_prepare_and_run(
                 padding_top, padding_left,
                 padding_bot, padding_right);
     } else {
-        depthwise_convolution2D_wrapper<io_T, w_T, b_T, acc_T, quant_T>(
+        depthwise_convolution2D_wrapper<io_T, w_T, b_T, acc_T, quant_T, fix_kernel_width, fix_kernel_height>(
                 in_prv.ptr, weights_prv.ptr, out_prv.ptr,
                 in_prv, weights_prv, bs, out_prv, cent_area, params,
                 (io_T)val_limit.min, (io_T)val_limit.max,