Changes to permit vectorization of most loops by ICX

oleksandr-pavlyk · oleksandr-pavlyk · commit ea90d0f6387a · 2024-01-10T12:47:20.000-06:00
Some loops are not vectorized due to compiler's cost model analysis.
Added CMake option OPTIMIZATION_REPORT (OFF by default). It would
instruct compiler to generate optimization report for mkl_umath
library.
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -7,6 +7,11 @@ project(mkl_umath
   DESCRIPTION "mkl_umath module"
 )
 
+option(OPTIMIZATION_REPORT
+  "Whether to generate optimization vectorization report"
+  OFF
+)
+
 find_package(Python COMPONENTS Interpreter Development REQUIRED)
 find_package(NumPy REQUIRED)
 
@@ -91,6 +96,9 @@ target_link_libraries(${_trgt} PRIVATE mkl_rt ${Python_LIBRARIES})
 target_link_options(${_trgt} PRIVATE ${_linker_options})
 target_compile_options(${_trgt} PRIVATE -fveclib=SVML)
 target_compile_options(${_trgt} PRIVATE -fvectorize)
+if(OPTIMIZATION_REPORT)
+  target_compile_options(${_trgt} PRIVATE -qopt-report=3)
+endif()
 install(TARGETS ${_trgt}
   LIBRARY DESTINATION mkl_umath
   ARCHIVE DESTINATION mkl_umath
diff --git a/mkl_umath/src/fast_loop_macros.h b/mkl_umath/src/fast_loop_macros.h
@@ -74,19 +74,19 @@
     npy_intp is1 = steps[0], os1 = steps[1];\
     npy_intp n = dimensions[0];\
     npy_intp i;\
-    for(i = 0; i < n; i++, ip1 += is1, op1 += os1)
+    for(i = 0; i < n; ++i, ip1 += is1, op1 += os1)
 
-#define UNARY_LOOP_VECTORIZED\
-    char *ip1 = args[0], *op1 = args[1];\
-    npy_intp is1 = steps[0], os1 = steps[1];\
+#define UNARY_LOOP_VECTORIZED(tin, tout)\
+    tin *ip1 = (tin *) args[0];\
+    tout *op1 = (tout *) args[1];		\
     npy_intp n = dimensions[0];\
     npy_intp i;\
     NPY_PRAGMA_VECTOR\
-    for(i = 0; i < n; i++, ip1 += is1, op1 += os1)
+    for(i = 0; i < n; ++i, ++ip1, ++op1)
 
-#define UNARY_LOOP_DISPATCH(cond, body)\
+#define UNARY_LOOP_DISPATCH(tin, tout, cond, body)\
     if (cond) {\
-        UNARY_LOOP_VECTORIZED { body; }\
+        UNARY_LOOP_VECTORIZED(tin, tout) { body; }\
     } else {\
         UNARY_LOOP { body; }\
     }
@@ -97,31 +97,31 @@
     npy_intp is1 = steps[0], os1 = steps[1], os2 = steps[2];\
     npy_intp n = dimensions[0];\
     npy_intp i;\
-    for(i = 0; i < n; i++, ip1 += is1, op1 += os1, op2 += os2)
+    for(i = 0; i < n; ++i, ip1 += is1, op1 += os1, op2 += os2)
 
 /** (ip1, ip2) -> (op1) */
 #define BINARY_LOOP\
     char *ip1 = args[0], *ip2 = args[1], *op1 = args[2];\
     npy_intp is1 = steps[0], is2 = steps[1], os1 = steps[2];\
     npy_intp n = dimensions[0];\
     npy_intp i;\
-    for(i = 0; i < n; i++, ip1 += is1, ip2 += is2, op1 += os1)
+    for(i = 0; i < n; ++i, ip1 += is1, ip2 += is2, op1 += os1)
 
 /** (ip1, ip2) -> (op1, op2) */
 #define BINARY_LOOP_TWO_OUT\
     char *ip1 = args[0], *ip2 = args[1], *op1 = args[2], *op2 = args[3];\
     npy_intp is1 = steps[0], is2 = steps[1], os1 = steps[2], os2 = steps[3];\
     npy_intp n = dimensions[0];\
     npy_intp i;\
-    for(i = 0; i < n; i++, ip1 += is1, ip2 += is2, op1 += os1, op2 += os2)
+    for(i = 0; i < n; ++i, ip1 += is1, ip2 += is2, op1 += os1, op2 += os2)
 
 /** (ip1, ip2, ip3) -> (op1) */
 #define TERNARY_LOOP\
     char *ip1 = args[0], *ip2 = args[1], *ip3 = args[2], *op1 = args[3];\
     npy_intp is1 = steps[0], is2 = steps[1], is3 = steps[2], os1 = steps[3];\
     npy_intp n = dimensions[0];\
     npy_intp i;\
-    for(i = 0; i < n; i++, ip1 += is1, ip2 += is2, ip3 += is3, op1 += os1)
+    for(i = 0; i < n; ++i, ip1 += is1, ip2 += is2, ip3 += is3, op1 += os1)
 
 /** @} */
 
diff --git a/mkl_umath/src/mkl_umath_loops.c.src b/mkl_umath/src/mkl_umath_loops.c.src