IntelPython
diff --git a/‎dpnp/backend/kernels/dpnp_krnl_common.cpp
Lines changed: 238 additions & 44 deletions b/‎dpnp/backend/kernels/dpnp_krnl_common.cpp
Lines changed: 238 additions & 44 deletions
diff --git a/‎dpnp/backend/kernels/dpnp_krnl_statistics.cpp
Lines changed: 3 additions & 2 deletions b/‎dpnp/backend/kernels/dpnp_krnl_statistics.cpp
Lines changed: 3 additions & 2 deletions
@@ -34,6 +34,7 @@
 #include "queue_sycl.hpp"
 
 namespace mkl_blas = oneapi::mkl::blas;
+namespace mkl_blas_rm = oneapi::mkl::blas::row_major;
 namespace mkl_lapack = oneapi::mkl::lapack;
 
 template <typename _DataType, typename _ResultType>
@@ -75,6 +76,82 @@ void dpnp_astype_c(const void* array1_in, void* result1, const size_t size)
 template <typename _KernelNameSpecialization1, typename _KernelNameSpecialization2, typename _KernelNameSpecialization3>
 class dpnp_dot_c_kernel;
 
+template <typename _DataType_output, typename _DataType_input1, typename _DataType_input2>
+cl::sycl::event dot(cl::sycl::queue &queue,
+                    _DataType_output *result_out, _DataType_input1 *input1_in, _DataType_input2 *input2_in, size_t input1_strides, size_t input2_strides, size_t size,
+                    const cl::sycl::vector_class<cl::sycl::event> &dependencies = {})
+{
+    (void)dependencies;
+
+    cl::sycl::event event;
+
+    if constexpr ((std::is_same<_DataType_input1, double>::value || std::is_same<_DataType_input1, float>::value) &&
+                  std::is_same<_DataType_input2, _DataType_input1>::value &&
+                  std::is_same<_DataType_output, _DataType_input1>::value)
+    {
+        event = oneapi::mkl::blas::dot(queue,
+                                       size,
+                                       input1_in,
+                                       input1_strides, // input1 stride
+                                       input2_in,
+                                       input2_strides, // input2 stride
+                                       result_out);
+    }
+    else
+    {
+#if LIBSYCL_VERSION_GREATER(5, 3, 0)
+        event = queue.submit([&](sycl::handler &cgh)
+        {
+            cgh.parallel_for(sycl::range<1>{size},
+            cl::sycl::reduction(result_out,
+                                std::plus<_DataType_output>(),
+                                cl::sycl::property::reduction::initialize_to_identity{}),
+            [=](cl::sycl::id<1> idx, auto& sum)
+            {
+                sum += static_cast <_DataType_output>(input1_in[idx * input1_strides]) * static_cast <_DataType_output>(input2_in[idx * input2_strides]);
+            });
+        });
+        // for some reason few such kernels cannot work in parallel
+        // looks like a bug in level0 because with opencl works fine
+        // that is why we call wait here
+        event.wait();
+#else
+        _DataType_output* local_mem =
+            reinterpret_cast<_DataType_output*>(dpnp_memory_alloc_c(size * sizeof(_DataType_output)));
+
+        // what about reduction??
+        cl::sycl::range<1> gws(size);
+
+        auto kernel_parallel_for_func = [=](cl::sycl::id<1> global_id) {
+            const size_t index = global_id[0];
+            local_mem[index] = input1_in[index * input1_strides] * input2_in[index * input2_strides];
+        };
+
+        auto kernel_func = [&](cl::sycl::handler& cgh) {
+            cgh.parallel_for<class dpnp_dot_c_kernel<_DataType_output, _DataType_input1, _DataType_input2>>(
+                gws, kernel_parallel_for_func);
+        };
+
+        event = DPNP_QUEUE.submit(kernel_func);
+
+        event.wait();
+
+        auto policy = oneapi::dpl::execution::make_device_policy<
+            class dpnp_dot_c_kernel<_DataType_output, _DataType_input1, _DataType_input2>>(DPNP_QUEUE);
+
+        _DataType_output accumulator = 0;
+        accumulator =
+            std::reduce(policy, local_mem, local_mem + size, _DataType_output(0), std::plus<_DataType_output>());
+        policy.queue().wait();
+
+        dpnp_memory_memcpy_c(result_out, &accumulator, sizeof(_DataType_output)); // result[0] = accumulator;
+
+        free(local_mem, DPNP_QUEUE);
+#endif
+    }
+    return event;
+}
+
 template <typename _DataType_output, typename _DataType_input1, typename _DataType_input2>
 void dpnp_dot_c(void* result_out,
                 const size_t result_size,
@@ -92,78 +169,195 @@ void dpnp_dot_c(void* result_out,
                 const size_t* input2_shape,
                 const size_t* input2_strides)
 {
-    (void)input1_shape;
-    (void)input1_ndim;
-    (void)input2_shape;
-    (void)input2_ndim;
-
-    (void)result_size;
-    (void)result_ndim;
-    (void)result_shape;
     (void)result_strides;
-    (void)input1_strides;
-    (void)input2_strides;
 
-    cl::sycl::event event;
     DPNPC_ptr_adapter<_DataType_input1> input1_ptr(input1_in, input1_size);
     DPNPC_ptr_adapter<_DataType_input2> input2_ptr(input2_in, input2_size);
 
     _DataType_input1* input1 = input1_ptr.get_ptr();
     _DataType_input2* input2 = input2_ptr.get_ptr();
     _DataType_output* result = reinterpret_cast<_DataType_output*>(result_out);
 
-    if (!input1_size)
+    if (!input1_size || !input2_size)
     {
+        _DataType_output val = _DataType_output(0);
+        dpnp_initval_c<_DataType_output>(result, &val, result_size);
         return;
     }
 
-    if constexpr ((std::is_same<_DataType_input1, double>::value || std::is_same<_DataType_input1, float>::value) &&
-                  std::is_same<_DataType_input2, _DataType_input1>::value &&
-                  std::is_same<_DataType_output, _DataType_input1>::value)
+    // scalar
+    if ((input1_ndim == 0) || (input2_ndim == 0))
     {
-        event = mkl_blas::dot(DPNP_QUEUE,
-                              input1_size,
-                              input1,
-                              1, // input1 stride
-                              input2,
-                              1, // input2 stride
-                              result);
+        // there is no support of strides in multiply function
+        // so result can be wrong if input array has non-standard (c-contiguous) strides
+        dpnp_multiply_c<_DataType_output, _DataType_input1, _DataType_input2>(result,                                                                                    \
+                                                                              input1_in,
+                                                                              input1_size,
+                                                                              input1_shape,
+                                                                              input1_ndim,
+                                                                              input2_in,
+                                                                              input2_size,
+                                                                              input2_shape,
+                                                                              input2_ndim,
+                                                                              NULL);
+        return;
+    }
+
+    // if both arrays are vectors
+    if ((input1_ndim == 1) && (input2_ndim == 1))
+    {
+        assert(input1_size == input2_size);
+        cl::sycl::event event = dot(DPNP_QUEUE, result, input1, input2, input1_strides[0], input2_strides[0], input1_size);
         event.wait();
+        return;
+    }
+
+    // 1D vector
+    size_t ext_input1_ndim = input1_ndim == 1 ? 2 : input1_ndim;
+    size_t* ext_input1_shape = new size_t[ext_input1_ndim];
+    size_t* ext_input1_strides = new size_t[ext_input1_ndim];
+    if (input1_ndim == 1)
+    {
+        ext_input1_shape[0] = 1;
+        ext_input1_shape[1] = input1_shape[0];
+        ext_input1_strides[0] = 0;
+        ext_input1_strides[1] = input1_strides[0];
     }
     else
     {
-        _DataType_output* local_mem =
-            reinterpret_cast<_DataType_output*>(dpnp_memory_alloc_c(input1_size * sizeof(_DataType_output)));
+        for(size_t i = 0; i < ext_input1_ndim; ++i)
+        {
+            ext_input1_shape[i] = input1_shape[i];
+            ext_input1_strides[i] = input1_strides[i];
+        }
+    }
+    size_t ext_input2_ndim = input2_ndim == 1 ? 2 : input2_ndim;
+    size_t* ext_input2_shape = new size_t[ext_input2_ndim];
+    size_t* ext_input2_strides = new size_t[ext_input2_ndim];
+    if (input2_ndim == 1)
+    {
+        ext_input2_shape[0] = input2_shape[0];
+        ext_input2_shape[1] = 1;
+        ext_input2_strides[0] = input2_strides[0];
+        ext_input2_strides[1] = 0;
+    }
+    else
+    {
+        for(size_t i = 0; i < ext_input2_ndim; ++i)
+        {
+            ext_input2_shape[i] = input2_shape[i];
+            ext_input2_strides[i] = input2_strides[i];
+        }
+    }
+    size_t ext_result_ndim = ((input1_ndim == 1) || (input2_ndim == 1)) ? 2 : result_ndim;
+    size_t* ext_result_shape = new size_t[ext_result_ndim];
+    if ((input1_ndim == 1) || (input2_ndim == 1))
+    {
+        ext_result_shape[0] = ext_input1_shape[0];
+        ext_result_shape[1] = ext_input2_shape[1];
+    }
+    else
+    {
+        for(size_t i = 0; i < ext_result_ndim; ++i)
+        {
+            ext_result_shape[i] = result_shape[i];
+        }
+    }
 
-        // what about reduction??
-        cl::sycl::range<1> gws(input1_size);
+    // check if GEMM can be executed (types)
+    if constexpr ((std::is_same<_DataType_input1, double>::value || std::is_same<_DataType_input1, float>::value) &&
+                  std::is_same<_DataType_input2, _DataType_input1>::value &&
+                  std::is_same<_DataType_output, _DataType_input1>::value)
+    {
+        // check if GEMM can be executed (strides)
+        // TODO: rewrite the condition in general case for ndims > 2
+        // (looks like there are such another cases)
+        if ((ext_input1_ndim == 2 && ext_input2_ndim == 2) &&
+            (ext_input1_strides[0] == 1 || ext_input1_strides[1] == 1) &&
+            (ext_input2_strides[0] == 1 || ext_input2_strides[1] == 1)
+            )
+        {
+// there is a difference of behavior with trans and sizes params in previous version of GEMM
+// only new version is supported, in case of old version computation goes in common way
+#if INTEL_MKL_VERSION >= 20210004
+            oneapi::mkl::transpose trans1 = ext_input1_strides[0] == 1 ? oneapi::mkl::transpose::trans : oneapi::mkl::transpose::nontrans;
+            oneapi::mkl::transpose trans2 = ext_input2_strides[0] == 1 ? oneapi::mkl::transpose::trans : oneapi::mkl::transpose::nontrans;
+
+            const size_t size_m = ext_input1_shape[0];
+            const size_t size_n = ext_input2_shape[1];
+            const size_t size_k = ext_input1_shape[1];
+
+            const std::int64_t lda = trans1 == oneapi::mkl::transpose::nontrans ? ext_input1_strides[0] : ext_input1_strides[1];
+            const std::int64_t ldb = trans2 == oneapi::mkl::transpose::nontrans ? ext_input2_strides[0] : ext_input2_strides[1];;
+            // defenition of ldc will be another for result with non-standard (c-contiguous) strides
+            // const std::int64_t ldc = result_strides[0] == 1 ? result_strides[1] : result_strides[0];
+            const std::int64_t ldc = size_n;
+
+            cl::sycl::event event = mkl_blas_rm::gemm(DPNP_QUEUE,
+                                                      trans1,
+                                                      trans2,
+                                                      size_m,
+                                                      size_n,
+                                                      size_k,
+                                                      _DataType_output(1), // alpha
+                                                      input1,
+                                                      lda,
+                                                      input2,
+                                                      ldb,
+                                                      _DataType_output(0), // beta
+                                                      result,
+                                                      ldc);
+            event.wait();
+            return;
+#endif
+        }
+    }
 
-        auto kernel_parallel_for_func = [=](cl::sycl::id<1> global_id) {
-            const size_t index = global_id[0];
-            local_mem[index] = input1[index] * input2[index];
-        };
+    // deprecated? can be replaced with std::vector<cl::sycl::event>
+    cl::sycl::vector_class<cl::sycl::event> dot_events;
+    // std::vector<cl::sycl::event> dot_events;
+    dot_events.reserve(result_size);
 
-        auto kernel_func = [&](cl::sycl::handler& cgh) {
-            cgh.parallel_for<class dpnp_dot_c_kernel<_DataType_output, _DataType_input1, _DataType_input2>>(
-                gws, kernel_parallel_for_func);
-        };
+    size_t dot_st1 = ext_input1_strides[ext_input1_ndim - 1];
+    size_t dot_st2 = ext_input2_strides[ext_input2_ndim - 2];
+    size_t dot_size = ext_input1_shape[ext_input1_ndim - 1];
 
-        event = DPNP_QUEUE.submit(kernel_func);
+    size_t* res_coords = new size_t[ext_result_ndim];
+    size_t* result_offsets = new size_t[ext_result_ndim];
+    get_shape_offsets_inkernel(ext_result_shape, ext_result_ndim, result_offsets);
 
-        event.wait();
+    for(size_t i = 0; i < result_size; ++i)
+    {
+        get_xyz_by_id(i, ext_result_ndim, result_offsets, res_coords);
 
-        auto policy = oneapi::dpl::execution::make_device_policy<
-            class dpnp_dot_c_kernel<_DataType_output, _DataType_input1, _DataType_input2>>(DPNP_QUEUE);
+        _DataType_output* dot_res = result + i;
 
-        _DataType_output accumulator = 0;
-        accumulator =
-            std::reduce(policy, local_mem, local_mem + input1_size, _DataType_output(0), std::plus<_DataType_output>());
-        policy.queue().wait();
+        _DataType_input1* dot_in1 = input1;
+        for(size_t j = 0; j < ext_input1_ndim - 1; ++j)
+        {
+            dot_in1 = dot_in1 + res_coords[j] * ext_input1_strides[j];
+        }
 
-        dpnp_memory_memcpy_c(result, &accumulator, sizeof(_DataType_output)); // result[0] = accumulator;
+        _DataType_input2* dot_in2 = input2;
+        for(size_t j = 0; j < ext_input2_ndim - 2; ++j)
+        {
+            dot_in2 = dot_in2 + res_coords[ext_input1_ndim - 1 + j] * ext_input2_strides[j];
+        }
+        dot_in2 = dot_in2 + res_coords[ext_input1_ndim + ext_input2_ndim - 3] * ext_input2_strides[ext_input2_ndim - 1];
 
-        free(local_mem, DPNP_QUEUE);
+        dot_events.push_back(dot(DPNP_QUEUE, dot_res, dot_in1, dot_in2, dot_st1, dot_st2, dot_size));
     }
+
+    sycl::event::wait(dot_events);
+
+    delete[] res_coords;
+    delete[] result_offsets;
+    delete[] ext_input1_shape;
+    delete[] ext_input1_strides;
+    delete[] ext_input2_shape;
+    delete[] ext_input2_strides;
+    delete[] ext_result_shape;
+
 }
 
 template <typename _DataType, typename _ResultType>
 
@@ -51,6 +51,7 @@ void dpnp_correlate_c(void* result_out,
 {
     (void)where;
 
+    size_t dummy[] = {1};
     dpnp_dot_c<_DataType_output, _DataType_input1, _DataType_input2>(result_out,
                                                                      42,   // dummy result_size
                                                                      42,   // dummy result_ndim
@@ -60,12 +61,12 @@ void dpnp_correlate_c(void* result_out,
                                                                      input1_size,
                                                                      input1_shape_ndim,
                                                                      input1_shape,
-                                                                     NULL, // dummy input1_strides
+                                                                     dummy, // dummy input1_strides
                                                                      input2_in,
                                                                      input2_size,
                                                                      input2_shape_ndim,
                                                                      input2_shape,
-                                                                     NULL); // dummy input2_strides
+                                                                     dummy); // dummy input2_strides
 
     return;
 }