IntelPython
diff --git a/‎dpctl/tensor/libtensor/include/kernels/constructors.hpp‎
Lines changed: 12 additions & 12 deletions b/‎dpctl/tensor/libtensor/include/kernels/constructors.hpp‎
Lines changed: 12 additions & 12 deletions
diff --git a/‎dpctl/tensor/libtensor/source/accumulators.cpp‎
Lines changed: 8 additions & 7 deletions b/‎dpctl/tensor/libtensor/source/accumulators.cpp‎
Lines changed: 8 additions & 7 deletions
diff --git a/‎dpctl/tensor/libtensor/source/accumulators.hpp‎
Lines changed: 5 additions & 5 deletions b/‎dpctl/tensor/libtensor/source/accumulators.hpp‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎dpctl/tensor/libtensor/source/boolean_advanced_indexing.cpp‎
Lines changed: 14 additions & 14 deletions b/‎dpctl/tensor/libtensor/source/boolean_advanced_indexing.cpp‎
Lines changed: 14 additions & 14 deletions
diff --git a/‎dpctl/tensor/libtensor/source/boolean_advanced_indexing.hpp‎
Lines changed: 16 additions & 14 deletions b/‎dpctl/tensor/libtensor/source/boolean_advanced_indexing.hpp‎
Lines changed: 16 additions & 14 deletions
diff --git a/‎dpctl/tensor/libtensor/source/boolean_reductions.cpp‎
Lines changed: 6 additions & 6 deletions b/‎dpctl/tensor/libtensor/source/boolean_reductions.cpp‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎dpctl/tensor/libtensor/source/boolean_reductions.hpp‎
Lines changed: 2 additions & 2 deletions b/‎dpctl/tensor/libtensor/source/boolean_reductions.hpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎dpctl/tensor/libtensor/source/copy_and_cast_usm_to_usm.cpp‎
Lines changed: 2 additions & 2 deletions b/‎dpctl/tensor/libtensor/source/copy_and_cast_usm_to_usm.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎dpctl/tensor/libtensor/source/copy_and_cast_usm_to_usm.hpp‎
Lines changed: 2 additions & 2 deletions b/‎dpctl/tensor/libtensor/source/copy_and_cast_usm_to_usm.hpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎dpctl/tensor/libtensor/source/copy_for_reshape.cpp‎
Lines changed: 2 additions & 2 deletions b/‎dpctl/tensor/libtensor/source/copy_for_reshape.cpp‎
Lines changed: 2 additions & 2 deletions
@@ -57,12 +57,12 @@ using namespace dpctl::tensor::offset_utils;
  * @brief Cast pybind11 class managing Python object to specified type `T`.
  * @defgroup CtorKernels
  */
-template <typename T> T unbox_py_scalar(py::object o)
+template <typename T> T unbox_py_scalar(const py::object &o)
 {
     return py::cast<T>(o);
 }
 
-template <> inline sycl::half unbox_py_scalar<sycl::half>(py::object o)
+template <> inline sycl::half unbox_py_scalar<sycl::half>(const py::object &o)
 {
     float tmp = py::cast<float>(o);
     return static_cast<sycl::half>(tmp);
@@ -74,8 +74,8 @@ template <> inline sycl::half unbox_py_scalar<sycl::half>(py::object o)
 typedef sycl::event (*lin_space_step_fn_ptr_t)(
     sycl::queue,
     size_t, // num_elements
-    py::object start,
-    py::object step,
+    const py::object &start,
+    const py::object &step,
     char *, // dst_data_ptr
     const std::vector<sycl::event> &);
 
@@ -164,8 +164,8 @@ sycl::event lin_space_step_impl(sycl::queue exec_q,
 template <typename Ty>
 sycl::event lin_space_step_impl(sycl::queue exec_q,
                                 size_t nelems,
-                                py::object start,
-                                py::object step,
+                                const py::object &start,
+                                const py::object &step,
                                 char *array_data,
                                 const std::vector<sycl::event> &depends)
 {
@@ -204,8 +204,8 @@ template <typename fnT, typename Ty> struct LinSpaceStepFactory
 typedef sycl::event (*lin_space_affine_fn_ptr_t)(
     sycl::queue,
     size_t, // num_elements
-    py::object start,
-    py::object end,
+    const py::object &start,
+    const py::object &end,
     bool include_endpoint,
     char *, // dst_data_ptr
     const std::vector<sycl::event> &);
@@ -335,8 +335,8 @@ sycl::event lin_space_affine_impl(sycl::queue exec_q,
 template <typename Ty>
 sycl::event lin_space_affine_impl(sycl::queue exec_q,
                                   size_t nelems,
-                                  py::object start,
-                                  py::object end,
+                                  const py::object &start,
+                                  const py::object &end,
                                   bool include_endpoint,
                                   char *array_data,
                                   const std::vector<sycl::event> &depends)
@@ -372,7 +372,7 @@ template <typename fnT, typename Ty> struct LinSpaceAffineFactory
 
 typedef sycl::event (*full_contig_fn_ptr_t)(sycl::queue,
                                             size_t,
-                                            py::object,
+                                            const py::object &,
                                             char *,
                                             const std::vector<sycl::event> &);
 
@@ -427,7 +427,7 @@ sycl::event full_contig_impl(sycl::queue q,
 template <typename dstTy>
 sycl::event full_contig_impl(sycl::queue exec_q,
                              size_t nelems,
-                             py::object py_value,
+                             const py::object &py_value,
                              char *dst_p,
                              const std::vector<sycl::event> &depends)
 {
 
@@ -97,10 +97,10 @@ void populate_mask_positions_dispatch_vectors(void)
     return;
 }
 
-size_t py_mask_positions(dpctl::tensor::usm_ndarray mask,
-                         dpctl::tensor::usm_ndarray cumsum,
+size_t py_mask_positions(const dpctl::tensor::usm_ndarray &mask,
+                         const dpctl::tensor::usm_ndarray &cumsum,
                          sycl::queue exec_q,
-                         std::vector<sycl::event> const &depends)
+                         const std::vector<sycl::event> &depends)
 {
     // cumsum is 1D
     if (cumsum.get_ndim() != 1) {
@@ -155,7 +155,8 @@ size_t py_mask_positions(dpctl::tensor::usm_ndarray mask,
                       ? mask_positions_contig_i32_dispatch_vector[mask_typeid]
                       : mask_positions_contig_i64_dispatch_vector[mask_typeid];
 
-        return fn(exec_q, mask_size, mask_data, cumsum_data, depends);
+        return fn(std::move(exec_q), mask_size, mask_data, cumsum_data,
+                  depends);
     }
 
     const py::ssize_t *shape = mask.get_shape_raw();
@@ -233,8 +234,8 @@ void populate_cumsum_1d_dispatch_vectors(void)
     return;
 }
 
-size_t py_cumsum_1d(dpctl::tensor::usm_ndarray src,
-                    dpctl::tensor::usm_ndarray cumsum,
+size_t py_cumsum_1d(const dpctl::tensor::usm_ndarray &src,
+                    const dpctl::tensor::usm_ndarray &cumsum,
                     sycl::queue exec_q,
                     std::vector<sycl::event> const &depends)
 {
@@ -290,7 +291,7 @@ size_t py_cumsum_1d(dpctl::tensor::usm_ndarray src,
                 "this cumsum requires integer type, got src_typeid=" +
                 std::to_string(src_typeid));
         }
-        return fn(exec_q, src_size, src_data, cumsum_data, depends);
+        return fn(std::move(exec_q), src_size, src_data, cumsum_data, depends);
     }
 
     const py::ssize_t *shape = src.get_shape_raw();
 
@@ -39,15 +39,15 @@ namespace py_internal
 
 extern void populate_mask_positions_dispatch_vectors(void);
 
-extern size_t py_mask_positions(dpctl::tensor::usm_ndarray mask,
-                                dpctl::tensor::usm_ndarray cumsum,
+extern size_t py_mask_positions(const dpctl::tensor::usm_ndarray &mask,
+                                const dpctl::tensor::usm_ndarray &cumsum,
                                 sycl::queue exec_q,
-                                std::vector<sycl::event> const &depends = {});
+                                const std::vector<sycl::event> &depends = {});
 
 extern void populate_cumsum_1d_dispatch_vectors(void);
 
-extern size_t py_cumsum_1d(dpctl::tensor::usm_ndarray src,
-                           dpctl::tensor::usm_ndarray cumsum,
+extern size_t py_cumsum_1d(const dpctl::tensor::usm_ndarray &src,
+                           const dpctl::tensor::usm_ndarray &cumsum,
                            sycl::queue exec_q,
                            std::vector<sycl::event> const &depends = {});
 
 
@@ -110,13 +110,13 @@ void populate_masked_extract_dispatch_vectors(void)
 }
 
 std::pair<sycl::event, sycl::event>
-py_extract(dpctl::tensor::usm_ndarray src,
-           dpctl::tensor::usm_ndarray cumsum,
+py_extract(const dpctl::tensor::usm_ndarray &src,
+           const dpctl::tensor::usm_ndarray &cumsum,
            int axis_start, // axis_start <= mask_i < axis_end
            int axis_end,
            dpctl::tensor::usm_ndarray dst,
            sycl::queue exec_q,
-           std::vector<sycl::event> const &depends)
+           const std::vector<sycl::event> &depends)
 {
     int src_nd = src.get_ndim();
     if ((axis_start < 0 || axis_end > src_nd || axis_start >= axis_end)) {
@@ -444,13 +444,13 @@ void populate_masked_place_dispatch_vectors(void)
  * ((i > 0) ? cumsum[i-1] + 1 : 1)
  */
 std::pair<sycl::event, sycl::event>
-py_place(dpctl::tensor::usm_ndarray dst,
-         dpctl::tensor::usm_ndarray cumsum,
+py_place(const dpctl::tensor::usm_ndarray &dst,
+         const dpctl::tensor::usm_ndarray &cumsum,
          int axis_start, // axis_start <= mask_i < axis_end
          int axis_end,
-         dpctl::tensor::usm_ndarray rhs,
+         const dpctl::tensor::usm_ndarray &rhs,
          sycl::queue exec_q,
-         std::vector<sycl::event> const &depends)
+         const std::vector<sycl::event> &depends)
 {
     int dst_nd = dst.get_ndim();
     if ((axis_start < 0 || axis_end > dst_nd || axis_start >= axis_end)) {
@@ -712,14 +712,14 @@ py_place(dpctl::tensor::usm_ndarray dst,
 // Non-zero
 
 std::pair<sycl::event, sycl::event>
-py_nonzero(dpctl::tensor::usm_ndarray
-               cumsum, // int32/int64 input array, 1D, C-contiguous
-           dpctl::tensor::usm_ndarray
-               indexes, // int32/int64 2D output array, C-contiguous
-           std::vector<py::ssize_t>
-               mask_shape, // shape of array from which cumsum was computed
+py_nonzero(const dpctl::tensor::usm_ndarray
+               &cumsum, // int32/int64 input array, 1D, C-contiguous
+           const dpctl::tensor::usm_ndarray
+               &indexes, // int32/int64 2D output array, C-contiguous
+           const std::vector<py::ssize_t>
+               &mask_shape, // shape of array from which cumsum was computed
            sycl::queue exec_q,
-           std::vector<sycl::event> const &depends)
+           const std::vector<sycl::event> &depends)
 {
     if (!dpctl::utils::queues_are_compatible(exec_q, {cumsum, indexes})) {
         throw py::value_error(
 
@@ -39,34 +39,36 @@ namespace py_internal
 {
 
 extern std::pair<sycl::event, sycl::event>
-py_extract(dpctl::tensor::usm_ndarray src,
-           dpctl::tensor::usm_ndarray cumsum,
+py_extract(const dpctl::tensor::usm_ndarray &src,
+           const dpctl::tensor::usm_ndarray &cumsum,
            int axis_start, // axis_start <= mask_i < axis_end
            int axis_end,
            dpctl::tensor::usm_ndarray dst,
            sycl::queue exec_q,
-           std::vector<sycl::event> const &depends = {});
+           const std::vector<sycl::event> &depends = {});
 
 extern void populate_masked_extract_dispatch_vectors(void);
 
 extern std::pair<sycl::event, sycl::event>
-py_place(dpctl::tensor::usm_ndarray dst,
-         dpctl::tensor::usm_ndarray cumsum,
+py_place(const dpctl::tensor::usm_ndarray &dst,
+         const dpctl::tensor::usm_ndarray &cumsum,
          int axis_start, // axis_start <= mask_i < axis_end
          int axis_end,
-         dpctl::tensor::usm_ndarray rhs,
+         const dpctl::tensor::usm_ndarray &rhs,
          sycl::queue exec_q,
-         std::vector<sycl::event> const &depends = {});
+         const std::vector<sycl::event> &depends = {});
 
 extern void populate_masked_place_dispatch_vectors(void);
 
-extern std::pair<sycl::event, sycl::event> py_nonzero(
-    dpctl::tensor::usm_ndarray cumsum,  // int32 input array, 1D, C-contiguous
-    dpctl::tensor::usm_ndarray indexes, // int32 2D output array, C-contiguous
-    std::vector<py::ssize_t>
-        mask_shape, // shape of array from which cumsum was computed
-    sycl::queue exec_q,
-    std::vector<sycl::event> const &depends = {});
+extern std::pair<sycl::event, sycl::event>
+py_nonzero(const dpctl::tensor::usm_ndarray
+               &cumsum, // int32 input array, 1D, C-contiguous
+           const dpctl::tensor::usm_ndarray
+               &indexes, // int32 2D output array, C-contiguous
+           const std::vector<py::ssize_t>
+               &mask_shape, // shape of array from which cumsum was computed
+           sycl::queue exec_q,
+           const std::vector<sycl::event> &depends = {});
 
 } // namespace py_internal
 } // namespace tensor
 
@@ -148,11 +148,11 @@ void init_boolean_reduction_functions(py::module_ m)
         using impl::all_reduction_axis1_contig_dispatch_vector;
         using impl::all_reduction_strided_dispatch_vector;
 
-        auto all_pyapi = [&](arrayT src, int trailing_dims_to_reduce,
-                             arrayT dst, sycl::queue exec_q,
+        auto all_pyapi = [&](const arrayT &src, int trailing_dims_to_reduce,
+                             const arrayT &dst, sycl::queue exec_q,
                              const event_vecT &depends = {}) {
             return py_boolean_reduction(
-                src, trailing_dims_to_reduce, dst, exec_q, depends,
+                src, trailing_dims_to_reduce, dst, std::move(exec_q), depends,
                 all_reduction_axis1_contig_dispatch_vector,
                 all_reduction_axis0_contig_dispatch_vector,
                 all_reduction_strided_dispatch_vector);
@@ -169,11 +169,11 @@ void init_boolean_reduction_functions(py::module_ m)
         using impl::any_reduction_axis1_contig_dispatch_vector;
         using impl::any_reduction_strided_dispatch_vector;
 
-        auto any_pyapi = [&](arrayT src, int trailing_dims_to_reduce,
-                             arrayT dst, sycl::queue exec_q,
+        auto any_pyapi = [&](const arrayT &src, int trailing_dims_to_reduce,
+                             const arrayT &dst, sycl::queue exec_q,
                              const event_vecT &depends = {}) {
             return py_boolean_reduction(
-                src, trailing_dims_to_reduce, dst, exec_q, depends,
+                src, trailing_dims_to_reduce, dst, std::move(exec_q), depends,
                 any_reduction_axis1_contig_dispatch_vector,
                 any_reduction_axis0_contig_dispatch_vector,
                 any_reduction_strided_dispatch_vector);
 
@@ -49,9 +49,9 @@ namespace td_ns = dpctl::tensor::type_dispatch;
 
 template <typename contig_dispatchT, typename strided_dispatchT>
 std::pair<sycl::event, sycl::event>
-py_boolean_reduction(dpctl::tensor::usm_ndarray src,
+py_boolean_reduction(const dpctl::tensor::usm_ndarray &src,
                      int trailing_dims_to_reduce,
-                     dpctl::tensor::usm_ndarray dst,
+                     const dpctl::tensor::usm_ndarray &dst,
                      sycl::queue exec_q,
                      const std::vector<sycl::event> &depends,
                      const contig_dispatchT &axis1_contig_dispatch_vector,
 
@@ -67,8 +67,8 @@ namespace py = pybind11;
 using dpctl::utils::keep_args_alive;
 
 std::pair<sycl::event, sycl::event>
-copy_usm_ndarray_into_usm_ndarray(dpctl::tensor::usm_ndarray src,
-                                  dpctl::tensor::usm_ndarray dst,
+copy_usm_ndarray_into_usm_ndarray(const dpctl::tensor::usm_ndarray &src,
+                                  const dpctl::tensor::usm_ndarray &dst,
                                   sycl::queue exec_q,
                                   const std::vector<sycl::event> &depends = {})
 {
 
@@ -38,8 +38,8 @@ namespace py_internal
 {
 
 extern std::pair<sycl::event, sycl::event>
-copy_usm_ndarray_into_usm_ndarray(dpctl::tensor::usm_ndarray src,
-                                  dpctl::tensor::usm_ndarray dst,
+copy_usm_ndarray_into_usm_ndarray(const dpctl::tensor::usm_ndarray &src,
+                                  const dpctl::tensor::usm_ndarray &dst,
                                   sycl::queue exec_q,
                                   const std::vector<sycl::event> &depends = {});
 
 
@@ -58,8 +58,8 @@ static copy_for_reshape_fn_ptr_t
  *     dst[np.multi_index(i, dst.shape)] = src[np.multi_index(i, src.shape)]
  */
 std::pair<sycl::event, sycl::event>
-copy_usm_ndarray_for_reshape(dpctl::tensor::usm_ndarray src,
-                             dpctl::tensor::usm_ndarray dst,
+copy_usm_ndarray_for_reshape(const dpctl::tensor::usm_ndarray &src,
+                             const dpctl::tensor::usm_ndarray &dst,
                              sycl::queue exec_q,
                              const std::vector<sycl::event> &depends)
 {
Original file line number	Diff line number	Diff line change
`@@ -97,10 +97,10 @@ void populate_mask_positions_dispatch_vectors(void)`
`97`	`97`	`return;`
`98`	`98`	`}`
`99`	`99`
`100`		`-size_t py_mask_positions(dpctl::tensor::usm_ndarray mask,`
`101`		`- dpctl::tensor::usm_ndarray cumsum,`
	`100`	`+size_t py_mask_positions(const dpctl::tensor::usm_ndarray &mask,`
	`101`	`+ const dpctl::tensor::usm_ndarray &cumsum,`
`102`	`102`	`sycl::queue exec_q,`
`103`		`- std::vector<sycl::event> const &depends)`
	`103`	`+ const std::vector<sycl::event> &depends)`
`104`	`104`	`{`
`105`	`105`	`// cumsum is 1D`
`106`	`106`	`if (cumsum.get_ndim() != 1) {`
`@@ -155,7 +155,8 @@ size_t py_mask_positions(dpctl::tensor::usm_ndarray mask,`
`155`	`155`	`? mask_positions_contig_i32_dispatch_vector[mask_typeid]`
`156`	`156`	`: mask_positions_contig_i64_dispatch_vector[mask_typeid];`
`157`	`157`
`158`		`- return fn(exec_q, mask_size, mask_data, cumsum_data, depends);`
	`158`	`+ return fn(std::move(exec_q), mask_size, mask_data, cumsum_data,`
	`159`	`+ depends);`
`159`	`160`	`}`
`160`	`161`
`161`	`162`	`const py::ssize_t *shape = mask.get_shape_raw();`
`@@ -233,8 +234,8 @@ void populate_cumsum_1d_dispatch_vectors(void)`
`233`	`234`	`return;`
`234`	`235`	`}`
`235`	`236`
`236`		`-size_t py_cumsum_1d(dpctl::tensor::usm_ndarray src,`
`237`		`- dpctl::tensor::usm_ndarray cumsum,`
	`237`	`+size_t py_cumsum_1d(const dpctl::tensor::usm_ndarray &src,`
	`238`	`+ const dpctl::tensor::usm_ndarray &cumsum,`
`238`	`239`	`sycl::queue exec_q,`
`239`	`240`	`std::vector<sycl::event> const &depends)`
`240`	`241`	`{`
`@@ -290,7 +291,7 @@ size_t py_cumsum_1d(dpctl::tensor::usm_ndarray src,`
`290`	`291`	`"this cumsum requires integer type, got src_typeid=" +`
`291`	`292`	`std::to_string(src_typeid));`
`292`	`293`	`}`
`293`		`- return fn(exec_q, src_size, src_data, cumsum_data, depends);`
	`294`	`+ return fn(std::move(exec_q), src_size, src_data, cumsum_data, depends);`
`294`	`295`	`}`
`295`	`296`
`296`	`297`	`const py::ssize_t *shape = src.get_shape_raw();`
Original file line number	Diff line number	Diff line change
`@@ -38,8 +38,8 @@ namespace py_internal`
`38`	`38`	`{`
`39`	`39`
`40`	`40`	`extern std::pair<sycl::event, sycl::event>`
`41`		`-copy_usm_ndarray_into_usm_ndarray(dpctl::tensor::usm_ndarray src,`
`42`		`- dpctl::tensor::usm_ndarray dst,`
	`41`	`+copy_usm_ndarray_into_usm_ndarray(const dpctl::tensor::usm_ndarray &src,`
	`42`	`+ const dpctl::tensor::usm_ndarray &dst,`
`43`	`43`	`sycl::queue exec_q,`
`44`	`44`	`const std::vector<sycl::event> &depends = {});`
`45`	`45`