[fix] tensor_crs gpu blas

Daiki Adachi · Daiki Adachi · commit bb6ea0eff61d · 2025-03-09T22:45:48.000+09:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -53,6 +53,7 @@ Unreleased
 - Add view1D of tensor_Dense <https://gitlab.ritc.jp/ricos/monolish/-/merge_requests/496> <https://github.com/ricosjp/monolish/issues/728>
 - Add times/adds/axpy tests for view1D of matrix/tensor <https://gitlab.ritc.jp/ricos/monolish/-/merge_requests/498> <https://github.com/ricosjp/monolish/issues/729>
 - Add variadic templates for reshape tensor <https://gitlab.ritc.jp/ricos/monolish/-/merge_requests/499> <https://github.com/ricosjp/monolish/issues/730>
+- Add tensor_CRS <https://gitlab.ritc.jp/ricos/monolish/-/merge_requests/514> <https://github.com/ricosjp/monolish/issues/753>
 
 ### Changed
 - Start developing 0.17.1 <https://gitlab.ritc.jp/ricos/monolish/-/merge_requests/487>
diff --git a/include/monolish/common/monolish_crs.hpp b/include/monolish/common/monolish_crs.hpp
@@ -188,23 +188,6 @@ template <typename Float> class CRS {
   CRS(const size_t M, const size_t N, const std::vector<int> &rowptr,
       const std::vector<int> &colind, const vector<Float> &value);
 
-  /**
-   * @brief Create CRS matrix from shared_ptr
-   * @param M # of row
-   * @param N # of col
-   * @param rowptr row_ptr, which stores the starting points of the rows of the
-   *arrays value and col_ind (size M+1)
-   * @param colind col_ind, which stores the column numbers of the non-zero
-   *elements (size nnz)
-   * @param value value index, which stores the non-zero elements (size nnz)
-   * @note
-   * - # of computation: (M+1)+nnz + (M+1)+nnz (compute hash)
-   * - Multi-threading: false
-   * - GPU acceleration: true
-   **/
-  CRS(const size_t M, const size_t N, const std::vector<int> &rowptr,
-      const std::vector<int> &colind, const std::shared_ptr<Float> &value);
-
   /**
    * @brief Convert CRS matrix from COO matrix, also compute the hash
    * @param coo COO format matrix
diff --git a/include/monolish/common/monolish_dense.hpp b/include/monolish/common/monolish_dense.hpp
@@ -228,18 +228,6 @@ template <typename Float> class Dense {
    **/
   Dense(const size_t M, const size_t N, const vector<Float> &value);
 
-  /**
-   * @brief Create construct dense matrix
-   * @param M # of row
-   * @param N # of col
-   * @param value value
-   * @note
-   * - # of computation: 1
-   * - Multi-threading: true
-   * - GPU acceleration: false
-   **/
-  Dense(const size_t M, const size_t N, const std::shared_ptr<Float> &value);
-
   /**
    * @brief Create dense matrix from std::initializer_list
    * @param M # of row
diff --git a/include/monolish/common/monolish_tensor_dense.hpp b/include/monolish/common/monolish_tensor_dense.hpp
@@ -181,18 +181,6 @@ template <typename Float> class tensor_Dense {
   tensor_Dense(const std::vector<size_t> &shape,
                const std::vector<Float> &value);
 
-  /**
-   * @brief Allocate tensor_Dense tensor
-   * @param shape shape of tensor
-   * @param value value std::vector
-   * @note
-   * - # of computation: 1
-   * - Multi-threading: false
-   * - GPU acceleration: false
-   */
-  tensor_Dense(const std::vector<size_t> &shape,
-               const std::shared_ptr<Float> &value);
-
   /**
    * @brief Allocate tensor_Dense tensor
    * @param shape shape of tensor
diff --git a/src/blas/tensor/tensaddsub/tensor_crs_tensaddsub.hpp b/src/blas/tensor/tensaddsub/tensor_crs_tensaddsub.hpp
@@ -5,8 +5,9 @@ namespace monolish {
 
 namespace {
 
-template<typename F>
-void tensadd_core(const tensor::tensor_CRS<F> &A, const tensor::tensor_CRS<F> &B, tensor::tensor_CRS<F> &C) {
+template <typename F>
+void tensadd_core(const tensor::tensor_CRS<F> &A,
+                  const tensor::tensor_CRS<F> &B, tensor::tensor_CRS<F> &C) {
   Logger &logger = Logger::get_instance();
   logger.func_in(monolish_func);
 
@@ -21,8 +22,9 @@ void tensadd_core(const tensor::tensor_CRS<F> &A, const tensor::tensor_CRS<F> &B
   logger.func_out();
 }
 
-template<typename F>
-void tenssub_core(const tensor::tensor_CRS<F> &A, const tensor::tensor_CRS<F> &B, tensor::tensor_CRS<F> &C) {
+template <typename F>
+void tenssub_core(const tensor::tensor_CRS<F> &A,
+                  const tensor::tensor_CRS<F> &B, tensor::tensor_CRS<F> &C) {
   Logger &logger = Logger::get_instance();
   logger.func_in(monolish_func);
 
diff --git a/src/blas/tensor/tensmat/tensor_crs-dense_tensmat.hpp b/src/blas/tensor/tensmat/tensor_crs-dense_tensmat.hpp
@@ -28,13 +28,26 @@ void tensor_CRS_Dense_Dtensmat_core(const double &a,
   size_t nsum = 0;
 
   for (size_t d = 0; d < A.row_ptrs.size(); ++d) {
-    matrix::CRS<double> Amat(row, col, A.row_ptrs[d], A.col_inds[d],
-                             A.get_val());
-    Amat.set_first(A.get_offset() + nsum);
-    nsum += A.col_inds[d].size();
-    matrix::Dense<double> Cmat(row, B.get_col(), C.get_val());
-    Cmat.set_first(C.get_offset() + d * row * B.get_col());
+    std::vector<double> Aval(A.col_inds[d].size());
+    matrix::CRS<double> Amat(row, col, A.row_ptrs[d], A.col_inds[d], Aval);
+    std::vector<double> Cval(row * B.get_col());
+    matrix::Dense<double> Cmat(row, B.get_col(), Cval);
+    if (A.get_device_mem_stat()) {
+      Amat.send();
+      Cmat.send();
+    }
+    internal::vcopy(Aval.size(), A.begin() + nsum, Amat.begin(),
+                    A.get_device_mem_stat());
+    internal::vcopy(Cval.size(), C.begin() + d * row * B.get_col(),
+                    Cmat.begin(), A.get_device_mem_stat());
     CRS_Dense_Dmatmul_core(a, Amat, B, b, Cmat);
+    internal::vcopy(Cval.size(), Cmat.begin(),
+                    C.begin() + d * row * B.get_col(), A.get_device_mem_stat());
+    if (A.get_device_mem_stat()) {
+      Amat.recv();
+      Cmat.recv();
+    }
+    nsum += A.col_inds[d].size();
   }
 
   logger.func_out();
@@ -63,13 +76,26 @@ void tensor_CRS_Dense_Stensmat_core(const float &a,
   size_t nsum = 0;
 
   for (size_t d = 0; d < A.row_ptrs.size(); ++d) {
-    matrix::CRS<float> Amat(row, col, A.row_ptrs[d], A.col_inds[d],
-                            A.get_val());
-    Amat.set_first(A.get_offset() + nsum);
-    nsum += A.col_inds[d].size();
-    matrix::Dense<float> Cmat(row, B.get_col(), C.get_val());
-    Cmat.set_first(C.get_offset() + d * row * B.get_col());
+    std::vector<float> Aval(A.col_inds[d].size());
+    matrix::CRS<float> Amat(row, col, A.row_ptrs[d], A.col_inds[d], Aval);
+    std::vector<float> Cval(row * B.get_col());
+    matrix::Dense<float> Cmat(row, B.get_col(), Cval);
+    if (A.get_device_mem_stat()) {
+      Amat.send();
+      Cmat.send();
+    }
+    internal::vcopy(Aval.size(), A.begin() + nsum, Amat.begin(),
+                    A.get_device_mem_stat());
+    internal::vcopy(Cval.size(), C.begin() + d * row * B.get_col(),
+                    Cmat.begin(), A.get_device_mem_stat());
     CRS_Dense_Smatmul_core(a, Amat, B, b, Cmat);
+    internal::vcopy(Cval.size(), Cmat.begin(),
+                    C.begin() + d * row * B.get_col(), A.get_device_mem_stat());
+    if (A.get_device_mem_stat()) {
+      Amat.recv();
+      Cmat.recv();
+    }
+    nsum += A.col_inds[d].size();
   }
 
   logger.func_out();
diff --git a/src/blas/tensor/tensmul/tensor_crs-tensor_dense_tensmul.hpp b/src/blas/tensor/tensmul/tensor_crs-tensor_dense_tensmul.hpp
@@ -7,9 +7,10 @@ namespace monolish {
 namespace {
 // double ///////////////////
 template <typename TENS2, typename TENS3>
-void tensor_CRS_tensor_Dense_Dtensmul_core(const double &a, const tensor::tensor_CRS<double> &A,
-                                             const TENS2 &B, const double &b,
-                                             TENS3 &C){
+void tensor_CRS_tensor_Dense_Dtensmul_core(const double &a,
+                                           const tensor::tensor_CRS<double> &A,
+                                           const TENS2 &B, const double &b,
+                                           TENS3 &C) {
   Logger &logger = Logger::get_instance();
   logger.func_in(monolish_func);
 
@@ -21,41 +22,55 @@ void tensor_CRS_tensor_Dense_Dtensmul_core(const double &a, const tensor::tensor
 
   assert(col == Bshape[0]);
   std::vector<size_t> ABshape;
-  for(size_t i=0; i+1<Ashape.size(); ++i){
+  for (size_t i = 0; i + 1 < Ashape.size(); ++i) {
     ABshape.push_back(Ashape[i]);
   }
-  for(size_t i=1; i<Bshape.size(); ++i){
+  for (size_t i = 1; i < Bshape.size(); ++i) {
     ABshape.push_back(Bshape[i]);
   }
   assert(ABshape == Cshape);
 
   std::vector<size_t> ABshape_tmp = Bshape;
   ABshape_tmp[0] = row;
   size_t ABshape_dim = 1;
-  for(size_t i=0; i<ABshape_tmp.size(); ++i){
+  for (size_t i = 0; i < ABshape_tmp.size(); ++i) {
     ABshape_dim *= ABshape_tmp[i];
   }
 
   size_t nsum = 0;
 
-  for(size_t d=0; d<A.row_ptrs.size(); ++d){
-    matrix::CRS<double> Amat(row, col, A.row_ptrs[d], A.col_inds[d], A.get_val());
-    Amat.set_first(A.get_offset() + nsum);
-    nsum += A.col_inds[d].size();
-    tensor::tensor_Dense<double> Cmat(ABshape_tmp, C.get_val());
-    Cmat.set_first(C.get_offset() + d * ABshape_dim);
+  for (size_t d = 0; d < A.row_ptrs.size(); ++d) {
+    std::vector<double> Aval(A.col_inds[d].size());
+    matrix::CRS<double> Amat(row, col, A.row_ptrs[d], A.col_inds[d], Aval);
+    std::vector<double> Cval(ABshape_dim);
+    tensor::tensor_Dense<double> Cmat(ABshape_tmp, Cval);
+    if (A.get_device_mem_stat()) {
+      Amat.send();
+      Cmat.send();
+    }
+    internal::vcopy(Aval.size(), A.begin() + nsum, Amat.begin(),
+                    A.get_device_mem_stat());
+    internal::vcopy(Cval.size(), C.begin() + d * ABshape_dim, Cmat.begin(),
+                    A.get_device_mem_stat());
     CRS_tensor_Dense_Dmattens_core(a, Amat, B, b, Cmat);
+    internal::vcopy(Cval.size(), Cmat.begin(), C.begin() + d * ABshape_dim,
+                    A.get_device_mem_stat());
+    if (A.get_device_mem_stat()) {
+      Amat.recv();
+      Cmat.recv();
+    }
+    nsum += A.col_inds[d].size();
   }
 
   logger.func_out();
-
 }
 
 // float ///////////////////
 template <typename TENS2, typename TENS3>
-void tensor_CRS_tensor_Dense_Stensmul_core(const float &a, const tensor::tensor_CRS<float> &A,
-                                             const TENS2 &B, const float &b,
-                                             TENS3 &C){
+void tensor_CRS_tensor_Dense_Stensmul_core(const float &a,
+                                           const tensor::tensor_CRS<float> &A,
+                                           const TENS2 &B, const float &b,
+                                           TENS3 &C) {
   Logger &logger = Logger::get_instance();
   logger.func_in(monolish_func);
 
@@ -67,30 +82,44 @@ void tensor_CRS_tensor_Dense_Stensmul_core(const float &a, const tensor::tensor_
 
   assert(col == Bshape[0]);
   std::vector<size_t> ABshape;
-  for(size_t i=0; i+1<Ashape.size(); ++i){
+  for (size_t i = 0; i + 1 < Ashape.size(); ++i) {
     ABshape.push_back(Ashape[i]);
   }
-  for(size_t i=1; i<Bshape.size(); ++i){
+  for (size_t i = 1; i < Bshape.size(); ++i) {
     ABshape.push_back(Bshape[i]);
   }
   assert(ABshape == Cshape);
 
   std::vector<size_t> ABshape_tmp = Bshape;
   ABshape_tmp[0] = row;
   size_t ABshape_dim = 1;
-  for(size_t i=0; i<ABshape_tmp.size(); ++i){
+  for (size_t i = 0; i < ABshape_tmp.size(); ++i) {
     ABshape_dim *= ABshape_tmp[i];
   }
 
   size_t nsum = 0;
 
-  for(size_t d=0; d<A.row_ptrs.size(); ++d){
-    matrix::CRS<float> Amat(row, col, A.row_ptrs[d], A.col_inds[d], A.get_val());
-    Amat.set_first(A.get_offset() + nsum);
-    nsum += A.col_inds[d].size();
-    tensor::tensor_Dense<float> Cmat(ABshape_tmp, C.get_val());
-    Cmat.set_first(C.get_offset() + d * ABshape_dim);
+  for (size_t d = 0; d < A.row_ptrs.size(); ++d) {
+    std::vector<float> Aval(A.col_inds[d].size());
+    matrix::CRS<float> Amat(row, col, A.row_ptrs[d], A.col_inds[d], Aval);
+    std::vector<float> Cval(ABshape_dim);
+    tensor::tensor_Dense<float> Cmat(ABshape_tmp, Cval);
+    if (A.get_device_mem_stat()) {
+      Amat.send();
+      Cmat.send();
+    }
+    internal::vcopy(Aval.size(), A.begin() + nsum, Amat.begin(),
+                    A.get_device_mem_stat());
+    internal::vcopy(Cval.size(), C.begin() + d * ABshape_dim, Cmat.begin(),
+                    A.get_device_mem_stat());
     CRS_tensor_Dense_Smattens_core(a, Amat, B, b, Cmat);
+    internal::vcopy(Cval.size(), Cmat.begin(), C.begin() + d * ABshape_dim,
+                    A.get_device_mem_stat());
+    if (A.get_device_mem_stat()) {
+      Amat.recv();
+      Cmat.recv();
+    }
+    nsum += A.col_inds[d].size();
   }
 
   logger.func_out();
diff --git a/src/blas/tensor/tensvec/tensor_crs_tensvec.hpp b/src/blas/tensor/tensvec/tensor_crs_tensvec.hpp
@@ -1,4 +1,5 @@
 #pragma once
+#include "../../../internal/monolish_internal.hpp"
 #include "../../matrix/matvec/crs_matvec.hpp"
 #include "../../matrix/matvec/dense_matvec.hpp"
 
@@ -23,20 +24,26 @@ void Dtensvec_core(const double &a, const tensor::tensor_CRS<double> &A,
 
   int nsum = 0;
   for (size_t d = 0; d < A.row_ptrs.size(); ++d) {
-    std::vector<double> tmp(A.col_inds[d].size() + 1);
-    for (size_t i = 0; i < A.col_inds[d].size(); ++i) {
-      tmp[i] = A.begin()[i + nsum];
-    }
-    matrix::CRS<double> Amat(row, col, A.row_ptrs[d], A.col_inds[d], tmp);
-    monolish::vector<double> Cvec(row);
-    for (size_t i = 0; i < row; ++i) {
-      Cvec.begin()[i] = C.begin()[d * row + i];
+    std::vector<double> Aval(A.col_inds[d].size());
+    matrix::CRS<double> Amat(row, col, A.row_ptrs[d], A.col_inds[d], Aval);
+    std::vector<double> Cval(row);
+    monolish::vector<double> Cvec(Cval);
+    if (A.get_device_mem_stat()) {
+      Amat.send();
+      Cvec.send();
     }
+    internal::vcopy(Aval.size(), A.begin() + nsum, Amat.begin(),
+                    A.get_device_mem_stat());
+    internal::vcopy(Cval.size(), C.begin() + d * row, Cvec.begin(),
+                    A.get_device_mem_stat());
     Dmatvec_core(a, Amat, x, b, Cvec, transA);
-    for (size_t i = 0; i < row; ++i) {
-      C.begin()[d * row + i] = Cvec.begin()[i];
-    }
     nsum += A.col_inds[d].size();
+    internal::vcopy(Cval.size(), Cvec.begin(), C.begin() + d * row,
+                    A.get_device_mem_stat());
+    if (A.get_device_mem_stat()) {
+      Amat.recv();
+      Cvec.recv();
+    }
   }
 
   logger.func_out();
@@ -61,20 +68,26 @@ void Stensvec_core(const float &a, const tensor::tensor_CRS<float> &A,
 
   int nsum = 0;
   for (size_t d = 0; d < A.row_ptrs.size(); ++d) {
-    std::vector<float> tmp(A.col_inds[d].size() + 1);
-    for (size_t i = 0; i < A.col_inds[d].size(); ++i) {
-      tmp[i] = A.begin()[i + nsum];
-    }
-    matrix::CRS<float> Amat(row, col, A.row_ptrs[d], A.col_inds[d], tmp);
-    vector<float> Cvec(row);
-    for (size_t i = 0; i < row; ++i) {
-      Cvec.begin()[i] = C.begin()[d * row + i];
+    std::vector<float> Aval(A.col_inds[d].size());
+    matrix::CRS<float> Amat(row, col, A.row_ptrs[d], A.col_inds[d], Aval);
+    std::vector<float> Cval(row);
+    monolish::vector<float> Cvec(Cval);
+    if (A.get_device_mem_stat()) {
+      Amat.send();
+      Cvec.send();
     }
+    internal::vcopy(Aval.size(), A.begin() + nsum, Amat.begin(),
+                    A.get_device_mem_stat());
+    internal::vcopy(Cval.size(), C.begin() + d * row, Cvec.begin(),
+                    A.get_device_mem_stat());
     Smatvec_core(a, Amat, x, b, Cvec, transA);
-    for (size_t i = 0; i < row; ++i) {
-      C.begin()[d * row + i] = Cvec.begin()[i];
-    }
     nsum += A.col_inds[d].size();
+    internal::vcopy(Cval.size(), Cvec.begin(), C.begin() + d * row,
+                    A.get_device_mem_stat());
+    if (A.get_device_mem_stat()) {
+      Amat.recv();
+      Cvec.recv();
+    }
   }
 
   logger.func_out();
diff --git a/src/utils/crs_constructor.cpp b/src/utils/crs_constructor.cpp
diff --git a/src/utils/dense_constructor.cpp b/src/utils/dense_constructor.cpp
diff --git a/src/utils/system/gpu_comm.cpp b/src/utils/system/gpu_comm.cpp
diff --git a/src/utils/tensor_dense_constructor.cpp b/src/utils/tensor_dense_constructor.cpp