add para_linear_transform_op

Qianruipku · Qianruipku · commit 23fc25e052f2 · 2025-01-21T14:41:08.000+08:00
diff --git a/source/Makefile.Objects b/source/Makefile.Objects
@@ -333,6 +333,7 @@ OBJS_HSOLVER=diago_cg.o\
     diago_david.o\
     diago_dav_subspace.o\
     diago_bpcg.o\
+    para_linear_transform.o\
     hsolver.o\
     hsolver_pw.o\
     hsolver_lcaopw.o\
diff --git a/source/module_hsolver/CMakeLists.txt b/source/module_hsolver/CMakeLists.txt
@@ -4,6 +4,7 @@ list(APPEND objects
     diago_david.cpp
     diago_dav_subspace.cpp
     diago_bpcg.cpp
+    para_linear_transform.cpp
     hsolver_pw.cpp
     hsolver_lcaopw.cpp
     hsolver_pw_sdft.cpp
diff --git a/source/module_hsolver/para_linear_transform.cpp b/source/module_hsolver/para_linear_transform.cpp
@@ -0,0 +1,161 @@
+#include "para_linear_transform.h"
+#include <vector>
+#include <algorithm>
+namespace hsolver
+{
+template <typename T, typename Device>
+void para_linear_transform_op<T, Device>::operator()(T* A,
+                                                     const T alpha,
+                                                     const T beta,
+                                                     const T* U_global,
+                                                     const int& nrow,
+                                                     const int& LDA,
+                                                     const int& ncol_loc,
+                                                     const int& ncol_glo,
+#ifdef __MPI
+                                                     MPI_Comm col_world,
+#endif
+                                                     const int rank_col,
+                                                     const int nproc_col
+
+)
+{
+    const Device* ctx = {};
+#ifdef __MPI
+    if (nproc_col > 1)
+    {
+        std::vector<int> colA_loc(nproc_col);
+        MPI_Allgather(&ncol_loc, 1, MPI_INT, colA_loc.data(), 1, MPI_INT, col_world);
+        std::vector<int> start_col(nproc_col);
+        start_col[0] = 0;
+        for (int ip = 1; ip < nproc_col; ++ip)
+        {
+            start_col[ip] = start_col[ip - 1] + colA_loc[ip - 1];
+        }
+        int max_col = *std::max_element(colA_loc.begin(), colA_loc.end());
+        std::vector<MPI_Request> requests(nproc_col);
+
+        std::vector<T> A_tmp(max_col * LDA);
+        T* A_tmp_device = A_tmp.data();
+        if (std::is_same<Device, base_device::DEVICE_GPU>::value)
+        {
+            A_tmp_device = nullptr;
+            resmem_dev_op()(A_tmp_device, max_col * LDA);
+        }
+        T* A_tmp2 = nullptr;
+        resmem_dev_op()(A_tmp2, ncol_loc * LDA);
+        syncmem_dev_op()(A_tmp2, A, ncol_loc * LDA);
+        T* A_sum = nullptr;
+        resmem_dev_op()(A_sum, ncol_loc * LDA);
+        setmem_dev_op()(A_sum, 0.0, ncol_loc * LDA);
+
+        // Send
+        for (int ip = 0; ip < nproc_col; ++ip)
+        {
+            if (rank_col != ip)
+            {
+                int size = LDA * ncol_loc;
+                Parallel_Common::isend_dev<T, Device>(A, size, ip, 0, col_world, &requests[ip], A_tmp.data());
+            }
+        }
+
+        // Receive
+        T* U_local = nullptr;
+        resmem_dev_op()(U_local, max_col * ncol_loc);
+        const int start = start_col[rank_col];
+        for (int ip = 0; ip < nproc_col; ++ip)
+        {
+            T real_beta = ip == 0 ? beta : 0;
+            const int start_row = start_col[ip];
+            const int ncol_ip = colA_loc[ip];
+            // get U_local
+            for (int i = 0; i < ncol_loc; ++i)
+            {
+                const T* U_glo_tmp = U_global + start_row + (i + start) * ncol_glo;
+                syncmem_dev_op()(U_local + i * ncol_ip, U_glo_tmp, ncol_ip);
+            }
+
+            if (ip == rank_col)
+            {
+                ModuleBase::gemm_op<T, Device>()(ctx,
+                                                 'N',
+                                                 'N',
+                                                 nrow,
+                                                 ncol_loc,
+                                                 ncol_ip,
+                                                 &alpha,
+                                                 A,
+                                                 LDA,
+                                                 U_local,
+                                                 ncol_ip,
+                                                 &real_beta,
+                                                 A_tmp2,
+                                                 LDA);
+            }
+            else
+            {
+                int size = LDA * ncol_ip;
+                MPI_Status status;
+                Parallel_Common::recv_dev<T, Device>(A_tmp_device, size, ip, 0, col_world, &status, A_tmp.data());
+                MPI_Wait(&requests[ip], &status);
+                ModuleBase::gemm_op<T, Device>()(ctx,
+                                                 'N',
+                                                 'N',
+                                                 nrow,
+                                                 ncol_loc,
+                                                 ncol_ip,
+                                                 &alpha,
+                                                 A_tmp_device,
+                                                 LDA,
+                                                 U_local,
+                                                 ncol_ip,
+                                                 &real_beta,
+                                                 A_tmp2,
+                                                 LDA);
+            }
+            // sum all the results
+            T one = 1.0;
+            ModuleBase::axpy_op<T, Device>()(ctx, ncol_loc * LDA, &one, A_tmp2, 1, A_sum, 1);
+        }
+        syncmem_dev_op()(A, A_sum, ncol_loc * LDA);
+        delmem_dev_op()(U_local);
+        delmem_dev_op()(A_tmp2);
+        delmem_dev_op()(A_sum);
+        if (std::is_same<Device, base_device::DEVICE_GPU>::value)
+        {
+            delmem_dev_op()(A_tmp_device);
+        }
+    }
+    else
+#endif
+    {
+        T* A_tmp = nullptr;
+        resmem_dev_op()(A_tmp, LDA * ncol_glo);
+        syncmem_dev_op()(A_tmp, A, LDA * ncol_loc);
+        ModuleBase::gemm_op<T, Device>()(ctx,
+                                         'N',
+                                         'N',
+                                         nrow,
+                                         ncol_glo,
+                                         ncol_glo,
+                                         &alpha,
+                                         A_tmp,
+                                         LDA,
+                                         U_global,
+                                         ncol_glo,
+                                         &beta,
+                                         A,
+                                         LDA);
+        delmem_dev_op()(A_tmp);
+    }
+};
+
+template struct para_linear_transform_op<double, base_device::DEVICE_CPU>;
+template struct para_linear_transform_op<std::complex<double>, base_device::DEVICE_CPU>;
+template struct para_linear_transform_op<std::complex<float>, base_device::DEVICE_CPU>;
+#if ((defined __CUDA) || (defined __ROCM))
+template struct para_linear_transform_op<double, base_device::DEVICE_GPU>;
+template struct para_linear_transform_op<std::complex<double>, base_device::DEVICE_GPU>;
+template struct para_linear_transform_op<std::complex<float>, base_device::DEVICE_GPU>;
+#endif
+} // namespace hsolver
diff --git a/source/module_hsolver/para_linear_transform.h b/source/module_hsolver/para_linear_transform.h
@@ -0,0 +1,55 @@
+#ifndef __PARA_LINEAR_TRANSFORM_H__
+#define __PARA_LINEAR_TRANSFORM_H__
+#include "module_base/kernels/math_kernel_op.h"
+#include "module_base/module_device/device.h"
+#include "module_base/module_device/memory_op.h"
+#include "module_base/parallel_device.h"
+#ifdef __MPI
+#include "mpi.h"
+#endif
+namespace hsolver
+{
+
+template <typename T, typename Device>
+struct para_linear_transform_op
+{
+    using syncmem_dev_op = base_device::memory::synchronize_memory_op<T, Device, Device>;
+    using resmem_dev_op = base_device::memory::resize_memory_op<T, Device>;
+    using setmem_dev_op = base_device::memory::set_memory_op<T, Device>;
+    using delmem_dev_op = base_device::memory::delete_memory_op<T, Device>;
+    /**
+     * @brief A_global =  alpha * A_global * U_global + beta * A_global
+     *        A is a local matrix with nrow rows and ncol_loc columns
+     *        U_global is a matrix with ncol_glo rows and ncol_glo columns
+     * @example rotate wave functions: A = A * U
+     *          orthogonalize wave functions: A = A - A * U
+     *
+     * @param A : input/output matrix
+     * @param alpha : alpha
+     * @param beta : beta
+     * @param U_global : input matrix
+     * @param nrow : number of rows of A
+     * @param LDA : leading dimension of A
+     * @param ncol_loc : number of columns of A
+     * @param ncol_glo : number of columns and rows of U_global
+     * @param col_world : column communicator world
+     * @param rank_col : rank of col_world
+     * @param nproc_col : number of processes in col_world
+     *
+     */
+    void operator()(T* A,
+                    const T alpha,
+                    const T beta,
+                    const T* U_global,
+                    const int& nrow,
+                    const int& LDA,
+                    const int& ncol_loc,
+                    const int& ncol_glo,
+#ifdef __MPI
+                    MPI_Comm col_world,
+#endif
+                    const int rank_col,
+                    const int nproc_col);
+};
+} // namespace hsolver
+#endif
diff --git a/source/module_hsolver/test/CMakeLists.txt b/source/module_hsolver/test/CMakeLists.txt
@@ -12,7 +12,7 @@ if (ENABLE_MPI)
   AddTest(
     TARGET HSolver_bpcg
     LIBS parameter  ${math_libs} base psi device container
-    SOURCES diago_bpcg_test.cpp ../diago_bpcg.cpp  ../diago_iter_assist.cpp  
+    SOURCES diago_bpcg_test.cpp ../diago_bpcg.cpp ../para_linear_transform.cpp  ../diago_iter_assist.cpp  
             ../../module_basis/module_pw/test/test_tool.cpp
             ../../module_hamilt_general/operator.cpp
             ../../module_hamilt_pw/hamilt_pwdft/operator_pw/operator_pw.cpp
@@ -77,13 +77,13 @@ if (ENABLE_MPI)
   AddTest(
     TARGET HSolver_pw
     LIBS parameter  ${math_libs} psi device base container
-    SOURCES test_hsolver_pw.cpp ../hsolver_pw.cpp ../hsolver_lcaopw.cpp ../diago_bpcg.cpp ../diago_dav_subspace.cpp ../diag_const_nums.cpp ../diago_iter_assist.cpp
+    SOURCES test_hsolver_pw.cpp ../hsolver_pw.cpp ../hsolver_lcaopw.cpp ../diago_bpcg.cpp ../diago_dav_subspace.cpp ../diag_const_nums.cpp ../diago_iter_assist.cpp ../para_linear_transform.cpp
   )
 
   AddTest(
     TARGET HSolver_sdft
     LIBS parameter  ${math_libs} psi device base container
-    SOURCES test_hsolver_sdft.cpp ../hsolver_pw_sdft.cpp ../hsolver_pw.cpp ../diago_bpcg.cpp ../diago_dav_subspace.cpp ../diag_const_nums.cpp ../diago_iter_assist.cpp
+    SOURCES test_hsolver_sdft.cpp ../hsolver_pw_sdft.cpp ../hsolver_pw.cpp ../diago_bpcg.cpp ../diago_dav_subspace.cpp ../diag_const_nums.cpp ../diago_iter_assist.cpp ../para_linear_transform.cpp
   )
 
   if(ENABLE_LCAO)
@@ -159,6 +159,17 @@ AddTest(
   SOURCES test_diago_hs_para.cpp ../diag_hs_para.cpp ../diago_pxxxgvx.cpp ../diago_elpa.cpp ../diago_scalapack.cpp 
 )
 
+AddTest(
+  TARGET hsolver_linear_trans
+  LIBS parameter  ${math_libs} base device MPI::MPI_CXX
+  SOURCES test_para_linear_trans.cpp ../para_linear_transform.cpp
+)
+
+add_test(NAME hsolver_para_linear_trans
+  COMMAND mpirun -np 4 ./hsolver_linear_trans
+  WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR}
+)
+
 find_program(BASH bash)
 if (ENABLE_MPI)
   add_test(NAME HSolver_cg_parallel
diff --git a/source/module_hsolver/test/test_para_linear_trans.cpp b/source/module_hsolver/test/test_para_linear_trans.cpp