Merge pull request xcompact3d#16 from semi-h/feature

semi-h · web-flow · commit 410dac4224bc · 2023-11-15T15:15:14.000Z
Add new subroutines to execute the generic and fused distributed solvers.
diff --git a/src/CMakeLists.txt b/src/CMakeLists.txt
@@ -13,7 +13,9 @@ set(SRC
 set(CUDASRC
   cuda/common.f90
   cuda/cuda_allocator.f90
+  cuda/exec_dist.f90
   cuda/kernels_dist.f90
+  cuda/sendrecv.f90
   cuda/tdsops.f90
 )
 
diff --git a/src/cuda/exec_dist.f90 b/src/cuda/exec_dist.f90
@@ -0,0 +1,124 @@
+module m_cuda_exec_dist
+   use cudafor
+   use mpi
+
+   use m_common, only: dp
+   use m_cuda_common, only: SZ
+   use m_cuda_kernels_dist, only: der_univ_dist, der_univ_subs, &
+                                  transeq_3fused_dist, transeq_3fused_subs
+   use m_cuda_sendrecv, only: sendrecv_fields, sendrecv_3fields
+   use m_cuda_tdsops, only: cuda_tdsops_t
+
+   implicit none
+
+contains
+
+   subroutine exec_dist_tds_compact( &
+      du, u, u_recv_s, u_recv_e, du_send_s, du_send_e, du_recv_s, du_recv_e, &
+      tdsops, nproc, pprev, pnext, blocks, threads &
+   )
+      implicit none
+
+      ! du = d(u)
+      real(dp), device, dimension(:, :, :), intent(out) :: du
+      real(dp), device, dimension(:, :, :), intent(in) :: u, u_recv_s, u_recv_e
+
+      ! The ones below are intent(out) just so that we can write data in them,
+      ! not because we actually need the data they store later where this
+      ! subroutine is called. We absolutely don't care the data they pass back
+      real(dp), device, dimension(:, :, :), intent(out) :: &
+         du_send_s, du_send_e, du_recv_s, du_recv_e
+
+      type(cuda_tdsops_t), intent(in) :: tdsops
+      integer, intent(in) :: nproc, pprev, pnext
+      type(dim3), intent(in) :: blocks, threads
+
+      integer :: n_data
+
+      n_data = SZ*1*blocks%x
+
+      call der_univ_dist<<<blocks, threads>>>( &
+         du, du_send_s, du_send_e, u, u_recv_s, u_recv_e, &
+         tdsops%coeffs_s_dev, tdsops%coeffs_e_dev, tdsops%coeffs_dev, &
+         tdsops%n, tdsops%dist_fw_dev, tdsops%dist_bw_dev, tdsops%dist_af_dev &
+      )
+
+      ! halo exchange for 2x2 systems
+      call sendrecv_fields(du_recv_s, du_recv_e, du_send_s, du_send_e, &
+                           n_data, nproc, pprev, pnext)
+
+      call der_univ_subs<<<blocks, threads>>>( &
+         du, du_recv_s, du_recv_e, &
+         tdsops%n, tdsops%dist_sa_dev, tdsops%dist_sc_dev &
+      )
+
+   end subroutine exec_dist_tds_compact
+
+   subroutine exec_dist_transeq_3fused( &
+      r_u, u, u_recv_s, u_recv_e, v, v_recv_s, v_recv_e, &
+      du, dud, d2u, &
+      du_send_s, du_send_e, du_recv_s, du_recv_e, &
+      dud_send_s, dud_send_e, dud_recv_s, dud_recv_e, &
+      d2u_send_s, d2u_send_e, d2u_recv_s, d2u_recv_e, &
+      der1st, der2nd, nu, nproc, pprev, pnext, blocks, threads &
+   )
+      implicit none
+
+      ! r_u = -1/2*(v*d1(u) + d1(u*v)) + nu*d2(u)
+      real(dp), device, dimension(:, :, :), intent(out) :: r_u
+      real(dp), device, dimension(:, :, :), intent(in) :: u, u_recv_s, u_recv_e
+      real(dp), device, dimension(:, :, :), intent(in) :: v, v_recv_s, v_recv_e
+
+      ! The ones below are intent(out) just so that we can write data in them,
+      ! not because we actually need the data they store later where this
+      ! subroutine is called. We absolutely don't care the data they pass back
+      real(dp), device, dimension(:, :, :), intent(out) :: du, dud, d2u
+      real(dp), device, dimension(:, :, :), intent(out) :: &
+         du_send_s, du_send_e, du_recv_s, du_recv_e, &
+         dud_send_s, dud_send_e, dud_recv_s, dud_recv_e, &
+         d2u_send_s, d2u_send_e, d2u_recv_s, d2u_recv_e
+
+      type(cuda_tdsops_t), intent(in) :: der1st, der2nd
+      real(dp), intent(in) :: nu
+      integer, intent(in) :: nproc, pprev, pnext
+      type(dim3), intent(in) :: blocks, threads
+
+      integer :: n_data
+
+      n_data = SZ*1*blocks%x
+
+      call transeq_3fused_dist<<<blocks, threads>>>( &
+         du, dud, d2u, &
+         du_send_s, du_send_e, &
+         dud_send_s, dud_send_e, &
+         d2u_send_s, d2u_send_e, &
+         u, u_recv_s, u_recv_e, &
+         v, v_recv_s, v_recv_e, der1st%n, &
+         der1st%coeffs_s_dev, der1st%coeffs_e_dev, der1st%coeffs_dev, &
+         der1st%dist_fw_dev, der1st%dist_bw_dev, der1st%dist_af_dev, &
+         der2nd%coeffs_s_dev, der2nd%coeffs_e_dev, der2nd%coeffs_dev, &
+         der2nd%dist_fw_dev, der2nd%dist_bw_dev, der2nd%dist_af_dev &
+      )
+
+      ! halo exchange for 2x2 systems
+      call sendrecv_3fields( &
+         du_recv_s, du_recv_e, dud_recv_s, dud_recv_e, &
+         d2u_recv_s, d2u_recv_e, &
+         du_send_s, du_send_e, dud_send_s, dud_send_e, &
+         d2u_send_s, d2u_send_e, &
+         n_data, nproc, pprev, pnext &
+      )
+
+      call transeq_3fused_subs<<<blocks, threads>>>( &
+         r_u, v, du, dud, d2u, &
+         du_recv_s, du_recv_e, &
+         dud_recv_s, dud_recv_e, &
+         d2u_recv_s, d2u_recv_e, &
+         der1st%dist_sa_dev, der1st%dist_sc_dev, &
+         der2nd%dist_sa_dev, der2nd%dist_sc_dev, &
+         der1st%n, nu &
+      )
+
+   end subroutine exec_dist_transeq_3fused
+
+end module m_cuda_exec_dist
diff --git a/src/cuda/sendrecv.f90 b/src/cuda/sendrecv.f90
@@ -0,0 +1,94 @@
+module m_cuda_sendrecv
+   use cudafor
+   use mpi
+
+   use m_common, only: dp
+
+   implicit none
+
+contains
+
+   subroutine sendrecv_fields(f_recv_s, f_recv_e, f_send_s, f_send_e, &
+                              n_data, nproc, prev, next)
+      implicit none
+
+      real(dp), device, dimension(:, :, :), intent(out) :: f_recv_s, f_recv_e
+      real(dp), device, dimension(:, :, :), intent(in) :: f_send_s, f_send_e
+      integer, intent(in) :: n_data, nproc, prev, next
+
+      integer :: req(4), err(4), ierr, tag = 1234
+
+      if (nproc == 1) then
+         f_recv_s = f_send_e
+         f_recv_e = f_send_s
+      else
+         call MPI_Isend(f_send_s, n_data, MPI_DOUBLE_PRECISION, &
+                        prev, tag, MPI_COMM_WORLD, req(1), err(1))
+         call MPI_Irecv(f_recv_e, n_data, MPI_DOUBLE_PRECISION, &
+                        next, tag, MPI_COMM_WORLD, req(2), err(2))
+         call MPI_Isend(f_send_e, n_data, MPI_DOUBLE_PRECISION, &
+                        next, tag, MPI_COMM_WORLD, req(3), err(3))
+         call MPI_Irecv(f_recv_s, n_data, MPI_DOUBLE_PRECISION, &
+                        prev, tag, MPI_COMM_WORLD, req(4), err(4))
+
+         call MPI_Waitall(4, req, MPI_STATUSES_IGNORE, ierr)
+      end if
+
+   end subroutine sendrecv_fields
+
+   subroutine sendrecv_3fields( &
+      f1_recv_s, f1_recv_e, f2_recv_s, f2_recv_e, f3_recv_s, f3_recv_e, &
+      f1_send_s, f1_send_e, f2_send_s, f2_send_e, f3_send_s, f3_send_e, &
+      n_data, nproc, prev, next &
+   )
+      implicit none
+
+      real(dp), device, dimension(:, :, :), intent(out) :: &
+         f1_recv_s, f1_recv_e, f2_recv_s, f2_recv_e, f3_recv_s, f3_recv_e
+      real(dp), device, dimension(:, :, :), intent(in) :: &
+         f1_send_s, f1_send_e, f2_send_s, f2_send_e, f3_send_s, f3_send_e
+      integer, intent(in) :: n_data, nproc, prev, next
+
+      integer :: req(12), err(12), ierr, tag = 1234
+
+      if (nproc == 1) then
+         f1_recv_s = f1_send_e
+         f1_recv_e = f1_send_s
+         f2_recv_s = f2_send_e
+         f2_recv_e = f2_send_s
+         f3_recv_s = f3_send_e
+         f3_recv_e = f3_send_s
+      else
+         call MPI_Isend(f1_send_s, n_data, MPI_DOUBLE_PRECISION, &
+                        prev, tag, MPI_COMM_WORLD, req(1), err(1))
+         call MPI_Irecv(f1_recv_e, n_data, MPI_DOUBLE_PRECISION, &
+                        next, tag, MPI_COMM_WORLD, req(2), err(2))
+         call MPI_Isend(f1_send_e, n_data, MPI_DOUBLE_PRECISION, &
+                        next, tag, MPI_COMM_WORLD, req(3), err(3))
+         call MPI_Irecv(f1_recv_s, n_data, MPI_DOUBLE_PRECISION, &
+                        prev, tag, MPI_COMM_WORLD, req(4), err(4))
+
+         call MPI_Isend(f2_send_s, n_data, MPI_DOUBLE_PRECISION, &
+                        prev, tag, MPI_COMM_WORLD, req(5), err(5))
+         call MPI_Irecv(f2_recv_e, n_data, MPI_DOUBLE_PRECISION, &
+                        next, tag, MPI_COMM_WORLD, req(6), err(6))
+         call MPI_Isend(f2_send_e, n_data, MPI_DOUBLE_PRECISION, &
+                        next, tag, MPI_COMM_WORLD, req(7), err(7))
+         call MPI_Irecv(f2_recv_s, n_data, MPI_DOUBLE_PRECISION, &
+                        prev, tag, MPI_COMM_WORLD, req(8), err(8))
+
+         call MPI_Isend(f3_send_s, n_data, MPI_DOUBLE_PRECISION, &
+                        prev, tag, MPI_COMM_WORLD, req(9), err(9))
+         call MPI_Irecv(f3_recv_e, n_data, MPI_DOUBLE_PRECISION, &
+                        next, tag, MPI_COMM_WORLD, req(10), err(10))
+         call MPI_Isend(f3_send_e, n_data, MPI_DOUBLE_PRECISION, &
+                        next, tag, MPI_COMM_WORLD, req(11), err(11))
+         call MPI_Irecv(f3_recv_s, n_data, MPI_DOUBLE_PRECISION, &
+                        prev, tag, MPI_COMM_WORLD, req(12), err(12))
+
+         call MPI_Waitall(12, req, MPI_STATUSES_IGNORE, ierr)
+      end if
+
+   end subroutine sendrecv_3fields
+
+end module m_cuda_sendrecv
diff --git a/tests/cuda/test_cuda_transeq.f90 b/tests/cuda/test_cuda_transeq.f90
@@ -5,7 +5,8 @@ program test_cuda_tridiag
 
    use m_common, only: dp, pi
    use m_cuda_common, only: SZ
-   use m_cuda_kernels_dist, only: transeq_3fused_dist, transeq_3fused_subs
+   use m_cuda_exec_dist, only: exec_dist_transeq_3fused
+   use m_cuda_sendrecv, only: sendrecv_fields, sendrecv_3fields
    use m_cuda_tdsops, only: cuda_tdsops_t
 
    implicit none
@@ -119,116 +120,25 @@ program test_cuda_tridiag
       v_send_s_dev(:, :, :) = v_dev(:, 1:4, :)
       v_send_e_dev(:, :, :) = v_dev(:, n - n_halo + 1:n, :)
 
-      ! halo exchange
-      if (nproc == 1) then
-         u_recv_s_dev = u_send_e_dev
-         u_recv_e_dev = u_send_s_dev
-         v_recv_s_dev = v_send_e_dev
-         v_recv_e_dev = v_send_s_dev
-      else
-         ! MPI send/recv for multi-rank simulations
-         call MPI_Isend(u_send_s_dev, SZ*n_halo*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag1, MPI_COMM_WORLD, &
-                        mpireq(1), srerr(1))
-         call MPI_Irecv(u_recv_e_dev, SZ*n_halo*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag1, MPI_COMM_WORLD, &
-                        mpireq(2), srerr(2))
-         call MPI_Isend(u_send_e_dev, SZ*n_halo*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag2, MPI_COMM_WORLD, &
-                        mpireq(3), srerr(3))
-         call MPI_Irecv(u_recv_s_dev, SZ*n_halo*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag2, MPI_COMM_WORLD, &
-                        mpireq(4), srerr(4))
-
-         call MPI_Isend(v_send_s_dev, SZ*n_halo*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag1, MPI_COMM_WORLD, &
-                        mpireq(5), srerr(5))
-         call MPI_Irecv(v_recv_e_dev, SZ*n_halo*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag1, MPI_COMM_WORLD, &
-                        mpireq(6), srerr(6))
-         call MPI_Isend(v_send_e_dev, SZ*n_halo*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag2, MPI_COMM_WORLD, &
-                        mpireq(7), srerr(7))
-         call MPI_Irecv(v_recv_s_dev, SZ*n_halo*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag2, MPI_COMM_WORLD, &
-                        mpireq(8), srerr(8))
-
-         call MPI_Waitall(8, mpireq, MPI_STATUSES_IGNORE, ierr)
-      end if
 
-      call transeq_3fused_dist<<<blocks, threads>>>( &
-         du_dev, dud_dev, d2u_dev, &
-         du_send_s_dev, du_send_e_dev, &
-         dud_send_s_dev, dud_send_e_dev, &
-         d2u_send_s_dev, d2u_send_e_dev, &
-         u_dev, u_recv_s_dev, u_recv_e_dev, &
-         v_dev, v_recv_s_dev, v_recv_e_dev, n, &
-         der1st%coeffs_s_dev, der1st%coeffs_e_dev, der1st%coeffs_dev, &
-         der1st%dist_fw_dev, der1st%dist_bw_dev, der1st%dist_af_dev, &
-         der2nd%coeffs_s_dev, der2nd%coeffs_e_dev, der2nd%coeffs_dev, &
-         der2nd%dist_fw_dev, der2nd%dist_bw_dev, der2nd%dist_af_dev &
-      )
+      ! halo exchange
+      call sendrecv_fields(u_recv_s_dev, u_recv_e_dev, &
+                           u_send_s_dev, u_send_e_dev, &
+                           SZ*4*n_block, nproc, pprev, pnext)
 
-      ! halo exchange for 2x2 systems
-      if (nproc == 1) then
-         du_recv_s_dev = du_send_e_dev
-         du_recv_e_dev = du_send_s_dev
-         dud_recv_s_dev = dud_send_e_dev
-         dud_recv_e_dev = dud_send_s_dev
-         d2u_recv_s_dev = d2u_send_e_dev
-         d2u_recv_e_dev = d2u_send_s_dev
-      else
-         ! MPI send/recv for multi-rank simulations
-         call MPI_Isend(du_send_s_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag1, MPI_COMM_WORLD, &
-                        mpireq(1), srerr(1))
-         call MPI_Irecv(du_recv_e_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag2, MPI_COMM_WORLD, &
-                        mpireq(2), srerr(2))
-         call MPI_Isend(du_send_e_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag2, MPI_COMM_WORLD, &
-                        mpireq(3), srerr(3))
-         call MPI_Irecv(du_recv_s_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag1, MPI_COMM_WORLD, &
-                        mpireq(4), srerr(4))
-
-         call MPI_Isend(dud_send_s_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag1, MPI_COMM_WORLD, &
-                        mpireq(5), srerr(5))
-         call MPI_Irecv(dud_recv_e_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag2, MPI_COMM_WORLD, &
-                        mpireq(6), srerr(6))
-         call MPI_Isend(dud_send_e_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag2, MPI_COMM_WORLD, &
-                        mpireq(7), srerr(7))
-         call MPI_Irecv(dud_recv_s_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag1, MPI_COMM_WORLD, &
-                        mpireq(8), srerr(8))
-
-         call MPI_Isend(d2u_send_s_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag1, MPI_COMM_WORLD, &
-                        mpireq(9), srerr(9))
-         call MPI_Irecv(d2u_recv_e_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag2, MPI_COMM_WORLD, &
-                        mpireq(10), srerr(10))
-         call MPI_Isend(d2u_send_e_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pnext, tag2, MPI_COMM_WORLD, &
-                        mpireq(11), srerr(11))
-         call MPI_Irecv(d2u_recv_s_dev, SZ*n_block, &
-                        MPI_DOUBLE_PRECISION, pprev, tag1, MPI_COMM_WORLD, &
-                        mpireq(12), srerr(12))
-
-         call MPI_Waitall(12, mpireq, MPI_STATUSES_IGNORE, ierr)
-      end if
+      call sendrecv_fields(v_recv_s_dev, v_recv_e_dev, &
+                           v_send_s_dev, v_send_e_dev, &
+                           SZ*4*n_block, nproc, pprev, pnext)
 
-      call transeq_3fused_subs<<<blocks, threads>>>( &
-         r_u_dev, v_dev, du_dev, dud_dev, d2u_dev, &
-         du_recv_s_dev, du_recv_e_dev, &
-         dud_recv_s_dev, dud_recv_e_dev, &
-         d2u_recv_s_dev, d2u_recv_e_dev, &
-         der1st%dist_sa_dev, der1st%dist_sc_dev, &
-         der2nd%dist_sa_dev, der2nd%dist_sc_dev, &
-         n, nu &
+      call exec_dist_transeq_3fused( &
+         r_u_dev, &
+         u_dev, u_recv_s_dev, u_recv_e_dev, &
+         v_dev, v_recv_s_dev, v_recv_e_dev, &
+         du_dev, dud_dev, d2u_dev, &
+         du_send_s_dev, du_send_e_dev, du_recv_s_dev, du_recv_e_dev, &
+         dud_send_s_dev, dud_send_e_dev, dud_recv_s_dev, dud_recv_e_dev, &
+         d2u_send_s_dev, d2u_send_e_dev, d2u_recv_s_dev, d2u_recv_e_dev, &
+         der1st, der2nd, nu, nproc, pprev, pnext, blocks, threads &
       )
    end do
 
diff --git a/tests/cuda/test_cuda_tridiag.f90 b/tests/cuda/test_cuda_tridiag.f90

Original file line number	Diff line number	Diff line change
`@@ -13,7 +13,9 @@ set(SRC`
`13`	`13`	`set(CUDASRC`
`14`	`14`	`cuda/common.f90`
`15`	`15`	`cuda/cuda_allocator.f90`
	`16`	`+ cuda/exec_dist.f90`
`16`	`17`	`cuda/kernels_dist.f90`
	`18`	`+ cuda/sendrecv.f90`
`17`	`19`	`cuda/tdsops.f90`
`18`	`20`	`)`
`19`	`21`