refresh FFT code to master based on comment

danieljvickers · danieljvickers · commit 90639b23ca20 · 2025-11-16T11:37:44.000-06:00
diff --git a/src/simulation/m_fftw.fpp b/src/simulation/m_fftw.fpp
@@ -137,24 +137,24 @@ contains
         if (bc_y%beg >= 0) return
 #if defined(MFC_GPU)
 
-        $:GPU_PARALLEL_LOOP(private='[j,k,l]', collapse=3)
-        do k = 1, sys_size
-            do j = 0, m
-                do l = 1, cmplx_size
-                    data_fltr_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size) = (0_dp, 0_dp)
+        $:GPU_PARALLEL_LOOP(collapse=3)
+            do k = 1, sys_size
+                do j = 0, m
+                    do l = 1, cmplx_size
+                        data_fltr_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size) = (0_dp, 0_dp)
+                    end do
                 end do
             end do
-        end do
         $:END_GPU_PARALLEL_LOOP()
 
-        $:GPU_PARALLEL_LOOP(private='[j,k,l]', collapse=3)
-        do k = 1, sys_size
-            do j = 0, m
-                do l = 0, p
-                    data_real_gpu(l + j*real_size + 1 + (k - 1)*real_size*x_size) = q_cons_vf(k)%sf(j, 0, l)
+        $:GPU_PARALLEL_LOOP(collapse=3)
+            do k = 1, sys_size
+                do j = 0, m
+                    do l = 0, p
+                        data_real_gpu(l + j*real_size + 1 + (k - 1)*real_size*x_size) = q_cons_vf(k)%sf(j, 0, l)
+                    end do
                 end do
             end do
-        end do
         $:END_GPU_PARALLEL_LOOP()
 
         #:call GPU_HOST_DATA(use_device_addr='[data_real_gpu, data_cmplx_gpu, data_fltr_cmplx_gpu]')
@@ -168,14 +168,14 @@ contains
         Nfq = 3
         $:GPU_UPDATE(device='[Nfq]')
 
-        $:GPU_PARALLEL_LOOP(private='[j,k,l]', collapse=3)
-        do k = 1, sys_size
-            do j = 0, m
-                do l = 1, Nfq
-                    data_fltr_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size) = data_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size)
+        $:GPU_PARALLEL_LOOP(collapse=3)
+            do k = 1, sys_size
+                do j = 0, m
+                    do l = 1, Nfq
+                        data_fltr_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size) = data_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size)
+                    end do
                 end do
             end do
-        end do
         $:END_GPU_PARALLEL_LOOP()
 
         #:call GPU_HOST_DATA(use_device_addr='[data_real_gpu, data_cmplx_gpu, data_fltr_cmplx_gpu]')
@@ -187,39 +187,71 @@ contains
 #endif
         #:endcall GPU_HOST_DATA
 
-        $:GPU_PARALLEL_LOOP(private='[j,k,l]', collapse=3)
-        do k = 1, sys_size
-            do j = 0, m
-                do l = 0, p
-                    data_real_gpu(l + j*real_size + 1 + (k - 1)*real_size*x_size) = data_real_gpu(l + j*real_size + 1 + (k - 1)*real_size*x_size)/real(real_size, dp)
-                    q_cons_vf(k)%sf(j, 0, l) = data_real_gpu(l + j*real_size + 1 + (k - 1)*real_size*x_size)
+        $:GPU_PARALLEL_LOOP(collapse=3)
+            do k = 1, sys_size
+                do j = 0, m
+                    do l = 0, p
+                        data_real_gpu(l + j*real_size + 1 + (k - 1)*real_size*x_size) = data_real_gpu(l + j*real_size + 1 + (k - 1)*real_size*x_size)/real(real_size, dp)
+                        q_cons_vf(k)%sf(j, 0, l) = data_real_gpu(l + j*real_size + 1 + (k - 1)*real_size*x_size)
+                    end do
                 end do
             end do
-        end do
         $:END_GPU_PARALLEL_LOOP()
 
         do i = 1, fourier_rings
 
-            $:GPU_PARALLEL_LOOP(private='[j,k,l]', collapse=3)
-            do k = 1, sys_size
-                do j = 0, m
-                    do l = 1, cmplx_size
-                        data_fltr_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size) = (0_dp, 0_dp)
+            $:GPU_PARALLEL_LOOP(collapse=3)
+                do k = 1, sys_size
+                    do j = 0, m
+                        do l = 1, cmplx_size
+                            data_fltr_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size) = (0_dp, 0_dp)
+                        end do
                     end do
+                end do
+            $:END_GPU_PARALLEL_LOOP()
 
+            $:GPU_PARALLEL_LOOP(collapse=3, firstprivate='[i]')
+                do k = 1, sys_size
+                    do j = 0, m
+                        do l = 0, p
+                            data_real_gpu(l + j*real_size + 1 + (k - 1)*real_size*x_size) = q_cons_vf(k)%sf(j, i, l)
+                        end do
+                    end do
+                end do
+            $:END_GPU_PARALLEL_LOOP()
+
+            #:call GPU_HOST_DATA(use_device_addr='[data_real_gpu, data_cmplx_gpu, data_fltr_cmplx_gpu]')
+#if defined(__PGI)
+                ierr = cufftExecD2Z(fwd_plan_gpu, data_real_gpu, data_cmplx_gpu)
+#else
+                ierr = hipfftExecD2Z(fwd_plan_gpu, data_real_gpu, data_cmplx_gpu)
+                call hipCheck(hipDeviceSynchronize())
+#endif
+            #:endcall GPU_HOST_DATA
+
+            Nfq = min(floor(2_dp*real(i, dp)*pi), cmplx_size)
+            $:GPU_UPDATE(device='[Nfq]')
+
+            $:GPU_PARALLEL_LOOP(collapse=3)
+                do k = 1, sys_size
+                    do j = 0, m
+                        do l = 1, Nfq
+                            data_fltr_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size) = data_cmplx_gpu(l + j*cmplx_size + (k - 1)*cmplx_size*x_size)
+                        end do
+                    end do
                 end do
-                $:END_GPU_PARALLEL_LOOP()
+            $:END_GPU_PARALLEL_LOOP()
 
-                #:call GPU_HOST_DATA(use_device_addr='[data_real_gpu, data_cmplx_gpu, data_fltr_cmplx_gpu]')
+            #:call GPU_HOST_DATA(use_device_addr='[data_real_gpu, data_cmplx_gpu, data_fltr_cmplx_gpu]')
 #if defined(__PGI)
-                    ierr = cufftExecZ2D(bwd_plan_gpu, data_fltr_cmplx_gpu, data_real_gpu)
+                ierr = cufftExecZ2D(bwd_plan_gpu, data_fltr_cmplx_gpu, data_real_gpu)
 #else
-                    ierr = hipfftExecZ2D(bwd_plan_gpu, data_fltr_cmplx_gpu, data_real_gpu)
-                    call hipCheck(hipDeviceSynchronize())
+                ierr = hipfftExecZ2D(bwd_plan_gpu, data_fltr_cmplx_gpu, data_real_gpu)
+                call hipCheck(hipDeviceSynchronize())
 #endif
-                #:endcall GPU_HOST_DATA
+            #:endcall GPU_HOST_DATA
 
-                $:GPU_PARALLEL_LOOP(collapse=3, firstprivate='[i]')
+            $:GPU_PARALLEL_LOOP(collapse=3, firstprivate='[i]')
                 do k = 1, sys_size
                     do j = 0, m
                         do l = 0, p
@@ -228,66 +260,66 @@ contains
                         end do
                     end do
                 end do
-                $:END_GPU_PARALLEL_LOOP()
-            end do
+            $:END_GPU_PARALLEL_LOOP()
+        end do
 
 #else
-            Nfq = 3
+        Nfq = 3
+        do j = 0, m
+            do k = 1, sys_size
+                data_fltr_cmplx(:) = (0_dp, 0_dp)
+                data_real(1:p + 1) = q_cons_vf(k)%sf(j, 0, 0:p)
+                call fftw_execute_dft_r2c(fwd_plan, data_real, data_cmplx)
+                data_fltr_cmplx(1:Nfq) = data_cmplx(1:Nfq)
+                call fftw_execute_dft_c2r(bwd_plan, data_fltr_cmplx, data_real)
+                data_real(:) = data_real(:)/real(real_size, dp)
+                q_cons_vf(k)%sf(j, 0, 0:p) = data_real(1:p + 1)
+            end do
+        end do
+
+        ! Apply Fourier filter to additional rings
+        do i = 1, fourier_rings
+            Nfq = min(floor(2_dp*real(i, dp)*pi), cmplx_size)
             do j = 0, m
                 do k = 1, sys_size
                     data_fltr_cmplx(:) = (0_dp, 0_dp)
-                    data_real(1:p + 1) = q_cons_vf(k)%sf(j, 0, 0:p)
+                    data_real(1:p + 1) = q_cons_vf(k)%sf(j, i, 0:p)
                     call fftw_execute_dft_r2c(fwd_plan, data_real, data_cmplx)
                     data_fltr_cmplx(1:Nfq) = data_cmplx(1:Nfq)
                     call fftw_execute_dft_c2r(bwd_plan, data_fltr_cmplx, data_real)
                     data_real(:) = data_real(:)/real(real_size, dp)
-                    q_cons_vf(k)%sf(j, 0, 0:p) = data_real(1:p + 1)
-                end do
-            end do
-
-            ! Apply Fourier filter to additional rings
-            do i = 1, fourier_rings
-                Nfq = min(floor(2_dp*real(i, dp)*pi), cmplx_size)
-                do j = 0, m
-                    do k = 1, sys_size
-                        data_fltr_cmplx(:) = (0_dp, 0_dp)
-                        data_real(1:p + 1) = q_cons_vf(k)%sf(j, i, 0:p)
-                        call fftw_execute_dft_r2c(fwd_plan, data_real, data_cmplx)
-                        data_fltr_cmplx(1:Nfq) = data_cmplx(1:Nfq)
-                        call fftw_execute_dft_c2r(bwd_plan, data_fltr_cmplx, data_real)
-                        data_real(:) = data_real(:)/real(real_size, dp)
-                        q_cons_vf(k)%sf(j, i, 0:p) = data_real(1:p + 1)
-                    end do
+                    q_cons_vf(k)%sf(j, i, 0:p) = data_real(1:p + 1)
                 end do
             end do
+        end do
 #endif
 
-            end subroutine s_apply_fourier_filter
+    end subroutine s_apply_fourier_filter
 
-            !>  The purpose of this subroutine is to destroy the fftw plan
+    !>  The purpose of this subroutine is to destroy the fftw plan
         !!      that will be used in the forward and backward DFTs when
         !!      applying the Fourier filter in the azimuthal direction.
-            impure subroutine s_finalize_fftw_module
+    impure subroutine s_finalize_fftw_module
 
 #if defined(MFC_GPU)
-                integer :: ierr !< Generic flag used to identify and report GPU errors
-                @:DEALLOCATE(data_real_gpu, data_fltr_cmplx_gpu, data_cmplx_gpu)
+        integer :: ierr !< Generic flag used to identify and report GPU errors
+        @:DEALLOCATE(data_real_gpu, data_fltr_cmplx_gpu, data_cmplx_gpu)
 #if defined(__PGI)
 
-                ierr = cufftDestroy(fwd_plan_gpu)
-                ierr = cufftDestroy(bwd_plan_gpu)
+        ierr = cufftDestroy(fwd_plan_gpu)
+        ierr = cufftDestroy(bwd_plan_gpu)
 #else
-                ierr = hipfftDestroy(fwd_plan_gpu)
-                ierr = hipfftDestroy(bwd_plan_gpu)
+        ierr = hipfftDestroy(fwd_plan_gpu)
+        ierr = hipfftDestroy(bwd_plan_gpu)
 #endif
 #else
-                call fftw_free(fftw_real_data)
-                call fftw_free(fftw_cmplx_data)
-                call fftw_free(fftw_fltr_cmplx_data)
+        call fftw_free(fftw_real_data)
+        call fftw_free(fftw_cmplx_data)
+        call fftw_free(fftw_fltr_cmplx_data)
 
-                call fftw_destroy_plan(fwd_plan)
-                call fftw_destroy_plan(bwd_plan)
+        call fftw_destroy_plan(fwd_plan)
+        call fftw_destroy_plan(bwd_plan)
 #endif
 
-            end subroutine s_finalize_fftw_module
-            end module m_fftw
+    end subroutine s_finalize_fftw_module
+end module m_fftw