HPCSys-Lab
diff --git a/‎examples/acoustic_2D.py‎
Lines changed: 35 additions & 6 deletions b/‎examples/acoustic_2D.py‎
Lines changed: 35 additions & 6 deletions
diff --git a/‎examples/acoustic_2D_density.py‎
Lines changed: 35 additions & 4 deletions b/‎examples/acoustic_2D_density.py‎
Lines changed: 35 additions & 4 deletions
diff --git a/‎examples/acoustic_3D.py‎
Lines changed: 34 additions & 6 deletions b/‎examples/acoustic_3D.py‎
Lines changed: 34 additions & 6 deletions
diff --git a/‎examples/acoustic_3D_density.py‎
Lines changed: 35 additions & 6 deletions b/‎examples/acoustic_3D_density.py‎
Lines changed: 35 additions & 6 deletions
diff --git a/‎simwave/kernel/backend/c_code/forward/constant_density/2d/wave.c‎
Lines changed: 79 additions & 1 deletion b/‎simwave/kernel/backend/c_code/forward/constant_density/2d/wave.c‎
Lines changed: 79 additions & 1 deletion
@@ -5,14 +5,43 @@
 import numpy as np
 
 
+# available language options:
+# c (sequential)
+# cpu_openmp (parallel CPU)
+# gpu_openmp (GPU)
+# gpu_openacc (GPU)
+compiler_options = {
+    'c': {
+        'cc': 'gcc',
+        'language': 'c',
+        'cflags': '-O3 -fPIC -ffast-math -Wall -std=c99 -shared'
+    },
+    'cpu_openmp': {
+        'cc': 'gcc',
+        'language': 'cpu_openmp',
+        'cflags': '-O3 -fPIC -ffast-math -Wall -std=c99 -shared -fopenmp'
+    },
+    'gpu_openmp': {
+        'cc': 'clang',
+        'language': 'gpu_openmp',
+        'cflags': '-O3 -fPIC -ffast-math -fopenmp \
+                   -fopenmp-targets=nvptx64-nvidia-cuda \
+                   -Xopenmp-target -march=sm_75'
+    },
+    'gpu_openacc': {
+        'cc': 'pgcc',
+        'language': 'gpu_openacc',
+        'cflags': '-O3 -fPIC -acc:gpu -gpu=pinned -mp'
+    },
+}
+
+selected_compiler = compiler_options['c']
+
 # set compiler options
-# available language options: c (sequential) or  cpu_openmp (parallel CPU)
 compiler = Compiler(
-    cc='gcc',
-    language='cpu_openmp',
-    cflags='-O3 -fPIC -ffast-math -Wall -std=c99 -shared'
-    # cflags='-O3 -fPIC -ffast-math -fopenmp \
-    #       -fopenmp-targets=nvptx64-nvidia-cuda -Xopenmp-target -march=sm_75'
+    cc=selected_compiler['cc'],
+    language=selected_compiler['language'],
+    cflags=selected_compiler['cflags']
 )
 
 # Velocity model
 
@@ -5,12 +5,43 @@
 import numpy as np
 
 
+# available language options:
+# c (sequential)
+# cpu_openmp (parallel CPU)
+# gpu_openmp (GPU)
+# gpu_openacc (GPU)
+compiler_options = {
+    'c': {
+        'cc': 'gcc',
+        'language': 'c',
+        'cflags': '-O3 -fPIC -ffast-math -Wall -std=c99 -shared'
+    },
+    'cpu_openmp': {
+        'cc': 'gcc',
+        'language': 'cpu_openmp',
+        'cflags': '-O3 -fPIC -ffast-math -Wall -std=c99 -shared -fopenmp'
+    },
+    'gpu_openmp': {
+        'cc': 'clang',
+        'language': 'gpu_openmp',
+        'cflags': '-O3 -fPIC -ffast-math -fopenmp \
+                   -fopenmp-targets=nvptx64-nvidia-cuda \
+                   -Xopenmp-target -march=sm_75'
+    },
+    'gpu_openacc': {
+        'cc': 'pgcc',
+        'language': 'gpu_openacc',
+        'cflags': '-O3 -fPIC -acc:gpu -gpu=pinned -mp'
+    },
+}
+
+selected_compiler = compiler_options['c']
+
 # set compiler options
-# available language options: c (sequential) or  cpu_openmp (parallel CPU)
 compiler = Compiler(
-    cc='gcc',
-    language='cpu_openmp',
-    cflags='-O3 -fPIC -ffast-math -Wall -std=c99 -shared'
+    cc=selected_compiler['cc'],
+    language=selected_compiler['language'],
+    cflags=selected_compiler['cflags']
 )
 
 # Velocity model
 
@@ -4,15 +4,43 @@
 )
 import numpy as np
 
+# available language options:
+# c (sequential)
+# cpu_openmp (parallel CPU)
+# gpu_openmp (GPU)
+# gpu_openacc (GPU)
+compiler_options = {
+    'c': {
+        'cc': 'gcc',
+        'language': 'c',
+        'cflags': '-O3 -fPIC -ffast-math -Wall -std=c99 -shared'
+    },
+    'cpu_openmp': {
+        'cc': 'gcc',
+        'language': 'cpu_openmp',
+        'cflags': '-O3 -fPIC -ffast-math -Wall -std=c99 -shared -fopenmp'
+    },
+    'gpu_openmp': {
+        'cc': 'clang',
+        'language': 'gpu_openmp',
+        'cflags': '-O3 -fPIC -ffast-math -fopenmp \
+                   -fopenmp-targets=nvptx64-nvidia-cuda \
+                   -Xopenmp-target -march=sm_75'
+    },
+    'gpu_openacc': {
+        'cc': 'pgcc',
+        'language': 'gpu_openacc',
+        'cflags': '-O3 -fPIC -acc:gpu -gpu=pinned -mp -DDEVICEID=2'
+    },
+}
+
+selected_compiler = compiler_options['c']
 
 # set compiler options
-# available language options: c (sequential) or  cpu_openmp (parallel CPU)
 compiler = Compiler(
-    cc='gcc',
-    language='cpu_openmp',
-    cflags='-O3 -fPIC -ffast-math -Wall -std=c99 -shared'
-    # cflags='-O3 -fPIC -ffast-math -fopenmp \
-    #       -fopenmp-targets=nvptx64-nvidia-cuda -Xopenmp-target -march=sm_75'
+    cc=selected_compiler['cc'],
+    language=selected_compiler['language'],
+    cflags=selected_compiler['cflags']
 )
 
 # Velocity model
 
@@ -5,14 +5,43 @@
 import numpy as np
 
 
+# available language options:
+# c (sequential)
+# cpu_openmp (parallel CPU)
+# gpu_openmp (GPU)
+# gpu_openacc (GPU)
+compiler_options = {
+    'c': {
+        'cc': 'gcc',
+        'language': 'c',
+        'cflags': '-O3 -fPIC -ffast-math -Wall -std=c99 -shared'
+    },
+    'cpu_openmp': {
+        'cc': 'gcc',
+        'language': 'cpu_openmp',
+        'cflags': '-O3 -fPIC -ffast-math -Wall -std=c99 -shared -fopenmp'
+    },
+    'gpu_openmp': {
+        'cc': 'clang',
+        'language': 'gpu_openmp',
+        'cflags': '-O3 -fPIC -ffast-math -fopenmp \
+                   -fopenmp-targets=nvptx64-nvidia-cuda \
+                   -Xopenmp-target -march=sm_75'
+    },
+    'gpu_openacc': {
+        'cc': 'pgcc',
+        'language': 'gpu_openacc',
+        'cflags': '-O3 -fPIC -acc:gpu -gpu=pinned -mp'
+    },
+}
+
+selected_compiler = compiler_options['c']
+
 # set compiler options
-# available language options: c (sequential) or  cpu_openmp (parallel CPU)
 compiler = Compiler(
-    cc='gcc',
-    language='cpu_openmp',
-    cflags='-O3 -fPIC -ffast-math -Wall -std=c99 -shared'
-    # cflags='-O3 -fPIC -ffast-math -fopenmp \
-    #       -fopenmp-targets=nvptx64-nvidia-cuda -Xopenmp-target -march=sm_75'
+    cc=selected_compiler['cc'],
+    language=selected_compiler['language'],
+    cflags=selected_compiler['cflags']
 )
 
 # Velocity model
 
@@ -7,6 +7,10 @@
     #include <omp.h>
 #endif
 
+#if defined(GPU_OPENACC)
+    #include <openacc.h>
+#endif
+
 // use single (float) or double precision
 // according to the value passed in the compilation cmd
 #if defined(FLOAT)
@@ -75,6 +79,31 @@ double forward(f_type *u, f_type *velocity, f_type *damp,
     #pragma omp target enter data map(to: receivers[:shot_record_size])
     #endif
 
+    #ifdef GPU_OPENACC
+
+    // select the device
+    #ifdef DEVICEID
+    acc_init(acc_device_nvidia);
+    acc_set_device_num(DEVICEID, acc_device_nvidia);
+    #endif
+
+    size_t shot_record_size = wavelet_size * num_receivers;
+    size_t u_size = num_snapshots * domain_size;
+
+    #pragma acc enter data copyin(u[:u_size])
+    #pragma acc enter data copyin(velocity[:domain_size])
+    #pragma acc enter data copyin(damp[:domain_size])
+    #pragma acc enter data copyin(coeff[:stencil_radius+1])
+    #pragma acc enter data copyin(src_points_interval[:src_points_interval_size])
+    #pragma acc enter data copyin(src_points_values[:src_points_values_size])
+    #pragma acc enter data copyin(src_points_values_offset[:num_sources])
+    #pragma acc enter data copyin(rec_points_interval[:rec_points_interval_size])
+    #pragma acc enter data copyin(rec_points_values[:rec_points_values_size])
+    #pragma acc enter data copyin(rec_points_values_offset[:num_receivers])
+    #pragma acc enter data copyin(wavelet[:wavelet_size * wavelet_count])
+    #pragma acc enter data copyin(receivers[:shot_record_size])
+    #endif
+
     // wavefield modeling
     for(size_t n = begin_timestep; n <= end_timestep; n++) {
 
@@ -104,6 +133,10 @@ double forward(f_type *u, f_type *velocity, f_type *damp,
         #pragma omp target teams distribute parallel for collapse(2)
         #endif
 
+        #ifdef GPU_OPENACC
+        #pragma acc parallel loop collapse(2) present(coeff,damp,u,velocity)
+        #endif
+
         for(size_t i = stencil_radius; i < nz - stencil_radius; i++) {
             for(size_t j = stencil_radius; j < nx - stencil_radius; j++) {
                 // index of the current point in the grid
@@ -151,6 +184,10 @@ double forward(f_type *u, f_type *velocity, f_type *damp,
         #pragma omp target teams distribute parallel for
         #endif
 
+        #ifdef GPU_OPENACC
+        #pragma acc parallel loop present(src_points_interval,src_points_values,src_points_values_offset,u,velocity,wavelet)
+        #endif
+
         // for each source
         for(size_t src = 0; src < num_sources; src++){
 
@@ -201,6 +238,10 @@ double forward(f_type *u, f_type *velocity, f_type *damp,
                         #if defined(CPU_OPENMP) || defined(GPU_OPENMP)
                         #pragma omp atomic
                         #endif
+
+                        #ifdef GPU_OPENACC
+                        #pragma acc atomic update
+                        #endif
                         u[next_snapshot] += value;
 
                         kws_index_x++;
@@ -230,6 +271,11 @@ double forward(f_type *u, f_type *velocity, f_type *damp,
         #ifdef GPU_OPENMP
         #pragma omp target teams distribute parallel for
         #endif
+
+        #ifdef GPU_OPENACC
+        #pragma acc parallel loop present(u)
+        #endif
+
         for(size_t i = stencil_radius; i < nz - stencil_radius; i++){
 
             // null dirichlet on the left
@@ -274,6 +320,11 @@ double forward(f_type *u, f_type *velocity, f_type *damp,
         #ifdef GPU_OPENMP
         #pragma omp target teams distribute parallel for
         #endif
+
+        #ifdef GPU_OPENACC
+        #pragma acc parallel loop present(u)
+        #endif
+
         for(size_t j = stencil_radius; j < nx - stencil_radius; j++){
 
             // null dirichlet on the top
@@ -322,6 +373,10 @@ double forward(f_type *u, f_type *velocity, f_type *damp,
         #pragma omp target teams distribute parallel for
         #endif
 
+        #ifdef GPU_OPENACC
+        #pragma acc parallel loop present(rec_points_interval,rec_points_values,rec_points_values_offset,u,receivers)
+        #endif
+
         // for each receiver
         for(size_t rec = 0; rec < num_receivers; rec++){
 
@@ -391,7 +446,11 @@ double forward(f_type *u, f_type *velocity, f_type *damp,
                     #endif
 
                     #ifdef GPU_OPENMP
-                    #pragma omp target teams distribute parallel for
+                    #pragma omp target teams distribute parallel for collapse(2)
+                    #endif
+
+                    #ifdef GPU_OPENACC
+                    #pragma acc parallel loop collapse(2) present(u)
                     #endif
 
                     // exchange of values required
@@ -435,6 +494,25 @@ double forward(f_type *u, f_type *velocity, f_type *damp,
     #pragma omp target exit data map(delete: wavelet[:wavelet_size * wavelet_count])
     #endif
 
+    #ifdef GPU_OPENACC
+    #pragma acc exit data copyout(receivers[:shot_record_size])
+    #pragma acc exit data copyout(u[:u_size])
+
+    #pragma acc exit data delete(receivers[:shot_record_size])
+    #pragma acc exit data delete(u[:u_size])
+
+    #pragma acc exit data delete(velocity[:domain_size])
+    #pragma acc exit data delete(damp[:domain_size])
+    #pragma acc exit data delete(coeff[:stencil_radius+1])
+    #pragma acc exit data delete(src_points_interval[:src_points_interval_size])
+    #pragma acc exit data delete(src_points_values[:src_points_values_size])
+    #pragma acc exit data delete(src_points_values_offset[:num_sources])
+    #pragma acc exit data delete(rec_points_interval[:rec_points_interval_size])
+    #pragma acc exit data delete(rec_points_values[:rec_points_values_size])
+    #pragma acc exit data delete(rec_points_values_offset[:num_receivers])
+    #pragma acc exit data delete(wavelet[:wavelet_size * wavelet_count])
+    #endif
+
     // get the end time
     gettimeofday(&time_end, NULL);