begin refactoring

Aympab · Aympab · commit ea48e666d48e · 2025-04-01T18:09:16.000Z
diff --git a/src/CMakeLists.txt b/src/CMakeLists.txt
@@ -1,18 +1,18 @@
 add_subdirectory(config)
-add_subdirectory(core)
+# add_subdirectory(core)
 
 function(add_bkma_executable name)
   add_executable(${name} ${name}.cpp)
 
   target_link_libraries(${name}
   PUBLIC
-  bkma::config
-  bkma::core)
+  bkma::config)
+  # bkma::core)
 
   target_include_directories(${name}
     PUBLIC
     ${CMAKE_SOURCE_DIR}/src/tools
-    ${CMAKE_SOURCE_DIR}/src/core
+    ${CMAKE_SOURCE_DIR}/src/core/bkma
     ${CMAKE_SOURCE_DIR}/src/solvers
     ${CMAKE_SOURCE_DIR}/src
   )
@@ -27,5 +27,5 @@ function(add_bkma_executable name)
 endfunction()
 
 # Add executables
-add_bkma_executable(advection)
+# add_bkma_executable(advection)
 add_bkma_executable(conv1d)
diff --git a/src/conv1d.cpp b/src/conv1d.cpp
@@ -104,9 +104,9 @@ main(int argc, char **argv) {
     const auto channel_out = params.channel_out;
     const auto length = params.length;
 
-    const auto n0 = params.n0;                    // n
+    const auto n0 = params.n0;   // n
     const auto n1 = params.n1;   // l*oc
-    const auto n2 = params.n2;                    // n
+    const auto n2 = params.n2;   // n
     const auto k = params.k;
 
     span3d_t data(sycl::malloc_shared<real_t>(n0 * n1 * n2, Q), n0,
@@ -164,10 +164,13 @@ main(int argc, char **argv) {
 
     /* Warmup to JIT model */
     for (int i = 0; i < 3; ++i)
-        bkma_run(Q, warmup_data, solver, optim_params).wait();
+        bkma_run<ConvSolver, BkmaImpl::AdaptiveWg>(Q, warmup_data, solver,
+                                                   optim_params)
+            .wait();
 
     auto start = std::chrono::high_resolution_clock::now();
-    bkma_run(Q, data, solver, optim_params).wait();
+    bkma_run<ConvSolver, BkmaImpl::AdaptiveWg>(Q, data, solver, optim_params)
+        .wait();
     auto end = std::chrono::high_resolution_clock::now();
     const std::chrono::duration<double> elapsed_seconds = end - start;
 
diff --git a/src/core/bkma/AdaptiveWg.hpp b/src/core/bkma/AdaptiveWg.hpp
@@ -0,0 +1,140 @@
+#pragma once
+#include <bkma_tools.hpp>
+
+// //==============================================================================
+// class AdaptiveWg : public IAdvectorX {
+//     protected:
+//       using IAdvectorX::IAdvectorX;
+  
+//       /* We should be able to query max_batchs to the API.
+//                |    x    |   y/z   |
+//           CUDA:| 2**31-1 | 2**16-1 |
+//           HIP :| 2**32-1 | 2**32-1 |
+//           L0  :| 2**32-1 | 2**32-1 | (compile with -fno-sycl-query-fit-in-int)
+//           CPU :        a lot             */
+//       const size_t max_batchs_x_ = 65536 - 1;
+//       const size_t max_batchs_yz_ = 65536 - 1;
+  
+//       BatchConfig1D dispatch_dim0_;
+//       BatchConfig1D dispatch_dim2_;
+//       WorkItemDispatch local_size_;
+//       WorkGroupDispatch wg_dispatch_;
+  
+//     public:
+//       sycl::event operator()(sycl::queue &Q, real_t *fdist_dev,
+//                              const AdvectionSolver &solver) override;
+  
+//       AdaptiveWg() = delete;
+  
+//       AdaptiveWg(const AdvectionSolver &solver, sycl::queue q) {
+//           const auto n0 = solver.params.n0;
+//           const auto n1 = solver.params.n1;
+//           const auto n2 = solver.params.n2;
+  
+//           dispatch_dim0_ = init_1d_blocking(n0, max_batchs_x_);
+//           dispatch_dim2_ = init_1d_blocking(n2, max_batchs_yz_);
+  
+//           // SYCL query returns the size in bytes
+//           auto max_elem_local_mem =
+//               q.get_device().get_info<sycl::info::device::local_mem_size>() /
+//               sizeof(real_t);
+  
+//           local_size_.set_ideal_sizes(solver.params.pref_wg_size, n0, n1, n2);
+//           local_size_.adjust_sizes_mem_limit(max_elem_local_mem, n1);
+  
+//           wg_dispatch_.s0_ = solver.params.seq_size0;
+//           wg_dispatch_.s2_ = solver.params.seq_size2;
+  
+//           // TODO: this line is overriden inside the kernel!!! useless
+//           // wg_dispatch_.set_num_work_groups(n0, n2, dispatch_dim0_.n_batch_,
+//           //                                  dispatch_dim2_.n_batch_,
+//           //                                  local_size_.w0_, local_size_.w2_);
+//       }
+//   };
+
+// ==========================================
+// ==========================================
+template <MemorySpace MemType, class MySolver, BkmaImpl Impl>
+inline std::enable_if_t<Impl == BkmaImpl::AdaptiveWg, sycl::event>
+submit_kernels(sycl::queue &Q, span3d_t data, const MySolver &solver,
+               const size_t b0_size, const size_t b0_offset,
+               const size_t b2_size, const size_t b2_offset,
+               const size_t orig_w0, const size_t w1, const size_t orig_w2,
+               WorkGroupDispatch wg_dispatch,
+               span3d_t global_scratch = span3d_t{}) {
+
+    const auto w0 = sycl::min(orig_w0, b0_size);
+    const auto w2 = sycl::min(orig_w2, b2_size);
+
+    wg_dispatch.set_num_work_groups(b0_size, b2_size, 1, 1, w0, w2);
+    auto const seq_size0 = wg_dispatch.s0_;
+    auto const seq_size2 = wg_dispatch.s2_;
+    auto const g0 = wg_dispatch.g0_;
+    auto const g2 = wg_dispatch.g2_;
+
+    const sycl::range<3> global_size(g0 * w0, w1, g2 * w2);
+    const sycl::range<3> local_size(w0, w1, w2);
+
+    auto n0 = data.extent(0);
+    auto n1 = data.extent(1);
+    auto n2 = data.extent(2);
+
+    const auto window = solver.window();
+    const auto nw = n1 - (window-1);
+
+    return Q.submit([&](sycl::handler &cgh) {
+        auto mallocator = [&]() {
+            if constexpr (MemType == MemorySpace::Local) {
+                sycl::range<3> acc_range(w0, w2, nw);
+                return MemAllocator<MemType>(acc_range, cgh);
+            } else {
+                extents_t ext(b0_size, n2, n1);
+                return MemAllocator<MemType>(global_scratch);
+            }
+        }();
+
+        cgh.parallel_for(
+            sycl::nd_range<3>{global_size, local_size},
+            [=](auto itm) {
+                span3d_t scr(mallocator.get_pointer(),
+                             mallocator.get_extents());
+
+                const auto i1 = itm.get_local_id(1);
+                const auto local_i0 = compute_index<MemType>(itm, 0);
+                const auto local_i2 = compute_index<MemType>(itm, 2);
+
+                auto scratch_slice = std::experimental::submdspan(
+                    scr, local_i0, local_i2, std::experimental::full_extent);
+
+                const auto start_idx0 = b0_offset + itm.get_global_id(0);
+                const auto stop_idx0 = sycl::min(n0, start_idx0 + b0_size);
+                for (size_t global_i0 = start_idx0; global_i0 < stop_idx0;
+                     global_i0 += g0 * w0) {
+
+                    const auto start_idx2 = b2_offset + itm.get_global_id(2);
+                    const auto stop_idx2 = sycl::min(n2, start_idx2 + b2_size);
+                    for (size_t global_i2 = start_idx2; global_i2 < stop_idx2;
+                         global_i2 += g2 * w2) {
+
+                        auto data_slice = std::experimental::submdspan(
+                            data, global_i0, std::experimental::full_extent,
+                            global_i2);
+
+                        for (int ii1 = i1; ii1 < n1; ii1 += w1) {
+                            auto const iw = ii1 - (window - 1);
+                            if(iw >= 0)
+                                scratch_slice(iw) = solver(
+                                    data_slice, global_i0, ii1, global_i2);
+                        }
+
+                        sycl::group_barrier(itm.get_group());
+
+                        for (int iw = i1; iw < nw; iw += w1) {
+                            data_slice(iw) = scratch_slice(iw);
+                        }
+                    }   // end for ii2
+                }   // end for ii0
+            }       // end lambda in parallel_for
+        );          // end parallel_for nd_range
+    });      // end Q.submit
+}   // end submit_kernels
diff --git a/src/core/bkma/BasicRange.hpp b/src/core/bkma/BasicRange.hpp
@@ -0,0 +1,69 @@
+#pragma once
+#include <bkma_tools.hpp>
+// class BasicRange : public IAdvectorX {
+//     protected:
+//       sycl::queue q_;
+//       real_t *ftmp_;
+
+//     public:
+//       BasicRange(const AdvectionSolver &solver, sycl::queue q) {
+//           const auto n0 = solver.params.n0;
+//           const auto n1 = solver.params.n1;
+//           const auto n2 = solver.params.n2;
+
+//           ftmp_ = sycl::malloc_device<real_t>(n0 * n1 * n2, q_);
+//           q_.wait();
+//       }
+
+//       ~BasicRange() {
+//           sycl::free(ftmp_, q_);
+//           q_.wait();
+//       }
+
+//       sycl::event operator()(sycl::queue &Q, real_t *data,
+//                              const AdvectionSolver &solver) override;
+//   };
+
+template <MemorySpace MemType, class MySolver, BkmaImpl Impl>
+inline std::enable_if_t<Impl == BkmaImpl::BasicRange, sycl::event>
+submit_kernels(sycl::queue &Q, span3d_t data, const MySolver &solver,
+               const size_t b0_size, const size_t b0_offset,
+               const size_t b2_size, const size_t b2_offset,
+               const size_t orig_w0, const size_t w1, const size_t orig_w2,
+               WorkGroupDispatch wg_dispatch, span3d_t global_scratch) {
+
+    static_assert(
+        !(MemType == MemorySpace::Local && BkmaImpl::BasicRange == Impl),
+        "BasicRange is not supported with MemorySpace::Local");
+
+    auto n0 = data.extent(0);
+    auto n1 = data.extent(1);
+    auto n2 = data.extent(2);
+
+    sycl::range r3d(n0, n1, n2);
+
+    Q.submit([&](sycl::handler &cgh) {
+        cgh.parallel_for(r3d, [=](sycl::id<3> itm) {
+            const int i1 = itm[1];
+            const int i0 = itm[0];
+            const int i2 = itm[2];
+
+            global_scratch(i0, i1, i2) =
+                solver(std::experimental::submdspan(
+                           data, i0, std::experimental::full_extent, i2),
+                       i0, i1, i2);
+            // barrier
+        });   // end parallel_for
+    });       // end Q.submit
+    Q.wait();
+    // copy
+    return Q.submit([&](sycl::handler &cgh) {
+        cgh.parallel_for(r3d, [=](sycl::id<3> itm) {
+            const int i1 = itm[1];
+            const int i0 = itm[0];
+            const int i2 = itm[2];
+            data(i0, i1, i2) = global_scratch(i0, i1, i2);
+            // barrier
+        });   // end parallel_for
+    });       // end Q.submit
+}
diff --git a/src/core/bkma/MemorySpace.hpp b/src/core/bkma/MemorySpace.hpp
@@ -0,0 +1,70 @@
+#pragma once
+#include <sycl/sycl.hpp>
+
+#ifdef SYCL_IMPLEMENTATION_ONEAPI
+#define GET_POINTER get_multi_ptr<sycl::access::decorated::no>().get
+#else
+#define GET_POINTER get_pointer
+#endif
+
+//==============================================================================
+//==============================================================================
+enum class MemorySpace { Local, Global };
+
+template <MemorySpace MemType> struct MemAllocator;
+
+template <MemorySpace MemType>
+static inline size_t compute_index(const sycl::nd_item<3> &itm,
+                                   unsigned short dim);
+
+// ==========================================
+// ==========================================
+/* Local memory functions */
+template <> struct MemAllocator<MemorySpace::Local> {
+    local_acc acc_;
+    extents_t extents_;
+
+    [[nodiscard]] MemAllocator(sycl::range<3> range, sycl::handler &cgh)
+        : acc_(range, cgh), extents_(range.get(0), range.get(1), range.get(2)) {
+    }
+    [[nodiscard]] inline auto get_pointer() const { return acc_.GET_POINTER(); }
+
+    [[nodiscard]] inline auto get_extents() const { return extents_; }
+};
+
+template <>
+inline size_t
+compute_index<MemorySpace::Local>(const sycl::nd_item<3> &itm,
+                                  unsigned short dim) {
+    return itm.get_local_id(dim);
+}
+
+// ==========================================
+// ==========================================
+/* Global memory functions */
+template <> struct MemAllocator<MemorySpace::Global> {
+    span3d_t data_;
+
+    [[nodiscard]] MemAllocator(span3d_t global_scratch_)
+        : data_(global_scratch_){};
+
+    [[nodiscard]] inline size_t compute_index(const sycl::nd_item<3> &itm,
+                                              unsigned short dim) {
+        return itm.get_global_id(dim);
+    }
+
+    [[nodiscard]] inline auto get_pointer() const {
+        return data_.data_handle();
+    }
+
+    [[nodiscard]] inline auto get_extents() const {
+        return extents_t{data_.extent(0), data_.extent(1), data_.extent(2)};
+    }
+};
+
+template <>
+inline size_t
+compute_index<MemorySpace::Global>(const sycl::nd_item<3> &itm,
+                                   unsigned short dim) {
+    return itm.get_global_id(dim);
+}
diff --git a/src/core/bkma/NDRange.hpp b/src/core/bkma/NDRange.hpp
@@ -0,0 +1,40 @@
+#pragma once
+#include <bkma_tools.hpp>
+
+template <MemorySpace MemType, class MySolver, BkmaImpl Impl>
+inline std::enable_if_t<Impl == BkmaImpl::NDRange, sycl::event>
+submit_kernels(sycl::queue &Q, span3d_t data, const MySolver &solver,
+               const size_t b0_size, const size_t b0_offset,
+               const size_t b2_size, const size_t b2_offset,
+               const size_t orig_w0, const size_t w1, const size_t orig_w2,
+               WorkGroupDispatch wg_dispatch,
+               span3d_t global_scratch = span3d_t{}) {
+
+    const auto n0 = data.extent(0);
+    const auto n1 = data.extent(1);
+    const auto n2 = data.extent(2);
+
+    const sycl::range global_size{n0, n1, n2};
+    const sycl::range local_size{1, n1, 1};
+
+    return Q.submit([&](sycl::handler &cgh) {
+        sycl::local_accessor<real_t, 1> slice_ftmp(sycl::range<1>(n1), cgh);
+
+        cgh.parallel_for(sycl::nd_range<3>{global_size, local_size},
+                         [=](auto itm) {
+                             const int i1 = itm.get_local_id(1);
+                             const int i0 = itm.get_global_id(0);
+                             const int i2 = itm.get_global_id(2);
+
+                             auto slice = std::experimental::submdspan(
+                                 data, i0, std::experimental::full_extent, i2);
+
+                             slice_ftmp[i1] = solver(slice, i0, i1, i2);
+
+                             sycl::group_barrier(itm.get_group());
+
+                             slice(i1) = slice_ftmp[i1];
+                         }   // end lambda in parallel_for
+        );                   // end parallel_for nd_range
+    });                      // end Q.submit
+}
diff --git a/src/core/bkma/bkma.hpp b/src/core/bkma/bkma.hpp
@@ -0,0 +1,7 @@
+#pragma once
+#include <BasicRange.hpp>
+#include <NDRange.hpp>
+#include <AdaptiveWg.hpp>
+#include <bkma_tools.hpp>
+#include <MemorySpace.hpp>
+#include <bkma_run.hpp>
diff --git a/src/core/bkma/bkma_run.hpp b/src/core/bkma/bkma_run.hpp
diff --git a/src/core/bkma/bkma_tools.hpp b/src/core/bkma/bkma_tools.hpp
diff --git a/src/tools/init.hpp b/src/tools/init.hpp