[python][gpu] barrier support in kernel api (#197)

Hardcode84 · web-flow · commit aba6492ef177 · 2022-03-26T19:06:58.000+03:00
* Add GPUBarrierOp and spirv lowering
* Update kernel simulator to support barriers (using coroutines)
diff --git a/dpcomp_gpu_runtime/lib/kernel_api_stubs.cpp b/dpcomp_gpu_runtime/lib/kernel_api_stubs.cpp
@@ -47,6 +47,10 @@ _mlir_ciface_get_local_size(int64_t) {
   STUB();
 }
 
+extern "C" DPCOMP_GPU_RUNTIME_EXPORT void _mlir_ciface_kernel_barrier(int64_t) {
+  STUB();
+}
+
 #define ATOMIC_FUNC_DECL(op, suff, dt)                                         \
   extern "C" DPCOMP_GPU_RUNTIME_EXPORT dt _mlir_ciface_atomic_##op##_##suff(   \
       void *, dt) {                                                            \
diff --git a/mlir/include/mlir-extensions/dialect/gpu_runtime/IR/CMakeLists.txt b/mlir/include/mlir-extensions/dialect/gpu_runtime/IR/CMakeLists.txt
@@ -4,6 +4,8 @@ set(dialect_namespace gpu_runtime)
 set(LLVM_TARGET_DEFINITIONS ${dialect}.td)
 mlir_tablegen(${dialect}Enums.h.inc -gen-enum-decls)
 mlir_tablegen(${dialect}Enums.cpp.inc -gen-enum-defs)
+mlir_tablegen(${dialect}Attributes.h.inc -gen-attrdef-decls -attrdefs-dialect=gpu_runtime)
+mlir_tablegen(${dialect}Attributes.cpp.inc -gen-attrdef-defs -attrdefs-dialect=gpu_runtime)
 mlir_tablegen(${dialect}.h.inc -gen-op-decls)
 mlir_tablegen(${dialect}.cpp.inc -gen-op-defs)
 mlir_tablegen(${dialect}Dialect.h.inc -gen-dialect-decls -dialect=${dialect_namespace})
diff --git a/mlir/include/mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOps.td b/mlir/include/mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOps.td
@@ -22,6 +22,7 @@ include "mlir/Interfaces/InferTypeOpInterface.td"
 include "mlir/Interfaces/LoopLikeInterface.td"
 include "mlir/Interfaces/SideEffectInterfaces.td"
 include "mlir/Interfaces/ViewLikeInterface.td"
+include "mlir/IR/EnumAttr.td"
 
 def GpuRuntime_Dialect : Dialect {
   let name = "gpu_runtime";
@@ -40,6 +41,17 @@ def GpuRuntime_OpaqueType
                   "opaque_type">,
       BuildableType<"$_builder.getType<::gpu_runtime::OpaqueType>()"> {}
 
+def GpuRuntime_FenceFlags : I32EnumAttr<"FenceFlags",
+    "Kernel barrier and fence flags",
+    [
+      I32EnumAttrCase<"local", 1>,
+      I32EnumAttrCase<"global", 2>
+    ]>{
+  let genSpecializedAttr = 0;
+  let cppNamespace = "::gpu_runtime";
+}
+def GpuRuntime_FenceFlagsAttr : EnumAttr<GpuRuntime_Dialect, GpuRuntime_FenceFlags, "fenceFlags">;
+
 def CreateGpuStreamOp : GpuRuntime_Op<"create_gpu_stream", [NoSideEffect]> {
   let results = (outs GpuRuntime_OpaqueType : $result);
 
@@ -144,5 +156,13 @@ def GPUSuggestBlockSizeOp : GpuRuntime_Op<"suggest_block_size",
   }];
 }
 
+def GPUBarrierOp : GpuRuntime_Op<"barrier"> {
+  let summary = "Synchronizes all work items of a workgroup.";
+
+  let arguments = (ins GpuRuntime_FenceFlagsAttr:$flags);
+
+  let assemblyFormat = "$flags attr-dict";
+}
+
 #endif // GPURUNTIME_OPS
 
diff --git a/mlir/include/mlir-extensions/dialect/gpu_runtime/IR/gpu_runtime_ops.hpp b/mlir/include/mlir-extensions/dialect/gpu_runtime/IR/gpu_runtime_ops.hpp
@@ -27,6 +27,12 @@
 #include <mlir/Dialect/GPU/GPUDialect.h>
 
 #include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOpsDialect.h.inc"
+
+#include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOpsEnums.h.inc"
+
+#define GET_ATTRDEF_CLASSES
+#include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOpsAttributes.h.inc"
+
 #define GET_OP_CLASSES
 #include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOps.h.inc"
 
diff --git a/mlir/include/mlir-extensions/dialect/plier_util/PlierUtilOps.td b/mlir/include/mlir-extensions/dialect/plier_util/PlierUtilOps.td
@@ -16,7 +16,6 @@
 #define PLIER_UTIL_OPS
 
 include "mlir/IR/OpBase.td"
-include "mlir/Dialect/GPU/GPUBase.td"
 include "mlir/Interfaces/ControlFlowInterfaces.td"
 include "mlir/Interfaces/InferTypeOpInterface.td"
 include "mlir/Interfaces/LoopLikeInterface.td"
diff --git a/mlir/include/mlir-extensions/dialect/plier_util/dialect.hpp b/mlir/include/mlir-extensions/dialect/plier_util/dialect.hpp
@@ -24,8 +24,6 @@
 #include <mlir/Interfaces/SideEffectInterfaces.h>
 #include <mlir/Interfaces/ViewLikeInterface.h>
 
-#include <mlir/Dialect/GPU/GPUDialect.h>
-
 #include "mlir-extensions/dialect/plier_util/PlierUtilOpsDialect.h.inc"
 #include "mlir-extensions/dialect/plier_util/PlierUtilOpsEnums.h.inc"
 
diff --git a/mlir/lib/Conversion/gpu_to_gpu_runtime.cpp b/mlir/lib/Conversion/gpu_to_gpu_runtime.cpp
@@ -833,7 +833,7 @@ static mlir::Value lowerFloatSubAtomic(mlir::OpBuilder &builder,
 
 class ConvertAtomicOps : public mlir::OpConversionPattern<mlir::func::CallOp> {
 public:
-  using mlir::OpConversionPattern<mlir::func::CallOp>::OpConversionPattern;
+  using OpConversionPattern::OpConversionPattern;
 
   mlir::LogicalResult
   matchAndRewrite(mlir::func::CallOp op, mlir::func::CallOp::Adaptor adaptor,
@@ -901,6 +901,32 @@ class ConvertAtomicOps : public mlir::OpConversionPattern<mlir::func::CallOp> {
   }
 };
 
+class ConvertBarrierOp
+    : public mlir::OpConversionPattern<gpu_runtime::GPUBarrierOp> {
+public:
+  using OpConversionPattern::OpConversionPattern;
+
+  mlir::LogicalResult
+  matchAndRewrite(gpu_runtime::GPUBarrierOp op,
+                  gpu_runtime::GPUBarrierOp::Adaptor adaptor,
+                  mlir::ConversionPatternRewriter &rewriter) const override {
+    auto scope = mlir::spirv::Scope::Workgroup;
+    mlir::spirv::MemorySemantics semantics;
+    if (adaptor.flags() == gpu_runtime::FenceFlags::global) {
+      semantics = mlir::spirv::MemorySemantics::SequentiallyConsistent |
+                  mlir::spirv::MemorySemantics::CrossWorkgroupMemory;
+    } else if (adaptor.flags() == gpu_runtime::FenceFlags::local) {
+      semantics = mlir::spirv::MemorySemantics::SequentiallyConsistent |
+                  mlir::spirv::MemorySemantics::WorkgroupMemory;
+    } else {
+      return mlir::failure();
+    }
+    rewriter.replaceOpWithNewOp<mlir::spirv::ControlBarrierOp>(op, scope, scope,
+                                                               semantics);
+    return mlir::success();
+  }
+};
+
 // TODO: something better
 class ConvertFunc : public mlir::OpConversionPattern<mlir::FuncOp> {
 public:
@@ -980,11 +1006,11 @@ struct GPUToSpirvPass
     mlir::arith::populateArithmeticToSPIRVPatterns(typeConverter, patterns);
     mlir::populateMathToSPIRVPatterns(typeConverter, patterns);
 
-    patterns
-        .insert<ConvertSubviewOp, ConvertCastOp<mlir::memref::CastOp>,
-                ConvertCastOp<mlir::memref::ReinterpretCastOp>, ConvertLoadOp,
-                ConvertStoreOp, ConvertAtomicOps, ConvertFunc, ConvertAssert>(
-            typeConverter, context);
+    patterns.insert<ConvertSubviewOp, ConvertCastOp<mlir::memref::CastOp>,
+                    ConvertCastOp<mlir::memref::ReinterpretCastOp>,
+                    ConvertLoadOp, ConvertStoreOp, ConvertAtomicOps,
+                    ConvertFunc, ConvertAssert, ConvertBarrierOp>(typeConverter,
+                                                                  context);
 
     if (failed(
             applyFullConversion(kernelModules, *target, std::move(patterns))))
diff --git a/mlir/lib/dialect/gpu_runtime/IR/gpu_runtime_ops.cpp b/mlir/lib/dialect/gpu_runtime/IR/gpu_runtime_ops.cpp
@@ -55,6 +55,10 @@ void GpuRuntimeDialect::initialize() {
 #define GET_OP_LIST
 #include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOps.cpp.inc"
       >();
+  addAttributes<
+#define GET_ATTRDEF_LIST
+#include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOpsAttributes.cpp.inc"
+      >();
   addTypes<OpaqueType>();
   addInterfaces<GpuRuntimeInlinerInterface>();
 }
@@ -208,5 +212,10 @@ mlir::StringAttr GPUSuggestBlockSizeOp::getKernelName() {
 
 #include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOpsDialect.cpp.inc"
 
+#define GET_ATTRDEF_CLASSES
+#include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOpsAttributes.cpp.inc"
+
 #define GET_OP_CLASSES
 #include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOps.cpp.inc"
+
+#include "mlir-extensions/dialect/gpu_runtime/IR/GpuRuntimeOpsEnums.cpp.inc"
diff --git a/numba_dpcomp/numba_dpcomp/mlir/kernel_impl.py b/numba_dpcomp/numba_dpcomp/mlir/kernel_impl.py
@@ -297,3 +297,26 @@ def generic(self, args, kws):
 
 _define_atomic_funcs()
 del _define_atomic_funcs
+
+
+# mem fence
+CLK_LOCAL_MEM_FENCE = 0x1
+CLK_GLOBAL_MEM_FENCE = 0x2
+
+
+def barrier(flags=None):
+    _stub_error()
+
+
+@registry.register_func("barrier", barrier)
+def _barrier_impl(builder, flags=None):
+    if flags is None:
+        flags = CLK_GLOBAL_MEM_FENCE
+
+    res = 0  # TODO: remove
+    return builder.external_call("kernel_barrier", inputs=flags, outputs=res)
+
+
+@infer_global(barrier)
+class _BarrierId(ConcreteTemplate):
+    cases = [signature(types.void, types.int64), signature(types.void)]
diff --git a/numba_dpcomp/numba_dpcomp/mlir/kernel_sim.py b/numba_dpcomp/numba_dpcomp/mlir/kernel_sim.py
@@ -14,6 +14,15 @@
 
 from collections import namedtuple
 from itertools import product
+from functools import reduce
+import copy
+
+try:
+    from greenlet import greenlet
+
+    _greenlet_found = True
+except ImportError:
+    _greenlet_found = False
 
 from .kernel_base import KernelBase
 from .kernel_impl import (
@@ -24,10 +33,12 @@
     atomic,
     atomic_add,
     atomic_sub,
+    barrier,
 )
 
 _ExecutionState = namedtuple(
-    "_ExecutionState", ["global_size", "local_size", "indices",]
+    "_ExecutionState",
+    ["global_size", "local_size", "indices", "wg_size", "tasks", "current_task"],
 )
 
 _execution_state = None
@@ -70,16 +81,35 @@ def sub(arr, ind, val):
         return new_val
 
 
+def barrier_proxy(flags):
+    global _greenlet_found
+    assert _greenlet_found, "greenlet package not installed"
+    state = get_exec_state()
+    wg_size = state.wg_size[0]
+    assert wg_size > 0
+    if wg_size > 1:
+        indices = copy.deepcopy(state.indices)
+        next_task = state.current_task[0] + 1
+        if next_task >= wg_size:
+            next_task = 0
+        state.current_task[0] = next_task
+        state.tasks[next_task].switch()
+        state.indices[:] = indices
+
+
 def _setup_execution_state(global_size, local_size):
     import numba_dpcomp.mlir.kernel_impl
 
     global _execution_state
     assert _execution_state is None
-    if len(local_size) == 0:
-        local_size = (1,) * len(global_size)
 
     _execution_state = _ExecutionState(
-        global_size=global_size, local_size=local_size, indices=[0] * len(global_size)
+        global_size=global_size,
+        local_size=local_size,
+        indices=[0] * len(global_size),
+        wg_size=[None],
+        tasks=[],
+        current_task=[None],
     )
     return _execution_state
 
@@ -97,6 +127,7 @@ def _destroy_execution_state():
     ("atomic", atomic, atomic_proxy),
     ("atomic_add", atomic_add, atomic_proxy.add),
     ("atomic_sub", atomic_sub, atomic_proxy.sub),
+    ("barrier", barrier, barrier_proxy),
 ]
 
 
@@ -136,14 +167,50 @@ def _restore_closure(src, old_closure):
         src[i].cell_contents = old_closure[i]
 
 
+def _capture_func(func, indices, args):
+    def wrapper():
+        get_exec_state().indices[:] = indices
+        func(*args)
+
+    return wrapper
+
+
 def _execute_kernel(global_size, local_size, func, *args):
+    if len(local_size) == 0:
+        local_size = (1,) * len(global_size)
+
     saved_globals = _replace_globals(func.__globals__)
     saved_closure = _replace_closure(func.__closure__)
     state = _setup_execution_state(global_size, local_size)
     try:
-        for indices in product(*(range(d) for d in global_size)):
-            state.indices[:] = indices
-            func(*args)
+        groups = tuple((g + l - 1) // l for g, l in zip(global_size, local_size))
+        for gid in product(*(range(g) for g in groups)):
+            offset = tuple(g * l for g, l in zip(gid, local_size))
+            size = tuple(
+                min(g - o, l) for o, g, l in zip(offset, global_size, local_size)
+            )
+            count = reduce(lambda a, b: a * b, size)
+            state.wg_size[0] = count
+            state.current_task[0] = 0
+
+            indices_range = (range(o, o + s) for o, s in zip(offset, size))
+
+            global _greenlet_found
+            if _greenlet_found:
+                tasks = state.tasks
+                assert len(tasks) == 0
+                for indices in product(*indices_range):
+                    tasks.append(greenlet(_capture_func(func, indices, args)))
+
+                for t in tasks:
+                    t.switch()
+
+                tasks.clear()
+            else:
+                for indices in product(*indices_range):
+                    state.indices[:] = indices
+                    func(*args)
+
     finally:
         _restore_closure(func.__closure__, saved_closure)
         _restore_globals(func.__globals__, saved_globals)
diff --git a/numba_dpcomp/numba_dpcomp/mlir/tests/test_gpu.py b/numba_dpcomp/numba_dpcomp/mlir/tests/test_gpu.py
@@ -28,6 +28,9 @@
     atomic,
     kernel_func,
     DEFAULT_LOCAL_SIZE,
+    barrier,
+    CLK_LOCAL_MEM_FENCE,
+    CLK_GLOBAL_MEM_FENCE,
 )
 from numba_dpcomp.mlir.kernel_sim import kernel as kernel_sim
 from numba_dpcomp.mlir.passes import (
@@ -684,6 +687,39 @@ def func(c):
     assert_equal(gpu_res, sim_res)
 
 
+@require_gpu
+def test_barrier1():
+    atomic_add = atomic.add
+
+    global_size = 27
+    local_size = 7
+
+    def func(a, b):
+        i = get_global_id(0)
+        off = i // local_size
+        atomic_add(a, off, i)
+        barrier(CLK_GLOBAL_MEM_FENCE)
+        b[i] = a[off]
+
+    sim_func = kernel_sim(func)
+    gpu_func = kernel_cached(func)
+
+    count = (global_size + local_size - 1) // local_size
+    a = np.array([0] * count, np.int64)
+
+    sim_res = np.zeros(global_size, a.dtype)
+    sim_func[global_size, local_size](a.copy(), sim_res)
+
+    gpu_res = np.zeros(global_size, a.dtype)
+
+    with print_pass_ir([], ["ConvertParallelLoopToGpu"]):
+        gpu_func[global_size, local_size](a.copy(), gpu_res)
+        ir = get_print_buffer()
+        assert ir.count("gpu.launch blocks") == 1, ir
+
+    assert_equal(gpu_res, sim_res)
+
+
 @require_dpctl
 def test_dpctl_simple1():
     def func(a, b, c):
diff --git a/numba_dpcomp/numba_dpcomp/mlir_compiler/lib/pipelines/lower_to_gpu.cpp b/numba_dpcomp/numba_dpcomp/mlir_compiler/lib/pipelines/lower_to_gpu.cpp