Fix kernel generation when kernelRepeats are more than 1 (#1799)

umangyadav · web-flow · commit 1fb495ea8d47 · 2025-04-04T07:21:27.000-04:00
Fixes issue described in ROCm/rocMLIR-internal#1803
diff --git a/mlir/test/rocmlir-driver/populate_host.mlir b/mlir/test/rocmlir-driver/populate_host.mlir
@@ -51,13 +51,13 @@
 // CHECK-NEXT: vector.extractelement
 // CHECK-NEXT: memref.store %{{.*}}, %[[output]][%[[io]]] : memref<[[NGKHOWO]]x[[OTYPE]]>
 // CHECK-NEXT: }
-// CHECK-NEXT: call @rock_conv_gkc01_ngc01_ngk01_0_gpu({{.*}}, {{.*}}, {{.*}}) : (memref<[[GKCYX]]x[[TYPE]]>, memref<[[NGCHIWI]]x[[TYPE]]>, memref<[[NGKHOWO]]x[[OTYPE]]>) -> ()
+// CHECK-NEXT: call @rock_conv_gkc01_ngc01_ngk01_gpu({{.*}}, {{.*}}, {{.*}}) : (memref<[[GKCYX]]x[[TYPE]]>, memref<[[NGCHIWI]]x[[TYPE]]>, memref<[[NGKHOWO]]x[[OTYPE]]>) -> ()
 // CHECK-NEXT: memref.dealloc %[[filter]]
 // CHECK-NEXT: memref.dealloc %[[input]]
 // CHECK-NEXT: memref.dealloc %[[output]]
 // CHECK-NEXT: return
 
-// CHECK: func.func @rock_conv_gkc01_ngc01_ngk01_0_gpu(%{{.*}}: memref<[[GKCYX]]x[[TYPE]]>, %{{.*}}: memref<[[NGCHIWI]]x[[TYPE]]>, %{{.*}}: memref<[[NGKHOWO]]x[[OTYPE]]>)
+// CHECK: func.func @rock_conv_gkc01_ngc01_ngk01_gpu(%{{.*}}: memref<[[GKCYX]]x[[TYPE]]>, %{{.*}}: memref<[[NGCHIWI]]x[[TYPE]]>, %{{.*}}: memref<[[NGKHOWO]]x[[OTYPE]]>)
 // CHECK-NEXT: gpu.alloc  () : memref<[[GKCYX]]x[[TYPE]]>
 // CHECK-NEXT: gpu.memcpy  %{{.*}}, %{{.*}} : memref<[[GKCYX]]x[[TYPE]]>,  memref<[[GKCYX]]x[[TYPE]]>
 // CHECK-NEXT: gpu.alloc  () : memref<[[NGCHIWI]]x[[TYPE]]>
diff --git a/mlir/test/rocmlir-driver/populate_host_splitk.mlir b/mlir/test/rocmlir-driver/populate_host_splitk.mlir
@@ -45,13 +45,13 @@
 // CHECK-NEXT: vector.extractelement
 // CHECK-NEXT: memref.store %{{.*}}, %[[output]][%[[io]]] : memref<[[NGKHOWO]]x[[OTYPE]]>
 // CHECK-NEXT: }
-// CHECK-NEXT: call @rock_conv_gkc01_ngc01_ngk01_0_gpu({{.*}}, {{.*}}, {{.*}}) : (memref<[[GKCYX]]x[[TYPE]]>, memref<[[NGCHIWI]]x[[TYPE]]>, memref<[[NGKHOWO]]x[[OTYPE]]>) -> ()
+// CHECK-NEXT: call @rock_conv_gkc01_ngc01_ngk01_gpu({{.*}}, {{.*}}, {{.*}}) : (memref<[[GKCYX]]x[[TYPE]]>, memref<[[NGCHIWI]]x[[TYPE]]>, memref<[[NGKHOWO]]x[[OTYPE]]>) -> ()
 // CHECK-NEXT: memref.dealloc %[[filter]]
 // CHECK-NEXT: memref.dealloc %[[input]]
 // CHECK-NEXT: memref.dealloc %[[output]]
 // CHECK-NEXT: return
 
-// CHECK: func.func @rock_conv_gkc01_ngc01_ngk01_0_gpu(%{{.*}}: memref<[[GKCYX]]x[[TYPE]]>, %{{.*}}: memref<[[NGCHIWI]]x[[TYPE]]>, %{{.*}}: memref<[[NGKHOWO]]x[[OTYPE]]>)
+// CHECK: func.func @rock_conv_gkc01_ngc01_ngk01_gpu(%{{.*}}: memref<[[GKCYX]]x[[TYPE]]>, %{{.*}}: memref<[[NGCHIWI]]x[[TYPE]]>, %{{.*}}: memref<[[NGKHOWO]]x[[OTYPE]]>)
 // CHECK-NEXT: gpu.alloc  () : memref<[[GKCYX]]x[[TYPE]]>
 // CHECK-NEXT: gpu.memcpy  %{{.*}}, %{{.*}} : memref<[[GKCYX]]x[[TYPE]]>,  memref<[[GKCYX]]x[[TYPE]]>
 // CHECK-NEXT: gpu.alloc  () : memref<[[NGCHIWI]]x[[TYPE]]>
diff --git a/mlir/test/rocmlir-driver/populate_pv_with_gpu.mlir b/mlir/test/rocmlir-driver/populate_pv_with_gpu.mlir
@@ -3,8 +3,8 @@
 
 // CHECK: func.func @rock_conv_gkc01_ngc01_ngk01_0({{.*}}: memref<[[NFILTER:[0-9]+]]xf32>, {{.*}}: memref<[[NINPUT:[0-9]+]]xf32>, {{.*}}: memref<[[NOUTPUT:[0-9]+]]xf32>) attributes {kernel = 0 : i32, mhal.arch = "{{.*}}"} {
 // CHECK: rock.conv({{.*}}) features = mfma|dot|atomic_add|atomic_add_f16 {[[PARMS:.*]]} : memref<[[FILTERDIMS:[x0-9]+]]xf32>, memref<[[INPUTDIMS:[x0-9]+]]xf32>, memref<[[OUTPUTDIMS:[x0-9]+]]xf32>
-// CHECK: call @rock_conv_gkc01_ngc01_ngk01_0_gpu({{.*}}) : (memref<[[NFILTER]]xf32>, memref<[[NINPUT]]xf32>, memref<[[NOUTPUT]]xf32>) -> ()
-// CHECK: call @rock_conv_gkc01_ngc01_ngk01_0_ver_gpu({{.*}}) : (memref<[[NFILTER]]xf32>, memref<[[NINPUT]]xf32>, memref<[[NOUTPUT]]xf32>) -> ()
+// CHECK: call @rock_conv_gkc01_ngc01_ngk01_gpu({{.*}}) : (memref<[[NFILTER]]xf32>, memref<[[NINPUT]]xf32>, memref<[[NOUTPUT]]xf32>) -> ()
+// CHECK: call @rock_conv_gkc01_ngc01_ngk01_ver_gpu({{.*}}) : (memref<[[NFILTER]]xf32>, memref<[[NINPUT]]xf32>, memref<[[NOUTPUT]]xf32>) -> ()
 // CHECK: func.func @rock_conv_gkc01_ngc01_ngk01_0_ver({{.*}}) attributes {kernel = 0 : i32, mhal.arch = "{{.*}}"} {
 // CHECK: rock.conv({{.*}}) features = dot|atomic_add|atomic_add_f16 {{{.*}}} : memref<[[FILTERDIMS]]xf32>, memref<[[INPUTDIMS]]xf32>, memref<[[OUTPUTDIMS]]xf32>
 
@@ -31,8 +31,8 @@
 
 // F16-CHECK: func.func @rock_conv_gkc01_ngc01_ngk01_0({{.*}}: memref<[[NFILTER:[0-9]+]]xf16>, {{.*}}: memref<[[NINPUT:[0-9]+]]xf16>, {{.*}}: memref<[[NOUTPUT:[0-9]+]]xf16>) attributes {kernel = 0 : i32, mhal.arch = "{{.*}}"} {
 // F16-CHECK: rock.conv({{.*}}) features = dot {[[PARMS:.*]]} : memref<[[FILTERDIMS:[x0-9]+]]xf16>, memref<[[INPUTDIMS:[x0-9]+]]xf16>, memref<[[OUTPUTDIMS:[x0-9]+]]xf16>
-// F16-CHECK: call @rock_conv_gkc01_ngc01_ngk01_0_gpu({{.*}}) : (memref<[[NFILTER]]xf16>, memref<[[NINPUT]]xf16>, memref<[[NOUTPUT]]xf16>) -> ()
-// F16-CHECK: call @rock_conv_gkc01_ngc01_ngk01_0_ver_gpu({{.*}}) : (memref<[[NFILTER]]xf32>, memref<[[NINPUT]]xf32>, memref<[[NOUTPUT]]xf32>) -> ()
+// F16-CHECK: call @rock_conv_gkc01_ngc01_ngk01_gpu({{.*}}) : (memref<[[NFILTER]]xf16>, memref<[[NINPUT]]xf16>, memref<[[NOUTPUT]]xf16>) -> ()
+// F16-CHECK: call @rock_conv_gkc01_ngc01_ngk01_ver_gpu({{.*}}) : (memref<[[NFILTER]]xf32>, memref<[[NINPUT]]xf32>, memref<[[NOUTPUT]]xf32>) -> ()
 // F16-CHECK: func.func @rock_conv_gkc01_ngc01_ngk01_0_ver({{.*}}) attributes {kernel = 0 : i32, mhal.arch = "{{.*}}"} {
 // F16-CHECK: rock.conv({{.*}}) features = dot {{{.*}} : memref<[[FILTERDIMS]]xf32>, memref<[[INPUTDIMS]]xf32>, memref<[[OUTPUTDIMS]]xf32>
 
diff --git a/mlir/test/rocmlir-gen/kernel-repeats.mlir b/mlir/test/rocmlir-gen/kernel-repeats.mlir
@@ -1,8 +1,37 @@
-// RUN: rocmlir-gen --arch gfx900 --operation gemm -p -ph --kernel-repeats=5 | FileCheck %s
-// CHECK-LABEL: @rock_gemm_gpu
-// CHECK-DAG: %[[zero:.*]] = arith.constant 0 : index
-// CHECK-DAG: %[[one:.*]] = arith.constant 1 : index
-// CHECK-DAG: %[[five:.*]] = arith.constant 5 : index
-// CHECK: scf.for %{{.*}} = %[[zero]] to %[[five]] step %[[one]] {
-// CHECK-NEXT: func.call @rock_gemm
-// CHECK-NEXT: }
+// RUN: rocmlir-gen --arch gfx900 --operation gemm -p -ph --kernel-repeats=5 | FileCheck %s --check-prefix=GEMM
+// RUN: rocmlir-gen --arch gfx942  -pv --operation conv_bwd_weight -t f32 --fil_layout k01c --in_layout n01c --out_layout n01k --batchsize 64 --in_channels 1024 --in_h 14 --in_w 14 --out_channels 256 --fil_h 1 --fil_w 1 --dilation_h 1 --dilation_w 1 --conv_stride_h 1 --conv_stride_w 1 --padding_h 0 --padding_w 0 --groupsize 1 --kernel-repeats 5 | FileCheck %s --check-prefix=CONV_WRW
+// RUN: rocmlir-gen --arch gfx942 -pv_with_gpu --operation conv_bwd_weight -t f32 --fil_layout k01c --in_layout n01c --out_layout n01k --batchsize 64 --in_channels 1024 --in_h 14 --in_w 14 --out_channels 256 --fil_h 1 --fil_w 1 --dilation_h 1 --dilation_w 1 --conv_stride_h 1 --conv_stride_w 1 --padding_h 0 --padding_w 0 --groupsize 1 --kernel-repeats 5 | FileCheck %s --check-prefix=CONV_WRW_GPU
+
+// GEMM-LABEL: @rock_gemm_gpu
+// GEMM-DAG: %[[zero:.*]] = arith.constant 0 : index
+// GEMM-DAG: %[[one:.*]] = arith.constant 1 : index
+// GEMM-DAG: %[[five:.*]] = arith.constant 5 : index
+// GEMM: scf.for %{{.*}} = %[[zero]] to %[[five]] step %[[one]] {
+// GEMM-NEXT: func.call @rock_gemm
+// GEMM-NEXT: }
+
+// CONV_WRW-LABEL: func.func @rock_conv_bwd_weight_gk01c_n01gc_n01gk_0
+// CONV_WRW: rock.init_kernel
+// CONV_WRW-LABEL: func.func @rock_conv_bwd_weight_gk01c_n01gc_n01gk_1
+// CONV_WRW: rock.conv_bwd_weight
+// CONV_WRW-LABEL: func.func @rock_conv_bwd_weight_gk01c_n01gc_n01gk_gpu
+// CONV_WRW-DAG: %[[one:.*]] = arith.constant 1 : index
+// CONV_WRW-DAG: %[[five:.*]] = arith.constant 5 : index
+// CONV_WRW-DAG: %[[zero:.*]] = arith.constant 0 : index
+// CONV_WRW: scf.for %{{.*}} = %[[zero]] to %[[five]] step %[[one]] {
+// CONV_WRW-NEXT: func.call @rock_conv_bwd_weight_gk01c_n01gc_n01gk_0
+// CONV_WRW-NEXT: func.call @rock_conv_bwd_weight_gk01c_n01gc_n01gk_1
+// CONV_WRW-NEXT: }
+
+// CONV_WRW_GPU-LABEL: func.func @rock_conv_bwd_weight_gk01c_n01gc_n01gk_0
+// CONV_WRW_GPU: rock.init_kernel
+// CONV_WRW_GPU-LABEL: func.func @rock_conv_bwd_weight_gk01c_n01gc_n01gk_1
+// CONV_WRW_GPU: rock.conv_bwd_weight
+// CONV_WRW_GPU-LABEL: func.func @rock_conv_bwd_weight_gk01c_n01gc_n01gk_gpu
+// CONV_WRW_GPU-DAG: %[[zero:.*]] = arith.constant 0 : index
+// CONV_WRW_GPU-DAG: %[[one:.*]] = arith.constant 1 : index
+// CONV_WRW_GPU-DAG: %[[five:.*]] = arith.constant 5 : index
+// CONV_WRW_GPU: scf.for %{{.*}} = %[[zero]] to %[[five]] step %[[one]] {
+// CONV_WRW_GPU-NEXT: func.call @rock_conv_bwd_weight_gk01c_n01gc_n01gk_0
+// CONV_WRW_GPU-NEXT: func.call @rock_conv_bwd_weight_gk01c_n01gc_n01gk_1
+// CONV_WRW_GPU-NEXT: }
diff --git a/mlir/tools/rocmlir-gen/rocmlir-gen.cpp b/mlir/tools/rocmlir-gen/rocmlir-gen.cpp
@@ -58,6 +58,7 @@
 #include "mlir/Support/LogicalResult.h"
 
 #include "llvm/ADT/STLExtras.h"
+#include "llvm/ADT/SmallSet.h"
 #include "llvm/ADT/StringRef.h"
 #include "llvm/ADT/StringSwitch.h"
 #include "llvm/Support/CommandLine.h"
@@ -1277,18 +1278,18 @@ static Value makeNDMemRef(OpBuilder &b, Value var, uint32_t ndim) {
 
   return var;
 }
-
-static func::FuncOp createGPUWrapper(ModuleOp module, const KernelIF &kernel) {
+static func::FuncOp createGPUWrapper(ModuleOp module,
+                                     const std::string &funcName,
+                                     const SmallVector<KernelIF, 8> &kernels) {
   MLIRContext *context = module.getContext();
   OpBuilder b(context);
-  auto loc = kernel.func->getLoc();
+  auto loc = kernels[0].func->getLoc();
 
   // Create gpu wrapper function
-  auto kfunc = kernel.func;
-  std::string funcName = kfunc.getName().str() + "_gpu";
-  auto gpuWrapperFuncType = b.getFunctionType(kernel.params, {});
+  std::string funcNameGpu = funcName + "_gpu";
+  auto gpuWrapperFuncType = b.getFunctionType(kernels[0].params, {});
   auto gpuWrapperFunc =
-      func::FuncOp::create(loc, StringRef(funcName), gpuWrapperFuncType);
+      func::FuncOp::create(loc, StringRef(funcNameGpu), gpuWrapperFuncType);
   module.push_back(gpuWrapperFunc);
 
   // Emit gpu convolution logic.
@@ -1303,7 +1304,7 @@ static func::FuncOp createGPUWrapper(ModuleOp module, const KernelIF &kernel) {
 
   SmallVector<Value, 4> cpuMem;
   SmallVector<Value, 4> gpuMem;
-  for (auto pair : llvm::enumerate(kernel.params)) {
+  for (auto pair : llvm::enumerate(kernels[0].params)) {
     Value arg = block->getArgument(pair.index());
     cpuMem.push_back(arg);
 
@@ -1321,11 +1322,12 @@ static func::FuncOp createGPUWrapper(ModuleOp module, const KernelIF &kernel) {
   // Emit kernel function call, repeating it if needed.
   // We assume that the repeated atomic add usages in a wrw kernel will not
   // substantially impact performance as the result becomes large
-  auto emitWrappedCall = [&kernel, &gpuMem](OpBuilder &b, Location loc,
-                                            Value ignoredIv,
-                                            ValueRange noArgs) {
-    auto wrappedCall = b.create<func::CallOp>(loc, kernel.func, gpuMem);
-    wrappedCall->setAttr("wrapped_call", b.getUnitAttr());
+  auto emitWrappedCall = [&kernels, &gpuMem](OpBuilder &b, Location loc,
+                                             Value ignoredIv,
+                                             ValueRange noArgs) {
+    for (const auto &kernel : kernels) {
+      b.create<func::CallOp>(loc, kernel.func, gpuMem);
+    }
     if (ignoredIv) { // we're creating an actual loop
       b.create<scf::YieldOp>(loc);
     }
@@ -1341,14 +1343,12 @@ static func::FuncOp createGPUWrapper(ModuleOp module, const KernelIF &kernel) {
     emitWrappedCall(b, loc, nullptr, {});
   }
 
-  for (auto pair : llvm::enumerate(kernel.params)) {
+  for (auto pair : llvm::enumerate(kernels[0].params)) {
     uint32_t i = pair.index();
     b.create<gpu::MemcpyOp>(loc, TypeRange{}, ValueRange{cpuMem[i], gpuMem[i]});
     b.create<gpu::DeallocOp>(loc, TypeRange{}, ValueRange{gpuMem[i]});
   }
-
   b.create<func::ReturnOp>(loc, ValueRange{});
-
   return gpuWrapperFunc;
 }
 
@@ -3424,35 +3424,34 @@ static void insertValidationCalls(const GenParams &genParams, OpBuilder &b,
       }
       // generate all sub-kernels, and get corresponding gemmId
       std::string kernelBaseName = genConfig.kernelBaseName;
+      SmallVector<KernelIF, 8> kernelIFFuncs;
       for (int i = kernelStart; i < kernelCount; ++i) {
         convGenerator.setKernelName(kernelBaseName + "_" + std::to_string(i));
         if (failed(convGenerator.genConvModule(module, i, true,
                                                /*ignoreTuning=*/true))) {
           llvm::errs() << "Module population failed.\n";
           exit(1);
         }
-        KernelIF kernel(convGenerator.getKernelFunc());
-        auto kernelWrapperFunc = createGPUWrapper(module, kernel);
-
-        // Decide whether to trim the last workspace argument to the verifier
-        // GPU kernel.
-        rock::ConvGenerator originalConvGenerator(genConfig);
-        bool originalHasWorkspace = false, verifierHasWorkspace = false;
-        if (failed(
-                originalConvGenerator.hasWorkspace(b, originalHasWorkspace))) {
-          llvm::errs() << "Getting workspace failed.\n";
-          exit(1);
-        }
-        if (failed(convGenerator.hasWorkspace(b, verifierHasWorkspace))) {
-          llvm::errs() << "Getting workspace failed.\n";
-          exit(1);
-        }
-        if (originalHasWorkspace && !verifierHasWorkspace) {
-          valVars.resize(valVars.size() - 1);
-        }
-
-        b.create<func::CallOp>(loc, kernelWrapperFunc, valVars);
+        kernelIFFuncs.push_back(convGenerator.getKernelFunc());
+      }
+      // Decide whether to trim the last workspace argument to the verifier
+      // GPU kernel.
+      rock::ConvGenerator originalConvGenerator(genConfig);
+      bool originalHasWorkspace = false, verifierHasWorkspace = false;
+      if (failed(originalConvGenerator.hasWorkspace(b, originalHasWorkspace))) {
+        llvm::errs() << "Getting workspace failed.\n";
+        exit(1);
+      }
+      if (failed(convGenerator.hasWorkspace(b, verifierHasWorkspace))) {
+        llvm::errs() << "Getting workspace failed.\n";
+        exit(1);
       }
+      if (originalHasWorkspace && !verifierHasWorkspace) {
+        valVars.resize(valVars.size() - 1);
+      }
+      auto kernelWrapperFunc =
+          createGPUWrapper(module, kernelBaseName + "_ver", kernelIFFuncs);
+      b.create<func::CallOp>(loc, kernelWrapperFunc, valVars);
       convGenerator.setKernelName(kernelBaseName);
     } else { // gemm GPU validation
       GenParams newParams = genParams;
@@ -3473,7 +3472,8 @@ static void insertValidationCalls(const GenParams &genParams, OpBuilder &b,
 
       KernelIF kernel(
           createGpuGemmKernel(module, newParams, /*isVerifier=*/true));
-      auto kernelWrapperFunc = createGPUWrapper(module, kernel);
+      auto kernelWrapperFunc =
+          createGPUWrapper(module, kernel.func.getName().str(), {kernel});
       b.create<func::CallOp>(loc, kernelWrapperFunc, valVars);
     }
   } else if (validationType != "clone") { // -pv_with_cpp or -pv_with_mlir (-pv)
@@ -3759,31 +3759,33 @@ static LogicalResult populateHostHarnessLogic(
 
   b.create<func::ReturnOp>(loc, ValueRange{});
 
-  // Wrap the kernels and gather them to substitute in calls.
-  llvm::SmallDenseMap<func::FuncOp, func::FuncOp> wrappedFuncs;
+  // Set of kernels
+  llvm::SmallSetVector<func::FuncOp, 4> kernelsSet;
+  std::string kernelBaseName =
+      (genParams.convConfig.has_value())
+          ? genParams.convConfig.value()->kernelBaseName
+          : root0.func.getName().str();
   for (auto &kernel : kernels) {
     if (kernel.func->hasAttr("kernel")) {
-      wrappedFuncs[kernel.func] = createGPUWrapper(module, kernel);
-    } else {
-      wrappedFuncs[kernel.func] = kernel.func;
+      kernelsSet.insert(kernel.func);
     }
   }
-
+  func::FuncOp gpuWrapperFunc;
+  if (!kernelsSet.empty())
+    gpuWrapperFunc = createGPUWrapper(module, kernelBaseName, kernels);
   // Redirect calls to kernel functions to point at wrapped functions.
-  module.walk([&](CallOpInterface callOp) -> WalkResult {
-    // Don't substitute the call inside the wrapper.
-    if (callOp->hasAttr("wrapped_call")) {
-      callOp->removeAttr("wrapped_call");
-      return WalkResult::advance();
-    }
-
+  func.walk([&](CallOpInterface callOp) -> WalkResult {
     // If the callee matches a wrapped function, update the call.
     Operation *callable = callOp.resolveCallable();
     if (callable) {
       func::FuncOp fop = dyn_cast<func::FuncOp>(*callable);
-      if (wrappedFuncs.find(fop) != wrappedFuncs.end()) {
+      if (kernelsSet.contains(fop)) {
+        if (fop != root0.func) {
+          callOp->erase();
+          return WalkResult::advance();
+        }
         callOp->setAttr("callee", FlatSymbolRefAttr::get(
-                                      context, wrappedFuncs[fop].getSymName()));
+                                      context, gpuWrapperFunc.getSymName()));
       }
     }
     return WalkResult::advance();