CRobeck
diff --git a/‎test/Conversion/amd/async-ops-alias-scopes.mlir‎
Lines changed: 2 additions & 2 deletions b/‎test/Conversion/amd/async-ops-alias-scopes.mlir‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎test/Conversion/amd/async_ops_to_llvm.mlir‎
Lines changed: 16 additions & 8 deletions b/‎test/Conversion/amd/async_ops_to_llvm.mlir‎
Lines changed: 16 additions & 8 deletions
diff --git a/‎test/Conversion/amd/buffer_load_to_local_to_llvm.mlir‎
Lines changed: 18 additions & 8 deletions b/‎test/Conversion/amd/buffer_load_to_local_to_llvm.mlir‎
Lines changed: 18 additions & 8 deletions
diff --git a/‎test/Proton/amd/protongpu_to_llvm.mlir‎
Lines changed: 8 additions & 21 deletions b/‎test/Proton/amd/protongpu_to_llvm.mlir‎
Lines changed: 8 additions & 21 deletions
diff --git a/‎third_party/amd/include/Dialect/TritonAMDGPU/IR/TritonAMDGPUOps.td‎
Lines changed: 50 additions & 1 deletion b/‎third_party/amd/include/Dialect/TritonAMDGPU/IR/TritonAMDGPUOps.td‎
Lines changed: 50 additions & 1 deletion
diff --git a/‎third_party/amd/lib/TritonAMDGPUToLLVM/BuiltinFuncToLLVM.cpp‎
Lines changed: 2 additions & 101 deletions b/‎third_party/amd/lib/TritonAMDGPUToLLVM/BuiltinFuncToLLVM.cpp‎
Lines changed: 2 additions & 101 deletions
@@ -1,5 +1,5 @@
-// RUN: triton-opt %s -split-input-file --allocate-shared-memory --convert-triton-amdgpu-to-llvm=arch=gfx950 --convert-scf-to-cf --convert-builtin-func-to-llvm | FileCheck %s --check-prefixes=COMMON,GFX950
-// RUN: triton-opt %s -split-input-file --allocate-shared-memory --convert-triton-amdgpu-to-llvm=arch=gfx942 --convert-scf-to-cf --convert-builtin-func-to-llvm | FileCheck %s --check-prefixes=COMMON,GFX942
+// RUN: triton-opt %s -split-input-file --allocate-shared-memory --convert-triton-amdgpu-to-llvm=arch=gfx950 --convert-scf-to-cf | FileCheck %s --check-prefixes=COMMON,GFX950
+// RUN: triton-opt %s -split-input-file --allocate-shared-memory --convert-triton-amdgpu-to-llvm=arch=gfx942 --convert-scf-to-cf | FileCheck %s --check-prefixes=COMMON,GFX942
 
 // COMMON: [[$ASYNC_COPY_SCOPE:#.*]] = #llvm.alias_scope<id = "amdgpu.AsyncCopies"
 // COMMON: [[$LOCAL_LOAD_SCOPE:#.*]] = #llvm.alias_scope<id = "amdgpu.LocalLoads"
 
@@ -176,22 +176,26 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.shar
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     %2 = ttg.async_copy_global_to_local %1, %arg2 mask %67 other %cst_0 : tensor<32x32x!tt.ptr<f32>, #blocked> -> <32x32xf32, #shared, #smem, mutable>
     tt.return
@@ -236,28 +240,32 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.shar
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: rocdl.ds_bpermute
     // CHECK: rocdl.ballot
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: rocdl.ds_bpermute
     // CHECK: rocdl.ballot
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: rocdl.ds_bpermute
     // CHECK: rocdl.ballot
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     %2 = ttg.async_copy_global_to_local %1, %arg2 mask %67 other %cst_0 : tensor<32x32x!tt.ptr<f32>, #blocked> -> <32x32xf32, #shared, #smem, mutable>
     tt.return
 
@@ -147,19 +147,25 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.shar
     // Note that mask/other alignment is 1 so we need 4 conditionals
 
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON-NOT: rocdl.raw.ptr.buffer.load.lds
     // COMMON-NOT: _predicated_store
+    // COMMON-NOT: llvm.cond_br
+    // COMMON-NOT: llvm.store
 
     amdgpu.buffer_load_to_local %arg1[%arg2] mask=%67 other=%cst_0 into %arg3 : <f32>[tensor<32x32xi32, #blocked>] tensor<32x32xf32, #blocked>  -> <32x32xf32, #shared, #smem, mutable>
     tt.return
@@ -257,22 +263,26 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.shar
     // COMMON: rocdl.ds_bpermute
     // COMMON: rocdl.ballot
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.ds_bpermute
     // COMMON: rocdl.ballot
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.ds_bpermute
     // COMMON: rocdl.ballot
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.ds_bpermute
     // COMMON: rocdl.ballot
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON-NOT: rocdl.ds_bpermute
     // COMMON-NOT: rocdl.ballot
 
@@ -82,7 +82,7 @@ module attributes {"ttg.num-warps" = 8 : i32, ttg.profile_scratch_memory_alignme
     // CHECK-DAG: rocdl.workgroup.id.z
     // CHECK-DAG: rocdl.grid.dim.x
     // CHECK-DAG: rocdl.grid.dim.y
-    // CHECK-DAG: %[[PID:.*]] = llvm.trunc %15 : i64 to i32
+    // CHECK-DAG: %[[PID:.*]] = llvm.trunc %{{.*}} : i64 to i32
     // CHECK-DAG: %[[SIZE:.*]] = llvm.mlir.constant(384 : i32)
     // CHECK-DAG: %{{.*}} = llvm.mul %[[PID]], %[[SIZE]] : i32
     %1 = proton_gpu.global_scratch_alloc {alignment = 128 : i32, nbytes = 384 : i32, offset = 0 : i32} : !tt.ptr<i32>
@@ -91,37 +91,24 @@ module attributes {"ttg.num-warps" = 8 : i32, ttg.profile_scratch_memory_alignme
 }
 
 // -----
-
 #shared = #ttg.swizzled_shared<{vec = 1, perPhase = 1, maxPhase = 1, order = [0]}>
 #smem = #ttg.shared_memory
 module attributes {"ttg.num-warps" = 8 : i32, ttg.profile_scratch_memory_alignment = 128 : i32, ttg.profile_scratch_memory_size = 384 : i32} {
   // CHECK-LABEL: convert_smem_finalize
   // CHECK: llvm.inline_asm asm_dialect = att operand_attrs = [] "s_getreg_b32 $0, hwreg(HW_REG_XCC_ID, 0, 3)", "=s"  : () -> i32
   // CHECK: llvm.inline_asm asm_dialect = att operand_attrs = [] "s_getreg_b32 $0, hwreg(HW_REG_HW_ID, 8, 4)", "=s"  : () -> i32
   // CHECK: llvm.inline_asm asm_dialect = att operand_attrs = [] "s_getreg_b32 $0, hwreg(HW_REG_HW_ID, 13, 3)", "=s"  : () -> i32
-  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb1, ^bb9
-  // CONVERT-BUILTIN: ^bb1:  // pred: ^bb0
+  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb1, ^bb3
+  // CONVERT-BUILTIN: ^bb1:
   // CONVERT-BUILTIN: llvm.store %{{.*}}, %{{.*}} : i32, !llvm.ptr<1>
   // CONVERT-BUILTIN: llvm.br ^bb2(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb2(%{{.*}}: i32):  // 2 preds: ^bb1, ^bb8
-  // CONVERT-BUILTIN: llvm.cond_br %1, ^bb3, ^bb4
-  // CONVERT-BUILTIN: bb3:  // pred: ^bb2
-  // CONVERT-BUILTIN: %{{.*}} = llvm.load %{{.*}} : !llvm.ptr<3> -> i32
-  // CONVERT-BUILTIN: llvm.br ^bb5(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb4:  // pred: ^bb2
-  // CONVERT-BUILTIN: llvm.br ^bb5(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb5(%{{.*}}: i32):  // 2 preds: ^bb3, ^bb4
+  // CONVERT-BUILTIN: ^bb2(%{{.*}}: i32):
+  // CONVERT-BUILTIN: llvm.load %{{.*}} : !llvm.ptr<3> -> i32
   // CONVERT-BUILTIN: llvm.store %{{.*}}, %{{.*}} : i32, !llvm.ptr<1>
-  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb6, ^bb7
-  // CONVERT-BUILTIN: ^bb6:  // pred: ^bb5
-  // CONVERT-BUILTIN: %{{.*}} = llvm.load %{{.*}} : !llvm.ptr<3> -> i32
-  // CONVERT-BUILTIN: llvm.br ^bb8(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb7:  // pred: ^bb5
-  // CONVERT-BUILTIN: llvm.br ^bb8(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb8(%{{.*}}: i32):  // 2 preds: ^bb6, ^bb7
+  // CONVERT-BUILTIN: llvm.load %{{.*}} : !llvm.ptr<3> -> i32
   // CONVERT-BUILTIN: llvm.store %{{.*}}, %{{.*}} : i32, !llvm.ptr<1>
-  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb2(%{{.*}} : i32), ^bb9
-  // CONVERT-BUILTIN: ^bb9:  // 2 preds: ^bb0, ^bb8
+  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb2(%{{.*}} : i32), ^bb3
+  // CONVERT-BUILTIN: ^bb3:
   // CHECK: llvm.return
   llvm.func @convert_smem_finalize(%arg: !llvm.ptr<1>) attributes {noinline = false, nvvm.kernel = 1 : ui1} {
     %0 = ttg.local_alloc : () -> !ttg.memdesc<512xi32, #shared, #smem, mutable>
 
@@ -519,6 +519,56 @@ def TTG_UpcastMXFPOp : TT_AMDGPU_Op<"upcast_mxfp", [Pure]> {
   }];
 }
 
+//===----------------------------------------------------------------------===//
+// MaskedLoadOp
+//===----------------------------------------------------------------------===//
+def MaskedLoadOp : TT_AMDGPU_Op<"masked_load", []> {
+  let summary = "Masked load operation";
+  let description = [{
+    Load operation with masking support. If the mask is true, loads from the given pointer. Works with LLVM types as a utility op for making LLVM conversion easier.
+  }];
+  let arguments = (ins
+    LLVM_AnyPointer:$ptr,
+    I1:$mask,
+    LLVM_Type:$falseVal,
+    DefaultValuedAttr<TT_CacheModifierAttr, "::mlir::triton::CacheModifier::NONE">:$cache,
+    DefaultValuedAttr<BoolAttr, "false">:$forceNoAlias
+  );
+
+  let results = (outs LLVM_Type:$result);
+
+  let assemblyFormat = [{
+    $ptr `,` $mask `,` $falseVal
+    oilist(`cacheModifier` `=` $cache)
+    (`forceNoAlias` $forceNoAlias^)?
+    attr-dict `:` functional-type(operands, results)
+  }];
+}
+
+//===----------------------------------------------------------------------===//
+// MaskedStoreOp
+//===----------------------------------------------------------------------===//
+def MaskedStoreOp : TT_AMDGPU_Op<"masked_store", []> {
+  let summary = "Masked Store operation";
+  let description = [{
+    Store operation with masking support. If the mask is true, Store from the given pointer. Works with LLVM types as a utility op for making LLVM conversion easier.
+  }];
+  let arguments = (ins
+    LLVM_AnyPointer:$ptr,
+    LLVM_Type:$value,
+    I1:$mask,
+    DefaultValuedAttr<TT_CacheModifierAttr, "::mlir::triton::CacheModifier::NONE">:$cache,
+    DefaultValuedAttr<BoolAttr, "false">:$forceNoAlias
+  );
+
+  let assemblyFormat = [{
+    $ptr `,` $value `,` $mask
+    oilist(`cacheModifier` `=` $cache)
+    (`forceNoAlias` $forceNoAlias^)?
+    attr-dict `:` type(operands)
+  }];
+}
+
 //===----------------------------------------------------------------------===//
 // ScaledUpcastFp4Op
 //===----------------------------------------------------------------------===//
@@ -579,7 +629,6 @@ def ScaledUpcastFp8Op : TT_AMDGPU_Op<"scaled_upcast_fp8", [
         `:` type($input) `,` type($scale) `->` type($output)
   }];
 }
-
 //===----------------------------------------------------------------------===//
 // InThreadTransposeOp
 //===----------------------------------------------------------------------===//
 
@@ -2,11 +2,11 @@
 
 #include "AsyncUtility.h"
 #include "Utility.h"
+#include "mlir/Conversion/LLVMCommon/TypeConverter.h"
 #include "mlir/Dialect/LLVMIR/LLVMDialect.h"
 #include "mlir/Pass/Pass.h"
 #include "mlir/Transforms/GreedyPatternRewriteDriver.h"
 #include "triton/Conversion/TritonGPUToLLVM/Utility.h"
-
 namespace mlir::triton {
 #define GEN_PASS_DEF_CONVERTBUILTINFUNCTOLLVM
 #include "TritonAMDGPUToLLVM/Passes.h.inc"
@@ -24,27 +24,14 @@ class CallOpConversion : public OpRewritePattern<LLVM::CallOp> {
   LogicalResult
   matchAndRewrite(LLVM::CallOp callOp,
                   mlir::PatternRewriter &rewriter) const override {
-    if (isPredicatedLoad(callOp)) {
-      return convertPredicatedLoad(callOp, rewriter);
-    } else if (isPredicatedStore(callOp)) {
-      return convertPredicatedStore(callOp, rewriter);
-    } else if (isWrappedLLVMIntrinsic(callOp)) {
+    if (isWrappedLLVMIntrinsic(callOp)) {
       return convertToLLVMIntrinsic(callOp, rewriter);
     } else {
       return failure();
     }
   }
 
 private:
-  bool isPredicatedLoad(LLVM::CallOp callOp) const {
-    return callOp.getCallee().value().contains(mlir::LLVM::AMD::predicatedLoad);
-  }
-
-  bool isPredicatedStore(LLVM::CallOp callOp) const {
-    return callOp.getCallee().value().contains(
-        mlir::LLVM::AMD::predicatedStore);
-  }
-
   bool isWrappedLLVMIntrinsic(LLVM::CallOp callOp) const {
     if (std::optional<StringRef> callee = callOp.getCallee()) {
       if (callee.value().starts_with("__triton_hip_")) {
@@ -54,91 +41,6 @@ class CallOpConversion : public OpRewritePattern<LLVM::CallOp> {
     return false;
   }
 
-  LogicalResult convertPredicatedStore(LLVM::CallOp callOp,
-                                       mlir::PatternRewriter &rewriter) const {
-    auto operands = callOp.getOperands();
-
-    auto loc = callOp.getLoc();
-    auto ptr = operands[0];
-    auto val = operands[1];
-    auto pred = operands[2];
-
-    Block *currentBlock = rewriter.getInsertionBlock();
-    Block *afterStore =
-        rewriter.splitBlock(currentBlock, rewriter.getInsertionPoint());
-    Block *trueBlock = rewriter.createBlock(afterStore);
-    rewriter.setInsertionPointToEnd(currentBlock);
-    rewriter.create<LLVM::CondBrOp>(loc, pred, trueBlock, afterStore);
-    rewriter.setInsertionPointToStart(trueBlock);
-    //               | vialatile | non-tmp | gcn instr gfx94
-    // LLVM::StoreOp | 0         | 0       | (cg) global store
-    //               | 0         | 1       | (cs) global store nt
-    //               | 1         | 0/1     | (wt) global store sc0 sc1
-    auto [volatileFlag, nonTmpFlag] =
-        mlir::LLVM::AMD::getCacheModifierFlagsForPredicatedCall(callOp);
-    int alignment = 0;
-    if (auto vecTy = dyn_cast<VectorType>(val.getType())) {
-      auto elemTy = vecTy.getElementType();
-      auto elemSizeInBytes = elemTy.getIntOrFloatBitWidth() / 8;
-      alignment = elemSizeInBytes * vecTy.getNumElements();
-    }
-
-    auto storeOp = rewriter.create<LLVM::StoreOp>(loc, val, ptr, alignment,
-                                                  volatileFlag, nonTmpFlag);
-    bool addAsyncAliasScopes =
-        callOp.getCallee().value().contains(mlir::LLVM::AMD::noAliasAsyncLoads);
-    if (addAsyncAliasScopes) {
-      AMD::addLocalLoadNoAliasScope(storeOp);
-    }
-    rewriter.create<LLVM::BrOp>(loc, afterStore);
-    rewriter.setInsertionPointToStart(afterStore);
-    rewriter.eraseOp(callOp);
-    return mlir::success();
-  }
-
-  LogicalResult convertPredicatedLoad(LLVM::CallOp callOp,
-                                      mlir::PatternRewriter &rewriter) const {
-    auto operands = callOp.getOperands();
-    auto result = callOp.getResult();
-
-    auto loc = callOp.getLoc();
-    auto elemTy = result.getType();
-    auto ptr = operands[0];
-    auto pred = operands[1];
-    auto falseVal = operands[2];
-
-    Block *currentBlock = rewriter.getInsertionBlock();
-    Block *afterLoad =
-        rewriter.splitBlock(currentBlock, rewriter.getInsertionPoint());
-    afterLoad->addArgument({elemTy}, {loc});
-    Block *trueBlock = rewriter.createBlock(afterLoad);
-    Block *falseBlock =
-        rewriter.splitBlock(trueBlock, rewriter.getInsertionPoint());
-    rewriter.setInsertionPointToEnd(currentBlock);
-    rewriter.create<LLVM::CondBrOp>(loc, pred, trueBlock, falseBlock);
-    rewriter.setInsertionPointToStart(trueBlock);
-    //              | vialatile | non-tmp | gcn instr gfx94
-    // LLVM::LoadOp | 0         | 0       | (ca) global load
-    //              | 0/1       | 1       | (cg) global load nt
-    //              | 1         | 0       | (cv) flat load sc0 sc1
-    auto [volatileFlag, nonTmpFlag] =
-        mlir::LLVM::AMD::getCacheModifierFlagsForPredicatedCall(callOp);
-    auto loadOp = rewriter.create<LLVM::LoadOp>(
-        loc, elemTy, ptr, /*alignment=*/0, volatileFlag, nonTmpFlag);
-    bool addAsyncNoAliasInfo =
-        callOp.getCallee().value().contains(mlir::LLVM::AMD::noAliasAsyncLoads);
-    if (addAsyncNoAliasInfo) {
-      AMD::addLocalLoadNoAliasScope(loadOp);
-    }
-    rewriter.create<LLVM::BrOp>(loc, loadOp->getResult(0), afterLoad);
-    rewriter.setInsertionPointToStart(falseBlock);
-    rewriter.create<LLVM::BrOp>(loc, falseVal, afterLoad);
-    rewriter.setInsertionPointToStart(afterLoad);
-    Value loadVal = afterLoad->getArgument(0);
-    rewriter.replaceOp(callOp, loadVal);
-    return mlir::success();
-  }
-
   // Utility function to create fast exponential operation
   Operation *createFastExpf(mlir::PatternRewriter &rewriter, Location loc,
                             Value input, Type returnType, bool ftz) const {
@@ -253,7 +155,6 @@ struct ConvertBuiltinFuncToLLVM
 
     RewritePatternSet patterns(context);
     patterns.add<CallOpConversion>(context, this->ftz);
-
     if (mlir::applyPatternsGreedily(mod, std::move(patterns), config)
             .failed()) {
       signalPassFailure();