[TritonGEN] Add predicated store (#5195)

whitneywhtsang · web-flow · commit c54e067cc2b0 · 2025-09-27T00:19:55.000Z
Signed-off-by: Whitney Tsang &lt;whitney.tsang@intel.com&gt;
diff --git a/include/triton/Tools/Sys/GetEnv.hpp b/include/triton/Tools/Sys/GetEnv.hpp
@@ -53,7 +53,7 @@ inline const std::set<std::string> CACHE_INVALIDATING_ENV_VARS = {
     "TRITON_INTEL_ENABLE_INSTR_SCHED",
     "TRITON_INTEL_FAST_MATH",
     "TRITON_INTEL_ONE_MATRIX_PER_LOAD_BT",
-    "TRITON_INTEL_PREDICATED_LOAD",
+    "TRITON_INTEL_PREDICATED",
     "TRITON_INTEL_REDUCE_TRANSPOSE",
     // clang-format on
 };
diff --git a/test/Conversion/intel/tritongpu_to_gen.mlir b/test/Conversion/intel/tritongpu_to_gen.mlir
@@ -1,5 +1,5 @@
-// RUN: triton-opt %s -split-input-file --intel-allocate-shared-memory --convert-triton-intel-gpu-to-llvm --convert-tritongen-to-llvm | FileCheck %s --implicit-check-not=llvm.inline_asm --dump-input-context=20 --check-prefixes=CHECK,NO-PREDICATED
-// RUN: env TRITON_INTEL_PREDICATED_LOAD=1 triton-opt %s -split-input-file --intel-allocate-shared-memory --convert-triton-intel-gpu-to-llvm --convert-tritongen-to-llvm | FileCheck %s --implicit-check-not=llvm.inline_asm --dump-input-context=20 --check-prefixes=CHECK,PREDICATED
+// RUN: env TRITON_INTEL_PREDICATED=0 triton-opt %s -split-input-file --intel-allocate-shared-memory --convert-triton-intel-gpu-to-llvm --convert-tritongen-to-llvm | FileCheck %s --implicit-check-not=llvm.inline_asm --dump-input-context=20 --check-prefixes=CHECK,NO-PREDICATED
+// RUN: env TRITON_INTEL_PREDICATED=1 triton-opt %s -split-input-file --intel-allocate-shared-memory --convert-triton-intel-gpu-to-llvm --convert-tritongen-to-llvm | FileCheck %s --implicit-check-not=llvm.inline_asm --dump-input-context=20 --check-prefixes=CHECK,PREDICATED
 
 module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32} {
   // CHECK: llvm.func spir_kernelcc @test_empty_kernel(%arg0: i64, %arg1: !llvm.ptr<1>, %arg2: !llvm.ptr<1>, %arg3: !llvm.ptr<1>)
@@ -694,21 +694,27 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32} {
     // CHECK-NEXT: [[VEC2:%.*]] = llvm.mlir.undef : vector<1xi32>
     // CHECK-NEXT: [[ZERO:%.*]] = llvm.mlir.constant(0 : i32) : i32
     // CHECK-NEXT: [[IE2:%.*]] = llvm.insertelement [[BCAST1]], [[VEC2]][[[ZERO]] : i32] : vector<1xi32>
-    // CHECK-NEXT: llvm.cond_br [[ARG2_0]], ^bb1, ^bb2
-    // CHECK-NEXT: ^bb1:
-    // CHECK-NEXT:   [[BCAST2:%.*]] = llvm.bitcast [[ARG0_0]] : !llvm.ptr<1> to !llvm.ptr<1>
-    // CHECK-NEXT:   llvm.store [[IE2]], [[BCAST2]] {alignment = 4 : i64} : vector<1xi32>, !llvm.ptr<1>
-    // CHECK-NEXT:   llvm.br ^bb2
-    // CHECK-NEXT: ^bb2:
+    // CHECK-NEXT: [[BCAST2:%.*]] = llvm.bitcast [[ARG0_0]] : !llvm.ptr<1> to !llvm.ptr<1>
+    // PREDICATED-NEXT: [[BCAST3:%.*]] = llvm.bitcast [[IE2]] : vector<1xi32> to vector<1xf32>
+    // PREDICATED: [[ALIGNMENT:%.*]] = llvm.mlir.constant(4 : i64) : i64
+    // PREDICATED: llvm.call spir_funccc @llvm.genx.GenISA.PredicatedStore.p1f32.v1f32([[BCAST2]], [[BCAST3]], [[ALIGNMENT]], [[ARG2_0]]) {{.*}} : (!llvm.ptr<1>, vector<1xf32>, i64, i1) -> ()
+    // NO-PREDICATED: llvm.cond_br [[ARG2_0]], ^bb1, ^bb2
+    // NO-PREDICATED-NEXT: ^bb1:
+    // NO-PREDICATED-NEXT:   llvm.store [[IE2]], [[BCAST2]] {alignment = 4 : i64} : vector<1xi32>, !llvm.ptr<1>
+    // NO-PREDICATED-NEXT:   llvm.br ^bb2
+    // NO-PREDICATED-NEXT: ^bb2:
     // CHECK:        [[VEC3:%.*]] = llvm.mlir.undef : vector<1xi32>
     // CHECK-NEXT:   [[ZERO:%.*]] = llvm.mlir.constant(0 : i32) : i32
     // CHECK-NEXT:   [[IE3:%.*]] = llvm.insertelement {{.*}}, [[VEC3]][[[ZERO]] : i32] : vector<1xi32>
-    // CHECK:        llvm.cond_br [[ARG2_1]], ^bb3, ^bb4
-    // CHECK-NEXT: ^bb3:
     // CHECK-NEXT:   [[BCAST2:%.*]] = llvm.bitcast [[ARG0_1]] : !llvm.ptr<1> to !llvm.ptr<1>
-    // CHECK-NEXT:   llvm.store [[IE3]], [[BCAST2]] {alignment = 4 : i64} : vector<1xi32>, !llvm.ptr<1>
-    // CHECK-NEXT:   llvm.br ^bb4
-    // CHECK-NEXT: ^bb4:
+    // PREDICATED-NEXT: [[BCAST3:%.*]] = llvm.bitcast [[IE3]] : vector<1xi32> to vector<1xf32>
+    // PREDICATED: [[ALIGNMENT:%.*]] = llvm.mlir.constant(4 : i64) : i64
+    // PREDICATED: llvm.call spir_funccc @llvm.genx.GenISA.PredicatedStore.p1f32.v1f32([[BCAST2]], [[BCAST3]], [[ALIGNMENT]], [[ARG2_1]]) {{.*}} : (!llvm.ptr<1>, vector<1xf32>, i64, i1) -> ()
+    // NO-PREDICATED:        llvm.cond_br [[ARG2_1]], ^bb3, ^bb4
+    // NO-PREDICATED-NEXT: ^bb3:
+    // NO-PREDICATED-NEXT:   llvm.store [[IE3]], [[BCAST2]] {alignment = 4 : i64} : vector<1xi32>, !llvm.ptr<1>
+    // NO-PREDICATED-NEXT:   llvm.br ^bb4
+    // NO-PREDICATED-NEXT: ^bb4:
     tt.store %ptrs, %vals, %mask : tensor<256x!tt.ptr<f32>, #blocked0>
     tt.return
   }
@@ -1345,10 +1351,11 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32} {
   // CHECK-LABEL: store_f32_scalar
   tt.func @store_f32_scalar(%arg0 : !tt.ptr<f32>, %arg1 : f32) {
     // CHECK:      llvm.icmp "eq"
-    // CHECK:      llvm.cond_br {{.*}}, ^bb1, ^bb2
-    // CHECK-NEXT: ^bb1:
-    // CHECK-NEXT:   [[BCAST:%.*]] = llvm.bitcast %arg0 : !llvm.ptr<1> to !llvm.ptr<1>
-    // CHECK-NEXT:   llvm.store {{.*}}, [[BCAST]] {alignment = 4 : i64} : vector<1xi32>, !llvm.ptr<1>
+    // CHECK:      [[BCAST:%.*]] = llvm.bitcast %arg0 : !llvm.ptr<1> to !llvm.ptr<1>
+    // PREDICATED: llvm.call spir_funccc @llvm.genx.GenISA.PredicatedStore.p1f32.v1f32([[BCAST]], {{.*}}) {{.*}} : (!llvm.ptr<1>, vector<1xf32>, i64, i1) -> ()
+    // NO-PREDICATED:      llvm.cond_br {{.*}}, ^bb1, ^bb2
+    // NO-PREDICATED-NEXT: ^bb1:
+    // NO-PREDICATED-NEXT:   llvm.store {{.*}}, [[BCAST]] {alignment = 4 : i64} : vector<1xi32>, !llvm.ptr<1>
     tt.store %arg0, %arg1 : !tt.ptr<f32>
     tt.return
   }
diff --git a/test/TritonGEN/tritongen-to-llvm.mlir b/test/TritonGEN/tritongen-to-llvm.mlir
@@ -139,3 +139,12 @@ llvm.func @triton_gen.predicated_load(%ptr : !llvm.ptr<1>, %alignment : i64, %pr
   %0 = triton_gen.predicated_load %ptr, %alignment, %predicate, %default_value : !llvm.ptr<1>, i64, i1, i32 -> i32
   llvm.return
 }
+
+// -----
+
+llvm.func @triton_gen.predicated_store(%ptr : !llvm.ptr<1>, %value : i32, %alignment : i64, %predicate : i1) {
+  // CHECK:      llvm.func @triton_gen.predicated_store(%arg0: !llvm.ptr<1>, %arg1: i32, %arg2: i64, %arg3: i1) {
+  // CHECK:        llvm.call spir_funccc @llvm.genx.GenISA.PredicatedStore.p1i32.i32(%arg0, %arg1, %arg2, %arg3) {{.*}} : (!llvm.ptr<1>, i32, i64, i1) -> ()
+  triton_gen.predicated_store %ptr, %value, %alignment, %predicate : !llvm.ptr<1>, i32, i64, i1
+  llvm.return
+}
diff --git a/test/TritonGEN/tritongen.mlir b/test/TritonGEN/tritongen.mlir
@@ -95,4 +95,11 @@ llvm.func @triton_gen.predicated_load(%ptr : !llvm.ptr<1>, %alignment : i64, %pr
   %0 = triton_gen.predicated_load %ptr, %alignment, %predicate, %default_value : !llvm.ptr<1>, i64, i1, i32 -> i32
   llvm.return
 }
+
+llvm.func @triton_gen.predicated_store(%ptr : !llvm.ptr<1>, %value : i32, %alignment : i64, %predicate : i1) {
+  // CHECK:      llvm.func @triton_gen.predicated_store(%arg0: !llvm.ptr<1>, %arg1: i32, %arg2: i64, %arg3: i1) {
+  // CHECK-NEXT:    triton_gen.predicated_store %arg0, %arg1, %arg2, %arg3 : !llvm.ptr<1>, i32, i64, i1
+  triton_gen.predicated_store %ptr, %value, %alignment, %predicate : !llvm.ptr<1>, i32, i64, i1
+  llvm.return
+}
 }
diff --git a/third_party/intel/include/Dialect/TritonGEN/IR/TritonGENOps.td b/third_party/intel/include/Dialect/TritonGEN/IR/TritonGENOps.td
@@ -409,6 +409,26 @@ def TritonGEN_PredicatedLoadOp
   }];
 }
 
+def TritonGEN_PredicatedStoreOp
+: TritonGEN_Op<"predicated_store"> {
+  let summary = "Predicated store operation";
+  let description = [{
+    The `triton_gen.predicated_store` operation stores a value to memory
+    conditionally based on the predicate. If the predicate is true, the value
+    is stored to the specified pointer; otherwise, no operation is performed.
+  }];
+  let arguments = (ins
+      Arg<LLVM_AnyPointer, "", [MemWrite]>:$ptr,
+      AnyType:$value,
+      I64: $alignment,
+      I1:$predicate);
+  let results = (outs);
+  let assemblyFormat = [{
+    $ptr `,` $value `,` $alignment `,` $predicate attr-dict `:` qualified(type($ptr)) `,`
+    type($value) `,` type($alignment) `,` type($predicate)
+  }];
+}
+
 def TritonGEN_FToTf32Op
     : TritonGEN_Op<"f_to_tf32", [SameOperandsAndResultType]> {
   let summary = "Rounding instruction from float to tensor float (TF32) data format";
diff --git a/third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp b/third_party/intel/lib/TritonGENToLLVM/TritonGENToLLVMPass.cpp
@@ -960,6 +960,37 @@ struct TritonPredicatedLoadOpLowering
   }
 };
 
+struct TritonPredicatedStoreOpLowering
+    : public ConvertOpToLLVMPattern<TritonGEN::PredicatedStoreOp> {
+  using ConvertOpToLLVMPattern<
+      TritonGEN::PredicatedStoreOp>::ConvertOpToLLVMPattern;
+
+  LogicalResult
+  matchAndRewrite(TritonGEN::PredicatedStoreOp op, OpAdaptor adaptor,
+                  ConversionPatternRewriter &rewriter) const override {
+    MLIRContext *ctx = rewriter.getContext();
+    Location loc = op->getLoc();
+    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    Type valType = op.getValue().getType();
+    // Create a call to the SPIR-V builtin for predicated store.
+    std::string typeMangling = getGenISATypeMangling(valType);
+    std::string ptrTypeMangling = getGenISATypeMangling(valType);
+    if (auto vecTy = dyn_cast<VectorType>(valType))
+      ptrTypeMangling = getGenISATypeMangling(vecTy.getElementType());
+    std::string funcName = "llvm.genx.GenISA.PredicatedStore.p1" +
+                           ptrTypeMangling + "." + typeMangling;
+    SmallVector<Type> argTypes{ptr_ty(ctx, 1), valType, int_ty(64), int_ty(1)};
+    SmallVector<Value> args{op.getPtr(), op.getValue(), op.getAlignment(),
+                            op.getPredicate()};
+
+    LLVM::CallOp callOp = intel::createDeviceFunctionCall(
+        rewriter, funcName, void_ty(ctx), argTypes, args, {},
+        intel::noUnwindWillReturnAttrs);
+    rewriter.replaceOp(op, callOp);
+    return success();
+  }
+};
+
 struct TritonFToTf32OpLowering
     : public ConvertOpToLLVMPattern<TritonGEN::FToTf32Op> {
   using ConvertOpToLLVMPattern<TritonGEN::FToTf32Op>::ConvertOpToLLVMPattern;
@@ -1049,11 +1080,12 @@ struct TritonGENToLLVMDialectInterface : public ConvertToLLVMPatternInterface {
 
 void mlir::triton::populateTritonGENToLLVMConversionPatterns(
     LLVMTypeConverter &converter, RewritePatternSet &patterns) {
-  patterns.add<
-      TritonMatrixDPASLowering, TritonMatrix2DBlockLoadLowering,
-      TritonMatrix2DBlockStoreLowering, TritonMatrix2DBlockPrefetchLowering,
-      TritonSubGroupBlockReadLowering, TritonSubGroupBlockWriteLowering,
-      TritonPredicatedLoadOpLowering, TritonFToTf32OpLowering>(converter);
+  patterns
+      .add<TritonMatrixDPASLowering, TritonMatrix2DBlockLoadLowering,
+           TritonMatrix2DBlockStoreLowering,
+           TritonMatrix2DBlockPrefetchLowering, TritonSubGroupBlockReadLowering,
+           TritonSubGroupBlockWriteLowering, TritonPredicatedLoadOpLowering,
+           TritonPredicatedStoreOpLowering, TritonFToTf32OpLowering>(converter);
 }
 
 void registerConvertTritonTritonGENToLLVMInterface(DialectRegistry &registry) {
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/LoadStoreOpToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/LoadStoreOpToLLVM.cpp
@@ -3320,7 +3320,7 @@ struct LoadOpConversion : public ConvertOpToLLVMPattern<triton::LoadOp>,
       Value ret;
       // Create a predicated load operation.
       if (pred) {
-        if (triton::tools::getBoolEnv("TRITON_INTEL_PREDICATED_LOAD"))
+        if (triton::tools::getBoolEnv("TRITON_INTEL_PREDICATED"))
           ret = rewriter.create<TritonGEN::PredicatedLoadOp>(
               loc, retTy, addrElem, b.i64_val(alignment), pred, other_);
         else {
@@ -3756,17 +3756,24 @@ struct StoreOpConversion
         vecWord = b.insert_element(vecTy, vecWord, llWord, b.i32_val(index));
       }
 
+      Value addrElem = b.bitcast(ptrElems[vecStart], ptr_ty(ctx, 1 /*global*/));
+      uint32_t alignment = nWords * width / 8;
       auto createStore = [&]() -> ArrayRef<Value> {
-        Value addrElem =
-            b.bitcast(ptrElems[vecStart], ptr_ty(ctx, 1 /*global*/));
-        uint32_t alignment = nWords * width / 8;
         b.store(vecWord, addrElem, alignment);
         return ArrayRef<Value>();
       };
 
       if (maskVal) {
         // Create a predicated store operation.
-        LLVM::intel::createPredicatedBlock(rewriter, loc, maskVal, createStore);
+        if (triton::tools::getBoolEnv("TRITON_INTEL_PREDICATED")) {
+          unsigned numElems = valArgTy.getIntOrFloatBitWidth() * nWords /
+                              valueElemTy.getIntOrFloatBitWidth();
+          vecWord = b.bitcast(vecWord, vec_ty(valueElemTy, numElems));
+          rewriter.create<TritonGEN::PredicatedStoreOp>(
+              loc, addrElem, vecWord, b.i64_val(alignment), maskVal);
+        } else
+          LLVM::intel::createPredicatedBlock(rewriter, loc, maskVal,
+                                             createStore);
       } else {
         auto _ = createStore();
       }

Original file line number	Diff line number	Diff line change
`@@ -95,4 +95,11 @@ llvm.func @triton_gen.predicated_load(%ptr : !llvm.ptr<1>, %alignment : i64, %pr`
`95`	`95`	`%0 = triton_gen.predicated_load %ptr, %alignment, %predicate, %default_value : !llvm.ptr<1>, i64, i1, i32 -> i32`
`96`	`96`	`llvm.return`
`97`	`97`	`}`
	`98`	`+`
	`99`	`+llvm.func @triton_gen.predicated_store(%ptr : !llvm.ptr<1>, %value : i32, %alignment : i64, %predicate : i1) {`
	`100`	`+ // CHECK: llvm.func @triton_gen.predicated_store(%arg0: !llvm.ptr<1>, %arg1: i32, %arg2: i64, %arg3: i1) {`
	`101`	`+ // CHECK-NEXT: triton_gen.predicated_store %arg0, %arg1, %arg2, %arg3 : !llvm.ptr<1>, i32, i64, i1`
	`102`	`+ triton_gen.predicated_store %ptr, %value, %alignment, %predicate : !llvm.ptr<1>, i32, i64, i1`
	`103`	`+ llvm.return`
	`104`	`+}`
`98`	`105`	`}`