intel
diff --git a/‎README.md‎
Lines changed: 5 additions & 0 deletions b/‎README.md‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎lib/Target/LLVMIR/LLVMDIScope.cpp‎
Lines changed: 35 additions & 34 deletions b/‎lib/Target/LLVMIR/LLVMDIScope.cpp‎
Lines changed: 35 additions & 34 deletions
diff --git a/‎test/Conversion/amd/async-ops-alias-scopes.mlir‎
Lines changed: 2 additions & 2 deletions b/‎test/Conversion/amd/async-ops-alias-scopes.mlir‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎test/Conversion/amd/async_ops_to_llvm.mlir‎
Lines changed: 16 additions & 8 deletions b/‎test/Conversion/amd/async_ops_to_llvm.mlir‎
Lines changed: 16 additions & 8 deletions
diff --git a/‎test/Conversion/amd/buffer_load_to_local_to_llvm.mlir‎
Lines changed: 18 additions & 8 deletions b/‎test/Conversion/amd/buffer_load_to_local_to_llvm.mlir‎
Lines changed: 18 additions & 8 deletions
diff --git a/‎test/Proton/amd/protongpu_to_llvm.mlir‎
Lines changed: 8 additions & 21 deletions b/‎test/Proton/amd/protongpu_to_llvm.mlir‎
Lines changed: 8 additions & 21 deletions
diff --git a/‎third_party/amd/include/Dialect/TritonAMDGPU/IR/TritonAMDGPUOps.td‎
Lines changed: 50 additions & 1 deletion b/‎third_party/amd/include/Dialect/TritonAMDGPU/IR/TritonAMDGPUOps.td‎
Lines changed: 50 additions & 1 deletion
@@ -6,6 +6,11 @@
 |-------------------- | -------------------- |
 | [![Documentation](https://github.com/triton-lang/triton/actions/workflows/documentation.yml/badge.svg)](https://triton-lang.org/) | [![Wheels](https://github.com/triton-lang/triton/actions/workflows/wheels.yml/badge.svg)](https://github.com/triton-lang/triton/actions/workflows/wheels.yml) |
 
+# Conference Registration
+
+The 3rd Triton conference is scheduled to take place on October 21, 2025. Click [here](https://tritonconference.eventbuilder.com/TritonDeveloperConference) to register!
+
+
 # Triton
 
 This is the development repository of Triton, a language and compiler for writing highly efficient custom Deep-Learning primitives. The aim of Triton is to provide an open-source environment to write fast code at higher productivity than CUDA, but also with higher flexibility than other existing DSLs.
 
@@ -30,8 +30,9 @@ FileLineColLoc extractFileLoc(Location loc) {
     return extractFileLoc(opaqueLoc.getFallbackLocation());
   if (auto fusedLoc = dyn_cast<FusedLoc>(loc))
     return extractFileLoc(fusedLoc.getLocations().front());
-  if (auto callerLoc = dyn_cast<CallSiteLoc>(loc))
-    return extractFileLoc(callerLoc.getCaller());
+  // Prefer the innermost callee for callsite locations.
+  if (auto csLoc = dyn_cast<CallSiteLoc>(loc))
+    return extractFileLoc(csLoc.getCallee());
   StringAttr unknownFile = mlir::StringAttr::get(loc.getContext(), "<unknown>");
   return mlir::FileLineColLoc::get(unknownFile, 0, 0);
 }
@@ -109,39 +110,39 @@ struct LLVMDIScopePass : public impl::LLVMDIScopeBase<LLVMDIScopePass> {
     funcOp->setLoc(FusedLoc::get(context, {loc}, subprogramAttr));
   }
 
-  // Get a nested loc for inlined functions
-  Location getNestedLoc(Operation *op, LLVM::DIScopeAttr scopeAttr,
-                        Location calleeLoc) {
-    auto calleeFileName = extractFileLoc(calleeLoc).getFilename();
-    auto context = op->getContext();
-    LLVM::DIFileAttr calleeFileAttr = LLVM::DIFileAttr::get(
-        context, llvm::sys::path::filename(calleeFileName),
-        llvm::sys::path::parent_path(calleeFileName));
-    auto lexicalBlockFileAttr = LLVM::DILexicalBlockFileAttr::get(
-        context, scopeAttr, calleeFileAttr, /*discriminator=*/0);
-    Location loc = calleeLoc;
-    if (mlir::isa<CallSiteLoc>(calleeLoc)) {
-      auto nestedLoc = mlir::cast<CallSiteLoc>(calleeLoc).getCallee();
-      loc = getNestedLoc(op, lexicalBlockFileAttr, nestedLoc);
-    }
-    return FusedLoc::get(context, {loc}, lexicalBlockFileAttr);
-  }
-
   void setLexicalBlockFileAttr(Operation *op) {
-    auto opLoc = op->getLoc();
-    if (auto callSiteLoc = dyn_cast<CallSiteLoc>(opLoc)) {
-      auto callerLoc = callSiteLoc.getCaller();
-      auto calleeLoc = callSiteLoc.getCallee();
-      LLVM::DIScopeAttr scopeAttr;
-      // We assemble the full inline stack so the parent of this loc must be a
-      // function
-      auto funcOp = op->getParentOfType<LLVM::LLVMFuncOp>();
-      auto funcOpLoc = mlir::cast<FusedLoc>(funcOp.getLoc());
-      scopeAttr = mlir::cast<LLVM::DISubprogramAttr>(funcOpLoc.getMetadata());
-      auto loc =
-          CallSiteLoc::get(getNestedLoc(op, scopeAttr, calleeLoc), callerLoc);
-      op->setLoc(loc);
-    }
+    Location opLoc = op->getLoc();
+    if (!isa<CallSiteLoc>(opLoc))
+      return;
+
+    auto funcOp = op->getParentOfType<LLVM::LLVMFuncOp>();
+    auto funcOpLoc = mlir::cast<FusedLoc>(funcOp.getLoc());
+    auto scopeAttr =
+        mlir::cast<LLVM::DISubprogramAttr>(funcOpLoc.getMetadata());
+
+    MLIRContext *ctx = op->getContext();
+    std::function<Location(Location)> makeScoped =
+        [&](Location loc) -> Location {
+      if (auto cs = dyn_cast<CallSiteLoc>(loc)) {
+        Location newCallee = makeScoped(cs.getCallee());
+        Location newCaller = makeScoped(cs.getCaller());
+        return CallSiteLoc::get(newCallee, newCaller);
+      }
+
+      // Build a DIFile for this leaf location
+      FileLineColLoc fileLine = extractFileLoc(loc);
+      StringRef inputFilePath = fileLine.getFilename().getValue();
+      LLVM::DIFileAttr fileAttr =
+          LLVM::DIFileAttr::get(ctx, llvm::sys::path::filename(inputFilePath),
+                                llvm::sys::path::parent_path(inputFilePath));
+
+      auto lexicalBlock =
+          LLVM::DILexicalBlockFileAttr::get(ctx, scopeAttr, fileAttr,
+                                            /*discriminator=*/0);
+      return FusedLoc::get(ctx, {loc}, lexicalBlock);
+    };
+
+    op->setLoc(makeScoped(opLoc));
   }
 
   void runOnOperation() override {
 
@@ -1,5 +1,5 @@
-// RUN: triton-opt %s -split-input-file --allocate-shared-memory --convert-triton-amdgpu-to-llvm=arch=gfx950 --convert-scf-to-cf --convert-builtin-func-to-llvm | FileCheck %s --check-prefixes=COMMON,GFX950
-// RUN: triton-opt %s -split-input-file --allocate-shared-memory --convert-triton-amdgpu-to-llvm=arch=gfx942 --convert-scf-to-cf --convert-builtin-func-to-llvm | FileCheck %s --check-prefixes=COMMON,GFX942
+// RUN: triton-opt %s -split-input-file --allocate-shared-memory --convert-triton-amdgpu-to-llvm=arch=gfx950 --convert-scf-to-cf | FileCheck %s --check-prefixes=COMMON,GFX950
+// RUN: triton-opt %s -split-input-file --allocate-shared-memory --convert-triton-amdgpu-to-llvm=arch=gfx942 --convert-scf-to-cf | FileCheck %s --check-prefixes=COMMON,GFX942
 
 // COMMON: [[$ASYNC_COPY_SCOPE:#.*]] = #llvm.alias_scope<id = "amdgpu.AsyncCopies"
 // COMMON: [[$LOCAL_LOAD_SCOPE:#.*]] = #llvm.alias_scope<id = "amdgpu.LocalLoads"
 
@@ -176,22 +176,26 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.shar
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     %2 = ttg.async_copy_global_to_local %1, %arg2 mask %67 other %cst_0 : tensor<32x32x!tt.ptr<f32>, #blocked> -> <32x32xf32, #shared, #smem, mutable>
     tt.return
@@ -236,28 +240,32 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.shar
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: rocdl.ds_bpermute
     // CHECK: rocdl.ballot
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: rocdl.ds_bpermute
     // CHECK: rocdl.ballot
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     // CHECK: rocdl.ds_bpermute
     // CHECK: rocdl.ballot
     // CHECK: llvm.cond_br
     // CHECK: rocdl.global.load.lds
     // CHECK-NEXT: llvm.br
-    // CHECK: _predicated_store
+    // CHECK: llvm.cond_br
+    // CHECK: llvm.store
 
     %2 = ttg.async_copy_global_to_local %1, %arg2 mask %67 other %cst_0 : tensor<32x32x!tt.ptr<f32>, #blocked> -> <32x32xf32, #shared, #smem, mutable>
     tt.return
 
@@ -147,19 +147,25 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.shar
     // Note that mask/other alignment is 1 so we need 4 conditionals
 
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON-NOT: rocdl.raw.ptr.buffer.load.lds
     // COMMON-NOT: _predicated_store
+    // COMMON-NOT: llvm.cond_br
+    // COMMON-NOT: llvm.store
 
     amdgpu.buffer_load_to_local %arg1[%arg2] mask=%67 other=%cst_0 into %arg3 : <f32>[tensor<32x32xi32, #blocked>] tensor<32x32xf32, #blocked>  -> <32x32xf32, #shared, #smem, mutable>
     tt.return
@@ -257,22 +263,26 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.shar
     // COMMON: rocdl.ds_bpermute
     // COMMON: rocdl.ballot
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.ds_bpermute
     // COMMON: rocdl.ballot
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.ds_bpermute
     // COMMON: rocdl.ballot
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON: rocdl.ds_bpermute
     // COMMON: rocdl.ballot
     // COMMON: rocdl.raw.ptr.buffer.load.lds
-    // COMMON: _predicated_store
+    // COMMON: llvm.cond_br
+    // COMMON: llvm.store
 
     // COMMON-NOT: rocdl.ds_bpermute
     // COMMON-NOT: rocdl.ballot
 
@@ -82,7 +82,7 @@ module attributes {"ttg.num-warps" = 8 : i32, ttg.profile_scratch_memory_alignme
     // CHECK-DAG: rocdl.workgroup.id.z
     // CHECK-DAG: rocdl.grid.dim.x
     // CHECK-DAG: rocdl.grid.dim.y
-    // CHECK-DAG: %[[PID:.*]] = llvm.trunc %15 : i64 to i32
+    // CHECK-DAG: %[[PID:.*]] = llvm.trunc %{{.*}} : i64 to i32
     // CHECK-DAG: %[[SIZE:.*]] = llvm.mlir.constant(384 : i32)
     // CHECK-DAG: %{{.*}} = llvm.mul %[[PID]], %[[SIZE]] : i32
     %1 = proton_gpu.global_scratch_alloc {alignment = 128 : i32, nbytes = 384 : i32, offset = 0 : i32} : !tt.ptr<i32>
@@ -91,37 +91,24 @@ module attributes {"ttg.num-warps" = 8 : i32, ttg.profile_scratch_memory_alignme
 }
 
 // -----
-
 #shared = #ttg.swizzled_shared<{vec = 1, perPhase = 1, maxPhase = 1, order = [0]}>
 #smem = #ttg.shared_memory
 module attributes {"ttg.num-warps" = 8 : i32, ttg.profile_scratch_memory_alignment = 128 : i32, ttg.profile_scratch_memory_size = 384 : i32} {
   // CHECK-LABEL: convert_smem_finalize
   // CHECK: llvm.inline_asm asm_dialect = att operand_attrs = [] "s_getreg_b32 $0, hwreg(HW_REG_XCC_ID, 0, 3)", "=s"  : () -> i32
   // CHECK: llvm.inline_asm asm_dialect = att operand_attrs = [] "s_getreg_b32 $0, hwreg(HW_REG_HW_ID, 8, 4)", "=s"  : () -> i32
   // CHECK: llvm.inline_asm asm_dialect = att operand_attrs = [] "s_getreg_b32 $0, hwreg(HW_REG_HW_ID, 13, 3)", "=s"  : () -> i32
-  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb1, ^bb9
-  // CONVERT-BUILTIN: ^bb1:  // pred: ^bb0
+  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb1, ^bb3
+  // CONVERT-BUILTIN: ^bb1:
   // CONVERT-BUILTIN: llvm.store %{{.*}}, %{{.*}} : i32, !llvm.ptr<1>
   // CONVERT-BUILTIN: llvm.br ^bb2(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb2(%{{.*}}: i32):  // 2 preds: ^bb1, ^bb8
-  // CONVERT-BUILTIN: llvm.cond_br %1, ^bb3, ^bb4
-  // CONVERT-BUILTIN: bb3:  // pred: ^bb2
-  // CONVERT-BUILTIN: %{{.*}} = llvm.load %{{.*}} : !llvm.ptr<3> -> i32
-  // CONVERT-BUILTIN: llvm.br ^bb5(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb4:  // pred: ^bb2
-  // CONVERT-BUILTIN: llvm.br ^bb5(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb5(%{{.*}}: i32):  // 2 preds: ^bb3, ^bb4
+  // CONVERT-BUILTIN: ^bb2(%{{.*}}: i32):
+  // CONVERT-BUILTIN: llvm.load %{{.*}} : !llvm.ptr<3> -> i32
   // CONVERT-BUILTIN: llvm.store %{{.*}}, %{{.*}} : i32, !llvm.ptr<1>
-  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb6, ^bb7
-  // CONVERT-BUILTIN: ^bb6:  // pred: ^bb5
-  // CONVERT-BUILTIN: %{{.*}} = llvm.load %{{.*}} : !llvm.ptr<3> -> i32
-  // CONVERT-BUILTIN: llvm.br ^bb8(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb7:  // pred: ^bb5
-  // CONVERT-BUILTIN: llvm.br ^bb8(%{{.*}} : i32)
-  // CONVERT-BUILTIN: ^bb8(%{{.*}}: i32):  // 2 preds: ^bb6, ^bb7
+  // CONVERT-BUILTIN: llvm.load %{{.*}} : !llvm.ptr<3> -> i32
   // CONVERT-BUILTIN: llvm.store %{{.*}}, %{{.*}} : i32, !llvm.ptr<1>
-  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb2(%{{.*}} : i32), ^bb9
-  // CONVERT-BUILTIN: ^bb9:  // 2 preds: ^bb0, ^bb8
+  // CONVERT-BUILTIN: llvm.cond_br %{{.*}}, ^bb2(%{{.*}} : i32), ^bb3
+  // CONVERT-BUILTIN: ^bb3:
   // CHECK: llvm.return
   llvm.func @convert_smem_finalize(%arg: !llvm.ptr<1>) attributes {noinline = false, nvvm.kernel = 1 : ui1} {
     %0 = ttg.local_alloc : () -> !ttg.memdesc<512xi32, #shared, #smem, mutable>
 
@@ -519,6 +519,56 @@ def TTG_UpcastMXFPOp : TT_AMDGPU_Op<"upcast_mxfp", [Pure]> {
   }];
 }
 
+//===----------------------------------------------------------------------===//
+// MaskedLoadOp
+//===----------------------------------------------------------------------===//
+def MaskedLoadOp : TT_AMDGPU_Op<"masked_load", []> {
+  let summary = "Masked load operation";
+  let description = [{
+    Load operation with masking support. If the mask is true, loads from the given pointer. Works with LLVM types as a utility op for making LLVM conversion easier.
+  }];
+  let arguments = (ins
+    LLVM_AnyPointer:$ptr,
+    I1:$mask,
+    LLVM_Type:$falseVal,
+    DefaultValuedAttr<TT_CacheModifierAttr, "::mlir::triton::CacheModifier::NONE">:$cache,
+    DefaultValuedAttr<BoolAttr, "false">:$forceNoAlias
+  );
+
+  let results = (outs LLVM_Type:$result);
+
+  let assemblyFormat = [{
+    $ptr `,` $mask `,` $falseVal
+    oilist(`cacheModifier` `=` $cache)
+    (`forceNoAlias` $forceNoAlias^)?
+    attr-dict `:` functional-type(operands, results)
+  }];
+}
+
+//===----------------------------------------------------------------------===//
+// MaskedStoreOp
+//===----------------------------------------------------------------------===//
+def MaskedStoreOp : TT_AMDGPU_Op<"masked_store", []> {
+  let summary = "Masked Store operation";
+  let description = [{
+    Store operation with masking support. If the mask is true, Store from the given pointer. Works with LLVM types as a utility op for making LLVM conversion easier.
+  }];
+  let arguments = (ins
+    LLVM_AnyPointer:$ptr,
+    LLVM_Type:$value,
+    I1:$mask,
+    DefaultValuedAttr<TT_CacheModifierAttr, "::mlir::triton::CacheModifier::NONE">:$cache,
+    DefaultValuedAttr<BoolAttr, "false">:$forceNoAlias
+  );
+
+  let assemblyFormat = [{
+    $ptr `,` $value `,` $mask
+    oilist(`cacheModifier` `=` $cache)
+    (`forceNoAlias` $forceNoAlias^)?
+    attr-dict `:` type(operands)
+  }];
+}
+
 //===----------------------------------------------------------------------===//
 // ScaledUpcastFp4Op
 //===----------------------------------------------------------------------===//
@@ -579,7 +629,6 @@ def ScaledUpcastFp8Op : TT_AMDGPU_Op<"scaled_upcast_fp8", [
         `:` type($input) `,` type($scale) `->` type($output)
   }];
 }
-
 //===----------------------------------------------------------------------===//
 // InThreadTransposeOp
 //===----------------------------------------------------------------------===//