intel
diff --git a/‎bin/CMakeLists.txt‎
Lines changed: 9 additions & 10 deletions b/‎bin/CMakeLists.txt‎
Lines changed: 9 additions & 10 deletions
diff --git a/‎cmake/llvm-hash.txt‎
Lines changed: 1 addition & 1 deletion b/‎cmake/llvm-hash.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎include/triton/Dialect/TritonGPU/IR/TritonGPUOps.td‎
Lines changed: 0 additions & 9 deletions b/‎include/triton/Dialect/TritonGPU/IR/TritonGPUOps.td‎
Lines changed: 0 additions & 9 deletions
diff --git a/‎lib/Dialect/Triton/Transforms/RewriteTensorDescriptorToPointer.cpp‎
Lines changed: 1 addition & 1 deletion b/‎lib/Dialect/Triton/Transforms/RewriteTensorDescriptorToPointer.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Dialect/Triton/Transforms/RewriteTensorPointer.cpp‎
Lines changed: 1 addition & 1 deletion b/‎lib/Dialect/Triton/Transforms/RewriteTensorPointer.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/SoftwarePipeliner.cpp‎
Lines changed: 2 additions & 2 deletions b/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/SoftwarePipeliner.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎python/src/ir.cc‎
Lines changed: 13 additions & 13 deletions b/‎python/src/ir.cc‎
Lines changed: 13 additions & 13 deletions
diff --git a/‎python/src/llvm.cc‎
Lines changed: 1 addition & 1 deletion b/‎python/src/llvm.cc‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎python/test/unit/language/test_core.py‎
Lines changed: 1 addition & 1 deletion b/‎python/test/unit/language/test_core.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎python/test/unit/language/test_line_info.py‎
Lines changed: 33 additions & 32 deletions b/‎python/test/unit/language/test_line_info.py‎
Lines changed: 33 additions & 32 deletions
@@ -1,5 +1,3 @@
-get_property(dialect_libs GLOBAL PROPERTY MLIR_DIALECT_LIBS)
-get_property(conversion_libs GLOBAL PROPERTY MLIR_CONVERSION_LIBS)
 get_property(triton_libs GLOBAL PROPERTY TRITON_LIBS)
 
 add_llvm_executable(triton-opt triton-opt.cpp PARTIAL_SOURCES_INTENDED)
@@ -8,8 +6,6 @@ add_llvm_executable(triton-opt triton-opt.cpp PARTIAL_SOURCES_INTENDED)
 llvm_update_compile_flags(triton-opt)
 target_link_libraries(triton-opt PRIVATE
   TritonIntelLLVMIR
-  ${dialect_libs}
-  ${conversion_libs}
   ${triton_libs}
   # tests
   TritonTestAnalysis
@@ -19,6 +15,8 @@ target_link_libraries(triton-opt PRIVATE
   # MLIR core
   MLIROptLib
   MLIRPass
+  MLIRRegisterAllDialects
+  MLIRRegisterAllPasses
   MLIRTransforms
 )
 
@@ -29,8 +27,6 @@ mlir_check_all_link_libraries(triton-reduce)
 
 llvm_update_compile_flags(triton-reduce)
 target_link_libraries(triton-reduce PRIVATE
-  ${dialect_libs}
-  ${conversion_libs}
   ${triton_libs}
   # tests
   TritonTestAnalysis
@@ -40,6 +36,8 @@ target_link_libraries(triton-reduce PRIVATE
   # MLIR core
   MLIRReduceLib
   MLIRPass
+  MLIRRegisterAllDialects
+  MLIRRegisterAllPasses
   MLIRTransforms
 )
 
@@ -49,8 +47,6 @@ add_llvm_executable(triton-lsp triton-lsp.cpp PARTIAL_SOURCES_INTENDED)
 
 llvm_update_compile_flags(triton-lsp)
 target_link_libraries(triton-lsp PRIVATE
-  ${dialect_libs}
-  ${conversion_libs}
   ${triton_libs}
   # tests
   TritonTestAnalysis
@@ -60,6 +56,8 @@ target_link_libraries(triton-lsp PRIVATE
   # MLIR core
   MLIRLspServerLib
   MLIRPass
+  MLIRRegisterAllDialects
+  MLIRRegisterAllPasses
   MLIRTransforms
 )
 
@@ -91,10 +89,11 @@ export_executable_symbols_for_plugins(triton-llvm-opt)
 add_llvm_executable(triton-tensor-layout triton-tensor-layout.cpp PARTIAL_SOURCES_INTENDED)
 target_link_libraries(triton-tensor-layout PRIVATE
   ${triton_libs}
-  ${conversion_libs}
-  ${dialect_libs}
   TritonTestAnalysis
   TritonTestDialect
   TritonTestProton
   TritonAMDGPUTestAnalysis
+  MLIRRegisterAllDialects
+  MLIRRegisterAllPasses
+  MLIRTransforms
   )
@@ -1 +1 @@
-570885128351868c1308bb22e8ca351d318bc4a1
+bc773632355b3cebde350b0341624e88be40b744
@@ -100,12 +100,6 @@ def TTG_AsyncCopyGlobalToLocalOp : TTG_Op<"async_copy_global_to_local", [
     DefaultValuedAttr<BoolAttr, "false">:$isVolatile
   );
 
-  let builders = [
-      OpBuilder<(ins "Value":$src, "Value":$result,
-                     "triton::CacheModifier":$cache,
-                     "triton::EvictionPolicy":$evict, "bool":$isVolatile)>,
-  ];
-
   let results = (outs TTG_AsyncToken:$token);
 
   let extraClassDeclaration = [{
@@ -395,9 +389,6 @@ def TTG_MaskOp: TTG_Op<"mask",
     let arguments = (ins I1:$pred);
     let results = (outs Variadic<AnyType>:$result);
     let regions = (region SizedRegion<1>:$region);
-    let builders = [
-        OpBuilder<(ins "Value":$pred)>,
-    ];
 }
 
 def TTG_MaskReturnOp: TTG_Op<"mask.return",
 
@@ -166,7 +166,7 @@ Value generateMaskFromOffsetRanges(OpBuilder &builder, const Location &loc,
 
     // Compare with lower bound
     Value lowerBound = builder.create<mlir::arith::ConstantIntOp>(
-        loc, 0, builder.getI64Type());
+        loc, builder.getI64Type(), 0);
     Value splatLowerBound = builder.create<triton::SplatOp>(
         loc, offsetWithRange.getType(), lowerBound);
     Value cmpLower = builder.create<arith::CmpIOp>(
 
@@ -135,7 +135,7 @@ struct RewritedInfo {
 
       // Compare with lower bound
       Value lowerBound = builder.create<mlir::arith::ConstantIntOp>(
-          loc, 0, builder.getI64Type());
+          loc, builder.getI64Type(), 0);
       Value splatLowerBound = builder.create<triton::SplatOp>(
           loc, offsetWithRange.getType(), lowerBound);
       Value cmpLower = builder.create<arith::CmpIOp>(
 
@@ -67,11 +67,11 @@ static void expandLoops(ModuleOp moduleOp) {
       if (isEpilogue) {
         // Return false for the predicate of the peeled iteration
         return rewriter.create<mlir::arith::ConstantIntOp>(
-            predOp.getLoc(), 0, predOp.getResult().getType());
+            predOp.getLoc(), predOp.getResult().getType(), 0);
       } else {
         if (predOp.getStage() == predOp.getMaxStage() - 1) {
           return rewriter.create<mlir::arith::ConstantIntOp>(
-              predOp.getLoc(), 1, predOp.getResult().getType());
+              predOp.getLoc(), predOp.getResult().getType(), 1);
         } else {
           OpBuilder::InsertionGuard guard(rewriter);
           rewriter.setInsertionPoint(op);
 
@@ -790,53 +790,53 @@ void init_triton_ir(py::module &&m) {
       .def("get_int1",
            [](TritonOpBuilder &self, bool v) -> Value {
              return Value(self.create<arith::ConstantIntOp>(
-                 v, self.getBuilder().getI1Type()));
+                 self.getBuilder().getI1Type(), v));
            })
       .def("get_int8",
            [](TritonOpBuilder &self, int64_t v) -> Value {
              return Value(self.create<arith::ConstantIntOp>(
-                 v, self.getBuilder().getI8Type()));
+                 self.getBuilder().getI8Type(), v));
            })
       .def("get_int16",
            [](TritonOpBuilder &self, int64_t v) -> Value {
              return Value(self.create<arith::ConstantIntOp>(
-                 v, self.getBuilder().getI16Type()));
+                 self.getBuilder().getI16Type(), v));
            })
       .def("get_int32",
            [](TritonOpBuilder &self, int64_t v) -> Value {
              return Value(self.create<arith::ConstantIntOp>(
-                 v, self.getBuilder().getI32Type()));
+                 self.getBuilder().getI32Type(), v));
            })
       .def("get_int64",
            [](TritonOpBuilder &self, int64_t v) -> Value {
              return Value(self.create<arith::ConstantIntOp>(
-                 v, self.getBuilder().getI64Type()));
+                 self.getBuilder().getI64Type(), v));
            })
       .def("get_uint8",
            [](TritonOpBuilder &self, uint64_t v) -> Value {
              return Value(self.create<arith::ConstantIntOp>(
-                 v, self.getBuilder().getI8Type()));
+                 self.getBuilder().getI8Type(), v));
            })
       .def("get_uint16",
            [](TritonOpBuilder &self, uint64_t v) -> Value {
              return Value(self.create<arith::ConstantIntOp>(
-                 v, self.getBuilder().getI16Type()));
+                 self.getBuilder().getI16Type(), v));
            })
       .def("get_uint32",
            [](TritonOpBuilder &self, uint64_t v) -> Value {
              return Value(self.create<arith::ConstantIntOp>(
-                 v, self.getBuilder().getI32Type()));
+                 self.getBuilder().getI32Type(), v));
            })
       .def("get_uint64",
            [](TritonOpBuilder &self, uint64_t v) -> Value {
              return Value(self.create<arith::ConstantIntOp>(
-                 v, self.getBuilder().getI64Type()));
+                 self.getBuilder().getI64Type(), v));
            })
       .def("get_bf16",
            [](TritonOpBuilder &self, float v) -> Value {
              auto type = self.getBuilder().getBF16Type();
              return self.create<arith::ConstantFloatOp>(
-                 APFloat(type.getFloatSemantics(), std::to_string(v)), type);
+                 type, APFloat(type.getFloatSemantics(), std::to_string(v)));
            })
       .def("get_fp16",
            [](TritonOpBuilder &self, float v) -> Value {
@@ -857,17 +857,17 @@ void init_triton_ir(py::module &&m) {
            [](TritonOpBuilder &self, Type type) -> Value {
              if (auto floatTy = dyn_cast<FloatType>(type))
                return self.create<arith::ConstantFloatOp>(
-                   APFloat(floatTy.getFloatSemantics(), 0), floatTy);
+                   floatTy, APFloat(floatTy.getFloatSemantics(), 0));
              else if (auto intTy = dyn_cast<IntegerType>(type))
-               return self.create<arith::ConstantIntOp>(0, intTy);
+               return self.create<arith::ConstantIntOp>(intTy, 0);
              else
                throw std::runtime_error("Not implemented");
            })
       .def("get_all_ones_value",
            [](TritonOpBuilder &self, Type type) -> Value {
              uint64_t val = 0xFFFFFFFFFFFFFFFF;
              if (auto intTy = dyn_cast<IntegerType>(type))
-               return self.create<arith::ConstantIntOp>(val, intTy);
+               return self.create<arith::ConstantIntOp>(intTy, val);
              else
                throw std::runtime_error("Not implemented");
            })
 
@@ -320,7 +320,7 @@ void init_triton_llvm(py::module &&m) {
         ModuleAnalysisManager mam;
 
         if (arch.empty()) {
-          llvm::TargetLibraryInfoImpl TLII;
+          llvm::TargetLibraryInfoImpl TLII(mod->getTargetTriple());
           TLII.disableAllFunctions();
           fam.registerPass([TLII = std::move(TLII)] {
             return llvm::TargetLibraryAnalysis(TLII);
 
@@ -1628,7 +1628,7 @@ def kernel(X, Z):
     # atom.add.bf16 is unsupported prior to Hopper so instead we generate an
     # atom.cas add loop on Ampere and prior
     if dst_type == 'bfloat16' and torch.cuda.get_device_capability()[0] < 9:
-        assert f"atom.{sem_str}.global.cas" in h.asm["ptx"]
+        assert f"atom.{sem_str}.gpu.global.cas" in h.asm["ptx"]
         return
 
     assert f"atom.global.gpu.{sem_str}" in h.asm["ptx"]
 
@@ -317,25 +317,26 @@ def kernel_basic(src, N, BLOCK_SIZE: tl.constexpr):
         # CHECK: #loc = loc("{{.*}}":316:0)
         # CHECK-LABEL:  tt.func public @kernel_basic(
         # CHECK-SAME:                                %src: !tt.ptr<f32> loc("src"(#loc)), %N: i32 loc("N"(#loc)))
-        # CHECK:          %cst = arith.constant dense<1.000000e+00> : tensor<16xf32> loc(#loc1)
-        # CHECK:          %c16_i32 = arith.constant 16 : i32 loc(#loc1)
-        # CHECK:          %pid = tt.get_program_id x : i32 loc(#loc14)
-        # CHECK:          %offset = arith.muli %pid, %c16_i32 : i32 loc(#loc15)
-        # CHECK:          %offsets = tt.make_range {end = 16 : i32, start = 0 : i32} : tensor<16xi32> loc(#loc16)
-        # CHECK:          %offsets_0 = tt.splat %offset : i32 -> tensor<16xi32> loc(#loc17)
-        # CHECK:          %offsets_1 = arith.addi %offsets_0, %offsets : tensor<16xi32> loc(#loc17)
-        # CHECK:          %load_src_store_dst = tt.splat %src : !tt.ptr<f32> -> tensor<16x!tt.ptr<f32>> loc(#loc18)
-        # CHECK:          %load_src_store_dst_2 = tt.addptr %load_src_store_dst, %offsets_1 : tensor<16x!tt.ptr<f32>>, tensor<16xi32> loc(#loc18)
-        # CHECK:          %mask = tt.splat %N : i32 -> tensor<16xi32> loc(#loc19)
-        # CHECK:          %mask_3 = arith.cmpi slt, %offsets_1, %mask : tensor<16xi32> loc(#loc19)
-        # CHECK:          %x_plus_1 = tt.load %load_src_store_dst_2, %mask_3 : tensor<16x!tt.ptr<f32>> loc(#loc20)
-        # CHECK:          %x_plus_1_4 = arith.addf %x_plus_1, %cst : tensor<16xf32> loc(#loc21)
-        # CHECK:          tt.store %load_src_store_dst_2, %x_plus_1_4, %mask_3 : tensor<16x!tt.ptr<f32>> loc(#loc10)
+        # CHECK:          %x_plus_1 = arith.constant dense<1.000000e+00> : tensor<16xf32> loc(#loc14)
+        # CHECK:          %c16_i32 = arith.constant 16 : i32 loc(#loc2)
+        # CHECK:          %pid = tt.get_program_id x : i32 loc(#loc15)
+        # CHECK:          %offset = arith.muli %pid, %c16_i32 : i32 loc(#loc16)
+        # CHECK:          %offsets = tt.make_range {end = 16 : i32, start = 0 : i32} : tensor<16xi32> loc(#loc17)
+        # CHECK:          %offsets_0 = tt.splat %offset : i32 -> tensor<16xi32> loc(#loc18)
+        # CHECK:          %offsets_1 = arith.addi %offsets_0, %offsets : tensor<16xi32> loc(#loc18)
+        # CHECK:          %load_src_store_dst = tt.splat %src : !tt.ptr<f32> -> tensor<16x!tt.ptr<f32>> loc(#loc19)
+        # CHECK:          %load_src_store_dst_2 = tt.addptr %load_src_store_dst, %offsets_1 : tensor<16x!tt.ptr<f32>>, tensor<16xi32> loc(#loc19)
+        # CHECK:          %mask = tt.splat %N : i32 -> tensor<16xi32> loc(#loc20)
+        # CHECK:          %mask_3 = arith.cmpi slt, %offsets_1, %mask : tensor<16xi32> loc(#loc20)
+        # CHECK:          %x_plus_1_4 = tt.load %load_src_store_dst_2, %mask_3 : tensor<16x!tt.ptr<f32>> loc(#loc21)
+        # CHECK:          %x_plus_1_5 = arith.addf %x_plus_1_4, %x_plus_1 : tensor<16xf32> loc(#loc14)
+        # CHECK:          tt.store %load_src_store_dst_2, %x_plus_1_5, %mask_3 : tensor<16x!tt.ptr<f32>> loc(#loc10)
         # CHECK:          tt.return loc(#loc11)
-        # CHECK:        } loc(#loc)
+        # CHECK:          } loc(#loc)
+        # CHECK:         } loc(#loc)
 
-        # CHECK: #loc1 = loc(unknown)
-        # CHECK: #loc2 = loc({{.*}})
+        # CHECK: #loc1 = loc({{.*}})
+        # CHECK: #loc2 = loc(unknown)
         # CHECK: #loc3 = loc({{.*}})
         # CHECK: #loc4 = loc({{.*}})
         # CHECK: #loc5 = loc({{.*}})
@@ -345,13 +346,13 @@ def kernel_basic(src, N, BLOCK_SIZE: tl.constexpr):
         # CHECK: #loc9 = loc({{.*}})
         # CHECK: #loc10 = loc({{.*}})
         # CHECK: #loc11 = loc({{.*}})
-        # CHECK: #loc14 = loc("pid"(#loc2))
-        # CHECK: #loc15 = loc("offset"(#loc3))
-        # CHECK: #loc16 = loc("offsets"(#loc4))
+        # CHECK: #loc14 = loc("x_plus_1"(#loc1))
+        # CHECK: #loc15 = loc("pid"(#loc3))
+        # CHECK: #loc16 = loc("offset"(#loc4))
         # CHECK: #loc17 = loc("offsets"(#loc5))
-        # CHECK: #loc18 = loc("load_src_store_dst"(#loc6))
-        # CHECK: #loc19 = loc("mask"(#loc7))
-        # CHECK: #loc20 = loc("x_plus_1"(#loc8))
+        # CHECK: #loc18 = loc("offsets"(#loc6))
+        # CHECK: #loc19 = loc("load_src_store_dst"(#loc7))
+        # CHECK: #loc20 = loc("mask"(#loc8))
         # CHECK: #loc21 = loc("x_plus_1"(#loc9))
 
         pid = tl.program_id(0)
@@ -459,20 +460,20 @@ def kernel_basic_while(N):
         # CHECK: %arange = tt.make_range {end = 16 : i32, start = 0 : i32} : tensor<16xi32>
         arange = tl.arange(0, 16)
         ivar = 0
-        # CHECK: %ivar:2 = scf.while (%arange_0 = %arange, %ivar_1 = %c0_i32) : (tensor<16xi32>, i32) -> (tensor<16xi32>, i32)
-        # CHECK: %[[COND:.*]] = arith.cmpi slt, %ivar_1, %N : i32
-        # CHECK: scf.condition(%[[COND]]) %arange_0, %ivar_1 : tensor<16xi32>, i32
+        # CHECK: %ivar_[[IV0:.+]]:2 = scf.while (%arange_[[AR0:.+]] = %arange, %ivar_[[IV1:.+]] = %ivar) : (tensor<16xi32>, i32) -> (tensor<16xi32>, i32)
+        # CHECK: %[[COND:.*]] = arith.cmpi slt, %ivar_[[IV1]], %N : i32
+        # CHECK: scf.condition(%[[COND]]) %arange_[[AR0]], %ivar_[[IV1]] : tensor<16xi32>, i32
         while ivar < N:
-            # CHECK: ^bb0(%arange_0: tensor<16xi32> loc("arange"), %ivar_1: i32
+            # CHECK: ^bb0(%arange_[[AR0]]: tensor<16xi32> loc("arange"), %ivar_[[IV1]]: i32
 
-            # CHECK: %ivar_2 = arith.addi %ivar_1, %c1_i32 : i32
+            # CHECK: %ivar_[[IV2:.+]] = arith.addi %ivar_[[IV1]], %c1_i32 : i32
             ivar += 1
-            # CHECK: %arange_3 = tt.splat %ivar_2 : i32 -> tensor<16xi32>
-            # CHECK: %arange_4 = arith.muli %arange_0, %arange_3 : tensor<16xi32>
-            # CHECK: scf.yield %arange_4, %ivar_2 : tensor<16xi32>, i32
+            # CHECK: %arange_[[AR1:.+]] = tt.splat %ivar_[[IV2]] : i32 -> tensor<16xi32>
+            # CHECK: %arange_[[AR2:.+]] = arith.muli %arange_[[AR0]], %arange_[[AR1]] : tensor<16xi32>
+            # CHECK: scf.yield %arange_[[AR2]], %ivar_[[IV2]] : tensor<16xi32>, i32
             arange *= ivar
 
-        # CHECK: tt.print ": " {hex = false, isSigned = array<i32: 1>} : %ivar#0 : tensor<16xi32>
+        # CHECK: tt.print ": " {hex = false, isSigned = array<i32: 1>} : %ivar_[[IV0]]#0 : tensor<16xi32>
         tl.device_print("", arange)
 
     h = triton.compile(triton.compiler.ASTSource(fn=kernel_basic_while, signature={"N": "i32"}, constexprs={}))
Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-570885128351868c1308bb22e8ca351d318bc4a1`
	`1`	`+bc773632355b3cebde350b0341624e88be40b744`