intel
diff --git a/‎Makefile
Lines changed: 2 additions & 2 deletions b/‎Makefile
Lines changed: 2 additions & 2 deletions
diff --git a/‎include/triton/Dialect/Triton/IR/TritonOps.td
Lines changed: 0 additions & 65 deletions b/‎include/triton/Dialect/Triton/IR/TritonOps.td
Lines changed: 0 additions & 65 deletions
diff --git a/‎include/triton/Dialect/Triton/IR/TritonTypes.td
Lines changed: 1 addition & 1 deletion b/‎include/triton/Dialect/Triton/IR/TritonTypes.td
Lines changed: 1 addition & 1 deletion
diff --git a/‎include/triton/Dialect/TritonNvidiaGPU/IR/TritonNvidiaGPUOps.td
Lines changed: 80 additions & 35 deletions b/‎include/triton/Dialect/TritonNvidiaGPU/IR/TritonNvidiaGPUOps.td
Lines changed: 80 additions & 35 deletions
diff --git a/‎include/triton/Dialect/TritonNvidiaGPU/Transforms/Passes.td
Lines changed: 1 addition & 1 deletion b/‎include/triton/Dialect/TritonNvidiaGPU/Transforms/Passes.td
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Analysis/Allocation.cpp
Lines changed: 4 additions & 1 deletion b/‎lib/Analysis/Allocation.cpp
Lines changed: 4 additions & 1 deletion
diff --git a/‎lib/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.cpp
Lines changed: 0 additions & 2 deletions b/‎lib/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.cpp
Lines changed: 0 additions & 2 deletions
diff --git a/‎lib/Dialect/Triton/IR/Ops.cpp
Lines changed: 0 additions & 18 deletions b/‎lib/Dialect/Triton/IR/Ops.cpp
Lines changed: 0 additions & 18 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/Canonicalize.cpp
Lines changed: 0 additions & 1 deletion b/‎lib/Dialect/TritonGPU/Transforms/Canonicalize.cpp
Lines changed: 0 additions & 1 deletion
diff --git a/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/LowerLoops.cpp
Lines changed: 3 additions & 4 deletions b/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/LowerLoops.cpp
Lines changed: 3 additions & 4 deletions
@@ -106,9 +106,9 @@ dev-install-llvm:
 
 .PHONY: golden-samples
 golden-samples: triton-opt
-	$(TRITON_OPT) test/TritonGPU/samples/simulated-grouped-gemm.mlir.in -tritongpu-pipeline -canonicalize | \
+	$(TRITON_OPT) test/TritonGPU/samples/simulated-grouped-gemm.mlir.in -tritongpu-assign-latencies -tritongpu-schedule-loops -tritongpu-pipeline -canonicalize | \
 		$(PYTHON) utils/generate-test-checks.py --source test/TritonGPU/samples/simulated-grouped-gemm.mlir.in --source_delim_regex="\bmodule" \
 		-o test/TritonGPU/samples/simulated-grouped-gemm.mlir
-	$(TRITON_OPT) test/TritonGPU/samples/descriptor-matmul-pipeline.mlir.in -tritongpu-pipeline -canonicalize | \
+	$(TRITON_OPT) test/TritonGPU/samples/descriptor-matmul-pipeline.mlir.in -tritongpu-assign-latencies -tritongpu-schedule-loops -tritongpu-pipeline -canonicalize | \
 		$(PYTHON) utils/generate-test-checks.py --source test/TritonGPU/samples/descriptor-matmul-pipeline.mlir.in --source_delim_regex="\bmodule" \
 		-o test/TritonGPU/samples/descriptor-matmul-pipeline.mlir
@@ -1033,22 +1033,6 @@ def TT_MakeTensorDescOp : TT_Op<"make_tensor_descriptor", [
   }];
 }
 
-def ReinterpretTensorDescOp : TT_Op<"reinterpret_tensor_descriptor", [Pure]> {
-  let summary = "Reinterpret a pointer as a tensor descriptor";
-
-  let description = [{
-     This Op exists to help the transition from untyped raw TMA objects to typed Tensor descriptor objects.
-     Ideally, we can remove this once the APIs are fully fleshed out.
-  }];
-
-  let arguments = (ins TT_Ptr:$rawDesc);
-  let results = (outs TT_TensorDescType:$result);
-
-  let assemblyFormat = [{
-    $rawDesc attr-dict `:` qualified(type($rawDesc))  `to` qualified(type($result))
-  }];
-}
-
 // The following ops, including `call`, `func`, and `return` are copied and modified from
 // https://github.com/llvm/llvm-project/blob/main/mlir/include/mlir/Dialect/Func/IR/FuncOps.td
 // We could revert it back once MLIR has a better inliner interface.
@@ -1390,54 +1374,5 @@ def TT_DescriptorScatterOp : TT_Op<"descriptor_scatter", [TT_DescriptorStoreLike
   let hasVerifier = 1;
 }
 
-def TT_ExperimentalTensormapCreateOp: TT_Op<
-  "experimental_tensormap_create",
-  [
-    MemoryEffects<[MemRead<GlobalMemory>, MemWrite<GlobalMemory>]>,
-    AttrSizedOperandSegments,
-  ]
-> {
-  let summary = "Create a new TMA descriptor on device";
-  let arguments = (
-      ins
-      TT_PtrType:$desc_ptr,
-      TT_PtrType:$global_address,
-      Variadic<I32>:$box_dim,
-      Variadic<I32>:$global_dim,
-      Variadic<I64>:$global_stride,
-      Variadic<I32>:$element_stride,
-      ConfinedAttr<I32Attr, [IntNonNegative, IntMaxValue<15>]>:$elem_type,
-      ConfinedAttr<I32Attr, [IntNonNegative, IntMaxValue<2>]>:$interleave_layout,
-      ConfinedAttr<I32Attr, [IntNonNegative, IntMaxValue<3>]>:$swizzle_mode,
-      ConfinedAttr<I32Attr, [IntNonNegative, IntMaxValue<1>]>:$fill_mode
-  );
-  let extraClassDeclaration = [{
-      int32_t getRank() {
-          return getBoxDim().size();
-      }
-  }];
-  let assemblyFormat = [{
-    $desc_ptr `,` $global_address `,`
-    `[` $box_dim `]` `,`
-    `[` $global_dim `]` `,`
-    `[` $global_stride `]` `,`
-    `[` $element_stride `]`
-    attr-dict `:` functional-type(operands, results)
-  }];
-
-  let hasVerifier = 1;
-}
-
-def TT_ExperimentalTensormapFenceproxyAcquireOp: TT_Op<
-  "experimental_tensormap_fenceproxy_acquire",
-  [MemoryEffects<[MemWrite<GlobalMemory>]>]
-> {
-  let summary = "Acquire fence on a tensormap object";
-  let arguments = (ins TT_PtrType:$desc_ptr);
-  let assemblyFormat = [{
-    $desc_ptr attr-dict `:` qualified(type($desc_ptr))
-  }];
-}
-
 
 #endif // Triton_OPS
@@ -92,7 +92,7 @@ def TT_TensorPtr : TT_PtrOf<[TT_Tensor]>;
 // Any Type in Triton IR
 def TT_Type : AnyTypeOf<[TT_FloatLike, TT_IntLike, TT_PtrLike, TT_TensorPtr]>;
 
-// Result type of ExperimentalMakeTensorDescriptor
+// Result type of MakeTensorDescriptor
 def TT_TensorDescType : TritonTypeDef<"TensorDesc", "tensordesc", []> {
   let summary = "Tensor descriptor type (`::mlir::triton::TensorDescType`) in Triton IR type system";
 
 
@@ -262,26 +262,6 @@ def TTNG_ArriveBarrierOp : TTNG_Op<"arrive_barrier"> {
   let hasVerifier = 1;
 }
 
-def TTNG_TensorDescToTMAPtrOp : TTNG_Op<"tensor_desc_to_tma_ptr", [Pure]> {
-  let summary = "Convert tensor descriptor to pointer to tma descriptor";
-
-  let arguments = (ins TT_TensorDescType:$desc);
-  let results = (outs TT_Ptr:$ptr);
-
-  let assemblyFormat = [{
-    $desc attr-dict `:` qualified(type($desc)) `to` qualified(type($ptr))
-  }];
-
-  let builders = [
-    OpBuilder<(ins "Value":$desc), [{
-      auto ptrTy = triton::PointerType::get($_builder.getI8Type(), 1);
-      build($_builder, $_state, ptrTy, desc);
-    }]>
-  ];
-
-  let hasCanonicalizeMethod = 1;
-}
-
 
 def TTNG_AsyncTMACopyGlobalToLocalOp : TTNG_Op<"async_tma_copy_global_to_local"> {
   let summary = "copy data based on descriptor from global memory to local memory asynchronously";
@@ -291,12 +271,12 @@ def TTNG_AsyncTMACopyGlobalToLocalOp : TTNG_Op<"async_tma_copy_global_to_local">
     asynchronously.  This is analogue to tt.load except the data are copied to
     local memory pointed by the memory descriptor instead of a distributed
     tensor. The data copied depends on the global memory descriptor pointed to
-    by `desc_ptr`.
+    by `desc`.
   }];
 
   let hasVerifier = 1;
   let arguments = (ins
-    Arg<TT_PtrType, "", [MemRead<GlobalMemory>]>:$desc_ptr,
+    Arg<TT_TensorDescType, "", [MemRead<GlobalMemory>]>:$desc,
     Variadic<I32>:$coord,
     Arg<TTG_MemDescType, "", [MemWrite<SharedMemory>]>:$barrier,
     Arg<TTG_MemDescType, "", [MemWrite<SharedMemory>]>:$result,
@@ -307,9 +287,9 @@ def TTNG_AsyncTMACopyGlobalToLocalOp : TTNG_Op<"async_tma_copy_global_to_local">
   );
 
   let assemblyFormat = [{
-    $desc_ptr `[` $coord `]` $result `,` $barrier `,` $pred
+    $desc `[` $coord `]` $result `,` $barrier `,` $pred
     oilist(`cacheModifier` `=` $cache | `evictionPolicy` `=` $evict)
-    attr-dict `:` qualified(type($desc_ptr)) `,` qualified(type($barrier)) `->` qualified(type($result))
+    attr-dict `:` qualified(type($desc)) `,` qualified(type($barrier)) `->` qualified(type($result))
   }];
 }
 
@@ -321,18 +301,18 @@ def TTNG_AsyncTMACopyLocalToGlobalOp : TTNG_Op<"async_tma_copy_local_to_global">
     asynchronously.  This is analogue to tt.store except the data are copied from
     local memory pointed by the memory descriptor instead of a distributed
     tensor. The data copied depends on the global memory descriptor pointed to
-    by `desc_ptr`.
+    by `desc`.
   }];
 
   let arguments = (ins
-    Arg<TT_PtrType, "", [MemRead<GlobalMemory>, MemWrite<GlobalMemory>]>:$desc_ptr,
+    Arg<TT_TensorDescType, "", [MemRead<GlobalMemory>, MemWrite<GlobalMemory>]>:$desc,
     Variadic<I32>:$coord,
     Arg<TTG_MemDescType, "", [MemRead<SharedMemory>]>:$src
   );
 
   let assemblyFormat = [{
-    $desc_ptr `[` $coord `]` $src
-    attr-dict `:` qualified(type($desc_ptr)) `,` qualified(type($src))
+    $desc `[` $coord `]` $src
+    attr-dict `:` qualified(type($desc)) `,` qualified(type($src))
   }];
 }
 
@@ -348,14 +328,14 @@ def TTNG_AsyncTMAReduceOp : TTNG_Op<"async_tma_reduce", [MemoryEffects<[MemRead<
 
   let arguments = (ins
     TT_DescriptorReduceKindAttr:$kind,
-    Arg<TT_PtrType, "", [MemRead<GlobalMemory>]>:$desc_ptr,
+    Arg<TT_TensorDescType, "", [MemRead<GlobalMemory>]>:$desc,
     Variadic<I32>:$coord,
     Arg<TTG_MemDescType, "", [MemRead<SharedMemory>]>:$src
   );
 
   let assemblyFormat = [{
-    $kind `,` $desc_ptr `[` $coord `]` $src
-    attr-dict `:` qualified(type($desc_ptr)) `,` qualified(type($src))
+    $kind `,` $desc `[` $coord `]` $src
+    attr-dict `:` qualified(type($desc)) `,` qualified(type($src))
   }];
 }
 
@@ -369,7 +349,7 @@ def TTNG_AsyncTMAGatherOp : TTNG_Op<"async_tma_gather"> {
   }];
 
   let arguments = (ins
-    Arg<TT_PtrType, "", [MemRead<GlobalMemory>]>:$desc_ptr,
+    Arg<TT_TensorDescType, "", [MemRead<GlobalMemory>]>:$desc,
     RankedTensorOf<[I32]>:$x_offsets,
     I32:$y_offset,
     Arg<TTG_MemDescType, "", [MemWrite<SharedMemory>]>:$barrier,
@@ -378,7 +358,7 @@ def TTNG_AsyncTMAGatherOp : TTNG_Op<"async_tma_gather"> {
   );
 
   let assemblyFormat = [{
-    $desc_ptr `[` $x_offsets `,` $y_offset `]` $result `,` $barrier `,` $pred
+    $desc `[` $x_offsets `,` $y_offset `]` $result `,` $barrier `,` $pred
     attr-dict `:` type(operands)
   }];
 
@@ -397,14 +377,14 @@ def TTNG_AsyncTMAScatterOp : TTNG_Op<"async_tma_scatter"> {
   }];
 
   let arguments = (ins
-    Arg<TT_PtrType, "", [MemRead<GlobalMemory>, MemWrite<GlobalMemory>]>:$desc_ptr,
+    Arg<TT_TensorDescType, "", [MemRead<GlobalMemory>, MemWrite<GlobalMemory>]>:$desc,
     RankedTensorOf<[I32]>:$x_offsets,
     I32:$y_offset,
     Arg<TTG_MemDescType, "", [MemRead<SharedMemory>]>:$src
   );
 
   let assemblyFormat = [{
-    $desc_ptr `[` $x_offsets `,` $y_offset `]` $src
+    $desc `[` $x_offsets `,` $y_offset `]` $src
     attr-dict `:` type(operands)
   }];
 
@@ -700,4 +680,69 @@ def TTNG_TMEMCopyOp : TTNG_Op<"tmem_copy"> {
   let hasVerifier = 1;
 }
 
+def TTNG_ReinterpretTensorDescOp : TTNG_Op<"reinterpret_tensor_descriptor", [Pure]> {
+  let summary = "Reinterpret a pointer as a tensor descriptor";
+
+  let description = [{
+     This Op exists to help the transition from untyped raw TMA objects to typed Tensor descriptor objects.
+     Ideally, we can remove this once the APIs are fully fleshed out.
+  }];
+
+  let arguments = (ins TT_Ptr:$rawDesc);
+  let results = (outs TT_TensorDescType:$result);
+
+  let assemblyFormat = [{
+    $rawDesc attr-dict `:` qualified(type($rawDesc))  `to` qualified(type($result))
+  }];
+}
+
+def TTNG_TensormapCreateOp: TTNG_Op<
+  "tensormap_create",
+  [
+    MemoryEffects<[MemRead<GlobalMemory>, MemWrite<GlobalMemory>]>,
+    AttrSizedOperandSegments,
+  ]
+> {
+  let summary = "Create a new TMA descriptor on device";
+  let arguments = (
+      ins
+      TT_PtrType:$desc_ptr,
+      TT_PtrType:$global_address,
+      Variadic<I32>:$box_dim,
+      Variadic<I32>:$global_dim,
+      Variadic<I64>:$global_stride,
+      Variadic<I32>:$element_stride,
+      ConfinedAttr<I32Attr, [IntNonNegative, IntMaxValue<15>]>:$elem_type,
+      ConfinedAttr<I32Attr, [IntNonNegative, IntMaxValue<2>]>:$interleave_layout,
+      ConfinedAttr<I32Attr, [IntNonNegative, IntMaxValue<3>]>:$swizzle_mode,
+      ConfinedAttr<I32Attr, [IntNonNegative, IntMaxValue<1>]>:$fill_mode
+  );
+  let extraClassDeclaration = [{
+      int32_t getRank() {
+          return getBoxDim().size();
+      }
+  }];
+  let assemblyFormat = [{
+    $desc_ptr `,` $global_address `,`
+    `[` $box_dim `]` `,`
+    `[` $global_dim `]` `,`
+    `[` $global_stride `]` `,`
+    `[` $element_stride `]`
+    attr-dict `:` functional-type(operands, results)
+  }];
+
+  let hasVerifier = 1;
+}
+
+def TTNG_TensormapFenceproxyAcquireOp: TTNG_Op<
+  "tensormap_fenceproxy_acquire",
+  [MemoryEffects<[MemWrite<GlobalMemory>]>]
+> {
+  let summary = "Acquire fence on a tensormap object";
+  let arguments = (ins TT_PtrType:$desc_ptr);
+  let assemblyFormat = [{
+    $desc_ptr attr-dict `:` qualified(type($desc_ptr))
+  }];
+}
+
 #endif
@@ -64,7 +64,7 @@ def TritonNvidiaGPUTMALoweringPass : Pass<"triton-nvidia-tma-lowering", "mlir::M
   let summary = "lower to TMA load/store operations";
 
   let description = [{
-    Lower Triton experimental descriptor load to TMA load/store operations in TritonNvidiaGPUDialect.
+    Lower Triton descriptor load to TMA load/store operations in TritonNvidiaGPUDialect.
   }];
 
   let dependentDialects = [
 
@@ -9,6 +9,7 @@
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "triton/Dialect/Triton/IR/Utility.h"
 #include "triton/Dialect/TritonGPU/IR/Dialect.h"
+#include "triton/Dialect/TritonNvidiaGPU/IR/Dialect.h"
 #include "llvm/ADT/SmallVector.h"
 #include "llvm/Support/Debug.h"
 #include "llvm/Support/raw_ostream.h"
@@ -17,6 +18,8 @@
 #define DBGS() (llvm::dbgs() << "[" DEBUG_TYPE "]: ")
 #define LDBG(X) LLVM_DEBUG(DBGS() << X << "\n")
 
+namespace ttng = mlir::triton::nvidia_gpu;
+
 namespace mlir {
 
 //===----------------------------------------------------------------------===//
@@ -206,7 +209,7 @@ unsigned defaultAllocationAnalysisScratchSizeFn(Operation *op) {
     assert(!isa<PointerType>(elemTy) && "unexpected pointer type");
     return elems * std::max<int>(8, elemTy.getIntOrFloatBitWidth()) / 8;
   }
-  if (isa<ExperimentalTensormapCreateOp>(op)) {
+  if (isa<ttng::TensormapCreateOp>(op)) {
     constexpr int32_t kTMASize = 128;
     return kTMASize;
   }
 
@@ -568,8 +568,6 @@ void populateTritonPatterns(TritonGPUTypeConverter &typeConverter,
       GenericOpPattern<triton::DescriptorLoadOp>,
       GenericOpPattern<triton::DescriptorStoreOp>,
       GenericOpPattern<triton::DescriptorReduceOp>,
-      GenericOpPattern<triton::ExperimentalTensormapCreateOp>,
-      GenericOpPattern<triton::ExperimentalTensormapFenceproxyAcquireOp>,
       // this assumes the right layout will be set later for dot scaled.
       GenericOpPattern<triton::DotScaledOp>,
       GenericOpPattern<triton::CallOp>,
 
@@ -1364,23 +1364,5 @@ LogicalResult DescriptorStoreOp::verify() {
                                        getSrc().getType());
 }
 
-// -- ExperimentalTensormapCreateOp --
-LogicalResult ExperimentalTensormapCreateOp::verify() {
-  auto rank = getBoxDim().size();
-  if (getGlobalDim().size() != rank) {
-    return emitError("Rank mismatch for global dim. Got ")
-           << getGlobalDim().size() << " but expected " << rank;
-  }
-  if (getGlobalStride().size() + 1 != rank) {
-    return emitError("Rank mismatch for global stride. Got ")
-           << getGlobalStride().size() << " but expected " << rank - 1;
-  }
-  if (getElementStride().size() != rank) {
-    return emitError("Rank mismatch for element stride. Got ")
-           << getElementStride().size() << " but expected " << rank;
-  }
-  return success();
-}
-
 } // namespace triton
 } // namespace mlir
@@ -45,7 +45,6 @@ void Canonicalize::runOnOperation() {
   BroadcastOp::getCanonicalizationPatterns(patterns, ctx);
   ExpandDimsOp::getCanonicalizationPatterns(patterns, ctx);
   ttg::WarpSpecializeOp::getCanonicalizationPatterns(patterns, ctx);
-  ttng::TensorDescToTMAPtrOp::getCanonicalizationPatterns(patterns, ctx);
 
   (void)applyPatternsGreedily(getOperation(), std::move(patterns));
 }
@@ -312,8 +312,7 @@ void createTMAAsyncCopy(
   Value view = createSingleBufferView(builder, alloc, insertIdx);
 
   Value pred = builder.create<arith::ConstantIntOp>(1, 1);
-  Value tmaPtr = builder.create<triton::nvidia_gpu::TensorDescToTMAPtrOp>(desc);
-  createCopy(builder, tmaPtr, barrier, view, pred);
+  createCopy(builder, desc, barrier, view, pred);
 
   // Create local load after the wait
   builder.setInsertionPointAfter(waitOp);
@@ -697,8 +696,8 @@ LogicalResult rewriteTMABufferUpdates(
     if (failed(ttng::createTMADesc(nextBuf, makeDescOp, builder))) {
       return failure();
     }
-    builder.create<triton::ExperimentalTensormapFenceproxyAcquireOp>(nextBuf);
-    Value nextDesc = builder.create<triton::ReinterpretTensorDescOp>(
+    builder.create<ttng::TensormapFenceproxyAcquireOp>(nextBuf);
+    Value nextDesc = builder.create<ttng::ReinterpretTensorDescOp>(
         makeDescOp.getType(), nextBuf);
 
     makeDescOp.getResult().replaceAllUsesWith(nextDesc);
Original file line number	Diff line number	Diff line change
`@@ -45,7 +45,6 @@ void Canonicalize::runOnOperation() {`
`45`	`45`	`BroadcastOp::getCanonicalizationPatterns(patterns, ctx);`
`46`	`46`	`ExpandDimsOp::getCanonicalizationPatterns(patterns, ctx);`
`47`	`47`	`ttg::WarpSpecializeOp::getCanonicalizationPatterns(patterns, ctx);`
`48`		`- ttng::TensorDescToTMAPtrOp::getCanonicalizationPatterns(patterns, ctx);`
`49`	`48`
`50`	`49`	`(void)applyPatternsGreedily(getOperation(), std::move(patterns));`
`51`	`50`	`}`