intel
diff --git a/‎include/triton/Dialect/TritonGPU/Transforms/PartitionBuilder.h
Lines changed: 3 additions & 3 deletions b/‎include/triton/Dialect/TritonGPU/Transforms/PartitionBuilder.h
Lines changed: 3 additions & 3 deletions
diff --git a/‎include/triton/Dialect/TritonGPU/Transforms/PipeliningUtility.h
Lines changed: 24 additions & 1 deletion b/‎include/triton/Dialect/TritonGPU/Transforms/PipeliningUtility.h
Lines changed: 24 additions & 1 deletion
diff --git a/‎include/triton/Dialect/TritonGPU/Transforms/Utility.h
Lines changed: 5 additions & 2 deletions b/‎include/triton/Dialect/TritonGPU/Transforms/Utility.h
Lines changed: 5 additions & 2 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/LowerLoops.cpp
Lines changed: 4 additions & 62 deletions b/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/LowerLoops.cpp
Lines changed: 4 additions & 62 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/PipeliningUtility.cpp
Lines changed: 105 additions & 4 deletions b/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/PipeliningUtility.cpp
Lines changed: 105 additions & 4 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/Utility.cpp
Lines changed: 8 additions & 4 deletions b/‎lib/Dialect/TritonGPU/Transforms/Utility.cpp
Lines changed: 8 additions & 4 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/WarpSpecialization/LoadMMASpecialization.cpp
Lines changed: 0 additions & 9 deletions b/‎lib/Dialect/TritonGPU/Transforms/WarpSpecialization/LoadMMASpecialization.cpp
Lines changed: 0 additions & 9 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/WarpSpecialization/RewritePartitionDependencies.cpp
Lines changed: 13 additions & 7 deletions b/‎lib/Dialect/TritonGPU/Transforms/WarpSpecialization/RewritePartitionDependencies.cpp
Lines changed: 13 additions & 7 deletions
@@ -1,5 +1,5 @@
-#ifndef TRITONGPU_WARPSPECIALIZATION_PARTITIONBUILDER_H
-#define TRITONGPU_WARPSPECIALIZATION_PARTITIONBUILDER_H
+#ifndef TRITON_TRITONGPU_TRANSFORMS_PARTITIONBUILDER_H
+#define TRITON_TRITONGPU_TRANSFORMS_PARTITIONBUILDER_H
 
 #include "mlir/IR/ImplicitLocOpBuilder.h"
 
@@ -33,4 +33,4 @@ StageCluster getStageCluster(Operation *op);
 
 } // namespace mlir::triton::gpu
 
-#endif // TRITONGPU_WARPSPECIALIZATION_PARTITIONBUILDER_H
+#endif // TRITON_TRITONGPU_TRANSFORMS_PARTITIONBUILDER_H
@@ -132,7 +132,14 @@ void combineRedundantWaitOps(
     llvm::SmallSetVector<gpu::AsyncWaitOp, 8> &waitOps);
 
 // Get the type of the view of a multi-buffered tensor value.
-gpu::MemDescType getBufferViewType(gpu::MemDescType allocTy);
+gpu::MemDescType getBufferViewType(gpu::MemDescType allocTy,
+                                   bool mutableMemory = true);
+
+// Get a mutable, multi-buffered version of the given memdesc type, with
+// multiplicity "depth".
+gpu::MemDescType getMultiBufferedType(gpu::MemDescType memDescType,
+                                      int32_t depth);
+
 // Get a generic shared encoding for a tensor.
 gpu::SharedEncodingTrait getSharedEncoding(RankedTensorType ty);
 // Get a shared encoding for a tensor based on its uses.
@@ -157,6 +164,22 @@ Value createIncrementModulo(OpBuilder &builder, Location loc, Value counter,
 
 scf::ForOp lowerTMADescriptors(scf::ForOp forOp, CoarseSchedule &schedule);
 
+DenseSet<Operation *>
+getTopLevelUsersInLoop(Operation *op, scf::ForOp forOp,
+                       std::function<bool(Operation *)> filter = nullptr);
+
+// Return the "first" op in terms of the stage and cluser ordering
+Operation *
+getFirstUseOfPipelinedOp(ArrayRef<Operation *> ops, scf::ForOp forOp,
+                         CoarseSchedule &schedule,
+                         std::function<bool(Operation *)> filterUse = nullptr);
+
+// Return the "last" op in terms of the stage and cluser ordering
+Operation *
+getLastUseOfPipelinedOp(ArrayRef<Operation *> ops, scf::ForOp forOp,
+                        CoarseSchedule &schedule,
+                        std::function<bool(Operation *)> filterUse = nullptr);
+
 } // namespace triton
 } // namespace mlir
 
 
@@ -255,8 +255,11 @@ namespace mlir::triton {
 /// Replace all uses of `oldUse` with `val` and propagate the type if needed.
 /// This is useful when we need to change a memory descriptor from immutable to
 /// mutable.
-void replaceUsesAndPropagateType(OpBuilder &builder, Operation *oldUse,
-                                 Value val);
+/// The callback is invoked for each pair of an old and a cloned memdesc op
+/// as the type is propagated.
+void replaceUsesAndPropagateType(
+    OpBuilder &builder, Operation *oldUse, Value val,
+    std::function<void(Operation *, Operation *)> callback = nullptr);
 
 /// Replace all uses of `old` with a local load from `alloc` unless the use is a
 /// `ttg.local_alloc` with a matching shared encoding, in which case the shared
 
@@ -48,66 +48,6 @@ int getSelfLatencyFromAttr(Operation *op) {
   return val;
 }
 
-DenseSet<Operation *>
-getTopLevelUsersInLoop(Operation *op, scf::ForOp forOp,
-                       std::function<bool(Operation *)> filter = nullptr) {
-  DenseSet<Operation *> topLevelUsers;
-  SmallVector<OpOperand *> q;
-  for (auto &use : op->getUses())
-    q.push_back(&use);
-  while (!q.empty()) {
-    auto use = q.pop_back_val();
-    auto yieldOp = dyn_cast<scf::YieldOp>(use->getOwner());
-    if (yieldOp && yieldOp->getParentOp() == forOp) {
-      for (auto &use :
-           forOp.getRegionIterArgs()[use->getOperandNumber()].getUses())
-        q.push_back(&use);
-      continue;
-    }
-    // Don't count view operations as uses. Follow them through to their
-    // users.
-    if (use->getOwner()->hasTrait<OpTrait::MemDescViewTrait>()) {
-      for (auto &use : use->getOwner()->getUses())
-        q.push_back(&use);
-      continue;
-    }
-    if (filter && !filter(use->getOwner()))
-      continue;
-    Operation *topLevelUser =
-        forOp.getBody()->findAncestorOpInBlock(*use->getOwner());
-    topLevelUsers.insert(topLevelUser);
-  }
-  return topLevelUsers;
-}
-
-Operation *getFirstUseOfPipelinedOp(SmallVector<Operation *> ops,
-                                    scf::ForOp forOp,
-                                    CoarseSchedule &schedule) {
-  Operation *firstUser = nullptr;
-  DenseSet<Operation *> topLevelUsers;
-  for (Operation *op : ops) {
-    auto users = getTopLevelUsersInLoop(op, forOp);
-    topLevelUsers.insert(users.begin(), users.end());
-  }
-  for (Operation *topLevelUser : topLevelUsers) {
-    assert(schedule.count(topLevelUser) && "op user not found in the schedule");
-    auto [_useStage, _useCluster] = schedule[topLevelUser];
-    if (!firstUser) {
-      firstUser = topLevelUser;
-    } else {
-      auto [_firstUserStage, _firstUserCluster] = schedule[firstUser];
-      if (_useStage < _firstUserStage ||
-          (_useStage == _firstUserStage &&
-           schedule.clusters.isBefore(_useCluster, _firstUserCluster)) ||
-          (_useStage == _firstUserStage && _useCluster == _firstUserCluster &&
-           topLevelUser->isBeforeInBlock(firstUser))) {
-        firstUser = topLevelUser;
-      }
-    }
-  }
-  return firstUser;
-}
-
 // Check if the load can be pipelined entirely in shared memory,
 // or if we need to load to registers.
 bool mustLoadToRegisters(Operation *op) {
@@ -142,7 +82,8 @@ int getDefUseStageDiff(Operation *op, scf::ForOp forOp,
   assert(schedule.count(op) && "Op not found in the schedule");
   int defStage = schedule[op].first;
   std::optional<int> useStage;
-  DenseSet<Operation *> topLevelUsers = getTopLevelUsersInLoop(op, forOp);
+  DenseSet<Operation *> topLevelUsers =
+      triton::getTopLevelUsersInLoop(op, forOp);
   // Special case for loads used by local_alloc:
   // we must consider the uses of the local_alloc, as it may be removed and its
   // uses will become direct uses of the async load.
@@ -152,7 +93,8 @@ int getDefUseStageDiff(Operation *op, scf::ForOp forOp,
     DenseSet<Operation *> allocUsers;
     for (Operation *topLevelUser : topLevelUsers) {
       if (auto localAlloc = dyn_cast<ttg::LocalAllocOp>(topLevelUser)) {
-        DenseSet<Operation *> users = getTopLevelUsersInLoop(localAlloc, forOp);
+        DenseSet<Operation *> users =
+            triton::getTopLevelUsersInLoop(localAlloc, forOp);
         allocUsers.insert(users.begin(), users.end());
       }
     }
 
@@ -561,15 +561,25 @@ void mlir::triton::combineRedundantWaitOps(
   }
 }
 
-ttg::MemDescType mlir::triton::getBufferViewType(ttg::MemDescType allocTy) {
-  Attribute sharedMemorySpace =
-      ttg::SharedMemorySpaceAttr::get(allocTy.getContext());
+ttg::MemDescType mlir::triton::getBufferViewType(ttg::MemDescType allocTy,
+                                                 bool mutableMemory) {
   return ttg::MemDescType::get(allocTy.getShape().drop_front(),
                                allocTy.getElementType(), allocTy.getEncoding(),
-                               sharedMemorySpace, /*mutableMemory=*/true,
+                               allocTy.getMemorySpace(), mutableMemory,
                                /*allocShape=*/allocTy.getAllocShape());
 }
 
+ttg::MemDescType
+mlir::triton::getMultiBufferedType(ttg::MemDescType memDescType,
+                                   int32_t depth) {
+  auto shape = memDescType.getShape();
+  SmallVector<int64_t> bufferShape(shape.begin(), shape.end());
+  bufferShape.insert(bufferShape.begin(), depth);
+  return ttg::MemDescType::get(
+      bufferShape, memDescType.getElementType(), memDescType.getEncoding(),
+      memDescType.getMemorySpace(), /*mutableMemory*/ true);
+}
+
 ttg::SharedEncodingTrait mlir::triton::getSharedEncoding(RankedTensorType ty) {
   auto ctaLayout = ttg::getCTALayout(ty.getEncoding());
   auto order = ttg::getOrder(ty);
@@ -810,3 +820,94 @@ scf::ForOp triton::lowerTMADescriptors(scf::ForOp forOp,
   }
   return forOp;
 }
+
+DenseSet<Operation *>
+triton::getTopLevelUsersInLoop(Operation *op, scf::ForOp forOp,
+                               std::function<bool(Operation *)> filter) {
+  DenseSet<Operation *> topLevelUsers;
+  SmallVector<OpOperand *> q;
+  for (auto &use : op->getUses())
+    q.push_back(&use);
+  while (!q.empty()) {
+    auto use = q.pop_back_val();
+    auto yieldOp = dyn_cast<scf::YieldOp>(use->getOwner());
+    if (yieldOp && yieldOp->getParentOp() == forOp) {
+      for (auto &use :
+           forOp.getRegionIterArgs()[use->getOperandNumber()].getUses())
+        q.push_back(&use);
+      continue;
+    }
+    // Don't count view operations as uses. Follow them through to their
+    // users.
+    if (use->getOwner()->hasTrait<OpTrait::MemDescViewTrait>()) {
+      for (auto &use : use->getOwner()->getUses())
+        q.push_back(&use);
+      continue;
+    }
+    if (filter && !filter(use->getOwner()))
+      continue;
+    Operation *topLevelUser =
+        forOp.getBody()->findAncestorOpInBlock(*use->getOwner());
+    topLevelUsers.insert(topLevelUser);
+  }
+  return topLevelUsers;
+}
+
+// Helper function that finds an operation based on a comparison predicate
+static Operation *getUseOfPipelinedOp(
+    ArrayRef<Operation *> ops, scf::ForOp forOp,
+    triton::CoarseSchedule &schedule,
+    std::function<bool(Operation *)> filterUse,
+    std::function<bool(Operation *, Operation *)> shouldPrefer) {
+  DenseSet<Operation *> topLevelUsers;
+  Operation *selectedUser = nullptr;
+  for (Operation *op : ops) {
+    auto users = triton::getTopLevelUsersInLoop(op, forOp, filterUse);
+    topLevelUsers.insert(users.begin(), users.end());
+  }
+  for (Operation *topLevelUser : topLevelUsers) {
+    assert(schedule.count(topLevelUser) && "op user not found in the schedule");
+    if (!selectedUser || shouldPrefer(topLevelUser, selectedUser)) {
+      selectedUser = topLevelUser;
+    }
+  }
+  return selectedUser;
+}
+
+Operation *
+triton::getFirstUseOfPipelinedOp(ArrayRef<Operation *> ops, scf::ForOp forOp,
+                                 triton::CoarseSchedule &schedule,
+                                 std::function<bool(Operation *)> filterUse) {
+  return getUseOfPipelinedOp(
+      ops, forOp, schedule, filterUse,
+      [&](Operation *candidate, Operation *current) {
+        auto [candidateStage, candidateCluster] = schedule[candidate];
+        auto [currentStage, currentCluster] = schedule[current];
+
+        return candidateStage < currentStage ||
+               (candidateStage == currentStage &&
+                schedule.clusters.isBefore(candidateCluster, currentCluster)) ||
+               (candidateStage == currentStage &&
+                candidateCluster == currentCluster &&
+                candidate->isBeforeInBlock(current));
+      });
+}
+
+Operation *
+triton::getLastUseOfPipelinedOp(ArrayRef<Operation *> ops, scf::ForOp forOp,
+                                triton::CoarseSchedule &schedule,
+                                std::function<bool(Operation *)> filterUse) {
+  return getUseOfPipelinedOp(
+      ops, forOp, schedule, filterUse,
+      [&](Operation *candidate, Operation *current) {
+        auto [candidateStage, candidateCluster] = schedule[candidate];
+        auto [currentStage, currentCluster] = schedule[current];
+
+        return candidateStage > currentStage ||
+               (candidateStage == currentStage &&
+                schedule.clusters.isBefore(currentCluster, candidateCluster)) ||
+               (candidateStage == currentStage &&
+                candidateCluster == currentCluster &&
+                current->isBeforeInBlock(candidate));
+      });
+}
@@ -1463,8 +1463,10 @@ void eraseLoopCarriedValues(scf::ForOp &loop, llvm::BitVector indices) {
 } // namespace mlir
 
 namespace mlir::triton {
-void replaceUsesAndPropagateType(OpBuilder &builder, Operation *oldUse,
-                                 Value val) {
+
+void replaceUsesAndPropagateType(
+    OpBuilder &builder, Operation *oldUse, Value val,
+    std::function<void(Operation *, Operation *)> callback) {
   OpBuilder::InsertionGuard guard(builder);
   SmallVector<Operation *> opsToDelete;
   SmallVector<OpOperand *> operandsToReplace;
@@ -1515,7 +1517,10 @@ void replaceUsesAndPropagateType(OpBuilder &builder, Operation *oldUse,
     assert(newVal && "unhandled memdesc view");
     newVal.getDefiningOp()->setAttrs(user->getAttrs());
     replaceUsesAndPropagateType(builder, user, newVal);
-    opsToDelete.push_back(use.getOwner());
+    opsToDelete.push_back(user);
+    if (callback) {
+      callback(user, newVal.getDefiningOp());
+    }
   }
 
   // Perform late replacement.
@@ -1530,7 +1535,6 @@ void replaceUsesAndPropagateType(OpBuilder &builder, Operation *oldUse,
       wait.replaceAllUsesWith(newWait.getResults());
       wait.erase();
     } else {
-      Operation *op = operand->getOwner();
       operand->set(val);
     }
   }
 
@@ -85,15 +85,6 @@ getPartitionScheme(scf::ForOp loop, const WarpSchedule &schedule) {
 // Utilities
 //===----------------------------------------------------------------------===//
 
-static void replaceAllUsesDominatedBy(Operation *domOp, Value newValue,
-                                      Value oldValue, DominanceInfo &domInfo) {
-  if (newValue == oldValue)
-    return;
-  oldValue.replaceUsesWithIf(newValue, [&](OpOperand &use) {
-    return domInfo.properlyDominates(domOp, use.getOwner());
-  });
-}
-
 static std::pair<Value, Value> postIncrementModulo(ImplicitLocOpBuilder &b,
                                                    Value index, Value phase,
                                                    unsigned numStages) {
 
@@ -63,12 +63,14 @@ struct AsyncRef {
                StageCluster srcStageCluster) {
     auto zero = b.create<arith::ConstantOp>(b.getI32IntegerAttr(0));
     auto enterOp = b.createInto<triton::nvws::ArefPutEnterOp>(
-        partition, srcStageCluster, viewType, aref, zero, zero);
+        partition, srcStageCluster, viewType, tokenType, aref, zero, zero);
+    auto token = enterOp.getToken();
 
-    auto exitOp = [this, &partition, srcStageCluster](PartitionBuilder &b) {
+    auto exitOp = [this, &partition, srcStageCluster,
+                   token](PartitionBuilder &b) {
       auto zero = b.create<arith::ConstantOp>(b.getI32IntegerAttr(0));
       auto exitOp = b.createInto<triton::nvws::ArefPutExitOp>(
-          partition, srcStageCluster, aref, zero,
+          partition, srcStageCluster, aref, token, zero,
           b.getArrayAttr(SmallVector<Attribute>{triton::nvws::AsyncOpAttr::get(
               aref.getContext(), triton::nvws::AsyncOp::NONE)}));
     };
@@ -79,12 +81,14 @@ struct AsyncRef {
                StageCluster srcStageCluster) {
     auto zero = b.create<arith::ConstantOp>(b.getI32IntegerAttr(0));
     auto enterOp = b.createInto<triton::nvws::ArefGetEnterOp>(
-        partition, srcStageCluster, viewType, aref, zero, zero);
+        partition, srcStageCluster, viewType, tokenType, aref, zero, zero);
+    auto token = enterOp.getToken();
 
-    auto exitOp = [this, &partition, srcStageCluster](PartitionBuilder &b) {
+    auto exitOp = [this, &partition, srcStageCluster,
+                   token](PartitionBuilder &b) {
       auto zero = b.create<arith::ConstantOp>(b.getI32IntegerAttr(0));
       auto exitOp = b.createInto<triton::nvws::ArefGetExitOp>(
-          partition, srcStageCluster, aref, zero,
+          partition, srcStageCluster, aref, token, zero,
           b.getArrayAttr(SmallVector<Attribute>{triton::nvws::AsyncOpAttr::get(
               aref.getContext(), triton::nvws::AsyncOp::NONE)}));
     };
@@ -93,6 +97,7 @@ struct AsyncRef {
 
   Value aref;
   MemDescType viewType;
+  AsyncTokenType tokenType;
 };
 
 //===----------------------------------------------------------------------===//
@@ -137,7 +142,8 @@ AsyncRef DependencyRewriter::allocateAsyncValue(RankedTensorType tensorType,
 
   endBuilder.create<nvws::ArefDestroyOp>(aref);
 
-  return AsyncRef{aref, getBufferViewType(allocType)};
+  return AsyncRef{aref, getBufferViewType(allocType),
+                  b.getType<AsyncTokenType>()};
 }
 
 LogicalResult DependencyRewriter::run() {