makslevental
diff --git a/‎include/triton/Conversion/TritonToTritonGPU/Passes.td‎
Lines changed: 4 additions & 1 deletion b/‎include/triton/Conversion/TritonToTritonGPU/Passes.td‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎include/triton/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.h‎
Lines changed: 2 additions & 1 deletion b/‎include/triton/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.h‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎include/triton/Dialect/TritonGPU/Transforms/Passes.td‎
Lines changed: 10 additions & 0 deletions b/‎include/triton/Dialect/TritonGPU/Transforms/Passes.td‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎include/triton/Dialect/TritonGPU/Transforms/TritonGPUConversion.h‎
Lines changed: 1 addition & 1 deletion b/‎include/triton/Dialect/TritonGPU/Transforms/TritonGPUConversion.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Conversion/TritonGPUToLLVM/ReduceOpToLLVM.cpp‎
Lines changed: 0 additions & 1 deletion b/‎lib/Conversion/TritonGPUToLLVM/ReduceOpToLLVM.cpp‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎lib/Conversion/TritonToTritonGPU/CMakeLists.txt‎
Lines changed: 0 additions & 1 deletion b/‎lib/Conversion/TritonToTritonGPU/CMakeLists.txt‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎lib/Conversion/TritonToTritonGPU/TritonGPUConversion.cpp‎
Lines changed: 14 additions & 11 deletions b/‎lib/Conversion/TritonToTritonGPU/TritonGPUConversion.cpp‎
Lines changed: 14 additions & 11 deletions
diff --git a/‎lib/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.cpp‎
Lines changed: 43 additions & 49 deletions b/‎lib/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.cpp‎
Lines changed: 43 additions & 49 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions b/‎lib/Dialect/TritonGPU/Transforms/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/WarpSpecialization/AutomaticWarpSpecialization.cpp‎
Lines changed: 5 additions & 0 deletions b/‎lib/Dialect/TritonGPU/Transforms/WarpSpecialization/AutomaticWarpSpecialization.cpp‎
Lines changed: 5 additions & 0 deletions
@@ -36,7 +36,10 @@ def ConvertTritonToTritonGPU: Pass<"convert-triton-to-tritongpu", "mlir::ModuleO
               "number of ctas in a cga">,
         Option<"target", "target",
               "std::string", /*default*/"\"\"",
-              "the GPU target, e.g., cuda:80, hip:gfx942">
+              "the GPU target, e.g., cuda:80, hip:gfx942">,
+        Option<"enableSourceRemat", "enable-source-remat",
+               "bool", /*default*/"false",
+               "enable trivial source rematerialization">,
    ];
 }
 
 
@@ -18,7 +18,8 @@ std::unique_ptr<OperationPass<ModuleOp>> createConvertTritonToTritonGPUPass();
 // Create the pass with numWarps set explicitly.
 std::unique_ptr<OperationPass<ModuleOp>>
 createConvertTritonToTritonGPUPass(const std::string &target, int numWarps,
-                                   int threadsPerWarp = 32, int numCTAs = 1);
+                                   int threadsPerWarp = 32, int numCTAs = 1,
+                                   bool enableSourceRemat = false);
 
 } // namespace triton
 } // namespace mlir
 
@@ -155,6 +155,16 @@ def TritonGPUPartitionLoops : Pass<"tritongpu-partition-loops", "mlir::ModuleOp"
   let dependentDialects = ["mlir::triton::gpu::TritonGPUDialect"];
 }
 
+def TritonGPUOptimizePartitionWarps : Pass<"tritongpu-optimize-partition-warps", "mlir::ModuleOp"> {
+  let summary = "optimize the number of warps assigned to partitions";
+
+  let description = [{
+    The `tritongpu-optimize-partition-warps` pass will analyze the partitions
+    of `ttg.warp_specialize` ops and attempts to reduce the number of warps
+    assigned to them and optimize the register usage of the partitions.
+  }];
+}
+
 def TritonGPULoadMMASpecialization : Pass<"tritongpu-load-mma-specialization", "mlir::ModuleOp"> {
   let summary = "load MMA specialization";
 
 
@@ -14,7 +14,7 @@ namespace mlir {
 class TritonGPUTypeConverter : public TypeConverter {
 public:
   TritonGPUTypeConverter(MLIRContext *context, int numWarps, int threadsPerWarp,
-                         int numCTAs);
+                         int numCTAs, bool enableSourceRemat);
   int getNumWarps() const { return numWarps; }
   int getThreadsPerWarp() const { return threadsPerWarp; }
   int getNumCTAs() const { return numCTAs; }
 
@@ -136,7 +136,6 @@ struct ReduceOpConversion
       uniqueOffsets.insert({offsets[i], i});
     }
 
-    unsigned srcElems = getTotalElemsPerThread(operandType);
     auto *combineOp = &op.getCombineOp();
     auto srcIndices = emitIndices(op.getLoc(), rewriter, targetInfo,
                                   helper.getSrcLayout(), operandType, true);
 
@@ -12,5 +12,4 @@ add_triton_library(TritonToTritonGPU
     TritonIR
     ProtonIR
     TritonGPUIR
-    TritonGPUTransforms
 )
@@ -9,6 +9,7 @@
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "triton/Dialect/TritonGPU/IR/Dialect.h"
 #include "triton/Dialect/TritonGPU/Transforms/Utility.h"
+#include "triton/Dialect/TritonNvidiaGPU/IR/Dialect.h"
 
 using namespace mlir;
 using namespace mlir::triton::gpu;
@@ -18,7 +19,8 @@ using namespace mlir::triton::gpu;
 //
 TritonGPUTypeConverter::TritonGPUTypeConverter(MLIRContext *context,
                                                int numWarps, int threadsPerWarp,
-                                               int numCTAs)
+                                               int numCTAs,
+                                               bool enableSourceRemat)
     : context(context), numWarps(numWarps), threadsPerWarp(threadsPerWarp),
       numCTAs(numCTAs) {
   addConversion([](Type type) { return type; });
@@ -55,28 +57,28 @@ TritonGPUTypeConverter::TritonGPUTypeConverter(MLIRContext *context,
   //
   // This will be called when (newArgType != origArgType)
   // This will create newArg, and map(origArg, newArg)
-  addArgumentMaterialization([&](OpBuilder &builder,
-                                 RankedTensorType tensorType, ValueRange inputs,
-                                 Location loc) -> Value {
+  addArgumentMaterialization([](OpBuilder &builder, RankedTensorType tensorType,
+                                ValueRange inputs, Location loc) -> Value {
     llvm_unreachable("Argument rematerialization should not happen in Triton "
                      "-> TritonGPU conversion");
     return {};
   });
 
   // If the origValue still has live user(s), use this to
   // convert origValue to newValue
-  addSourceMaterialization([&](OpBuilder &builder, RankedTensorType tensorType,
+  addSourceMaterialization([=](OpBuilder &builder, RankedTensorType tensorType,
                                ValueRange inputs, Location loc) -> Value {
-    llvm_unreachable("Source rematerialization should not happen in Triton -> "
-                     "TritonGPU Conversion");
-    return {};
+    assert(enableSourceRemat && "Source rematerialization should not happen in "
+                                "Triton -> TritonGPU Conversion");
+    return builder.create<UnrealizedConversionCastOp>(loc, tensorType, inputs)
+        .getResult(0);
   });
 
   // This will be called when (desiredType != newOperandType)
   // where, desiredType = typeConverter->convertType(origType)
   // NOTE: only for remapped values.
-  addTargetMaterialization([&](OpBuilder &builder, RankedTensorType tensorType,
-                               ValueRange inputs, Location loc) {
+  addTargetMaterialization([](OpBuilder &builder, RankedTensorType tensorType,
+                              ValueRange inputs, Location loc) {
     auto cast =
         builder.create<triton::gpu::ConvertLayoutOp>(loc, tensorType, inputs);
     return cast.getResult();
@@ -98,7 +100,8 @@ TritonGPUConversionTarget::TritonGPUConversionTarget(
 
   addDynamicallyLegalDialect<arith::ArithDialect, math::MathDialect,
                              triton::TritonDialect, cf::ControlFlowDialect,
-                             scf::SCFDialect, ub::UBDialect>(
+                             scf::SCFDialect, ub::UBDialect,
+                             triton::nvidia_gpu::TritonNvidiaGPUDialect>(
       [&](Operation *op) {
         bool hasLegalRegions = true;
         for (auto &region : op->getRegions()) {
 
@@ -10,6 +10,7 @@
 #include "triton/Dialect/Triton/IR/Utility.h"
 #include "triton/Dialect/TritonGPU/IR/Dialect.h"
 #include "triton/Dialect/TritonGPU/Transforms/TritonGPUConversion.h"
+#include "triton/Dialect/TritonNvidiaGPU/IR/Dialect.h"
 #include "llvm/ADT/APSInt.h"
 #include <numeric>
 
@@ -431,50 +432,37 @@ static RankedTensorType getNewIndicesType(RankedTensorType type,
                                newEncoding);
 }
 
-struct TritonDescriptorGatherPattern
-    : public OpConversionPattern<triton::DescriptorGatherOp> {
-  using OpConversionPattern::OpConversionPattern;
-
-  LogicalResult
-  matchAndRewrite(triton::DescriptorGatherOp op, OpAdaptor adaptor,
-                  ConversionPatternRewriter &rewriter) const override {
-    auto numThreads = lookupThreadsPerWarp(rewriter);
-    auto numWarps = lookupNumWarps(op);
-    RankedTensorType newType = getNewIndicesType(
-        cast<RankedTensorType>(adaptor.getXOffsets().getType()), numThreads,
-        numWarps);
-    if (!newType)
-      return failure();
-
-    Value newInd = rewriter.create<ConvertLayoutOp>(op.getLoc(), newType,
-                                                    adaptor.getXOffsets());
-    rewriter.replaceOpWithNewOp<triton::DescriptorGatherOp>(
-        op, getTypeConverter()->convertType(op.getType()), adaptor.getDesc(),
-        newInd, adaptor.getYOffset());
-    return success();
-  }
-};
+// Function for converting any gather or scatter op that requires a specific
+// index layout. This also handles converting result types if there are any.
+static LogicalResult convertGatherScatterOp(Operation *op, OpOperand &indices,
+                                            ConversionPatternRewriter &b) {
+  auto type = cast<RankedTensorType>(indices.get().getType());
+  RankedTensorType newType =
+      getNewIndicesType(type, lookupThreadsPerWarp(b), lookupNumWarps(op));
+  if (!newType)
+    return failure();
+  Value index = b.create<ConvertLayoutOp>(op->getLoc(), newType, indices.get());
+  indices.set(index);
+  return success();
+}
 
-struct TritonDescriptorScatterPattern
-    : public OpConversionPattern<triton::DescriptorScatterOp> {
-  using OpConversionPattern::OpConversionPattern;
+template <typename OpT>
+struct GatherScatterOpPattern : public OpConversionPattern<OpT> {
+  using OpConversionPattern<OpT>::OpConversionPattern;
 
   LogicalResult
-  matchAndRewrite(triton::DescriptorScatterOp op, OpAdaptor adaptor,
+  matchAndRewrite(OpT op, typename OpT::Adaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override {
-    auto numThreads = lookupThreadsPerWarp(rewriter);
-    auto numWarps = lookupNumWarps(op);
-    RankedTensorType newType = getNewIndicesType(
-        cast<RankedTensorType>(adaptor.getXOffsets().getType()), numThreads,
-        numWarps);
-    if (!newType)
-      return failure();
-
-    Value newInd = rewriter.create<ConvertLayoutOp>(op.getLoc(), newType,
-                                                    adaptor.getXOffsets());
-    rewriter.replaceOpWithNewOp<triton::DescriptorScatterOp>(
-        op, adaptor.getDesc(), newInd, adaptor.getYOffset(), adaptor.getSrc());
-    return success();
+    LogicalResult result = success();
+    rewriter.modifyOpInPlace(op, [&] {
+      for (auto [operand, value] :
+           llvm::zip(op->getOpOperands(), adaptor.getOperands()))
+        operand.set(value);
+      for (OpResult result : op->getOpResults())
+        result.setType(this->typeConverter->convertType(result.getType()));
+      result = convertGatherScatterOp(op, op.getXOffsetsMutable(), rewriter);
+    });
+    return result;
   }
 };
 
@@ -619,10 +607,13 @@ void populateTritonPatterns(TritonGPUTypeConverter &typeConverter,
       GenericOpPattern<triton::ReduceReturnOp>, TritonScanPattern,
       GenericOpPattern<triton::ScanReturnOp>,
       GenericOpPattern<triton::MakeRangeOp>, TritonExpandDimsPattern,
-      TritonTransPattern, TritonDotPattern, TritonDescriptorGatherPattern,
-      TritonDescriptorScatterPattern, GenericOpPattern<triton::LoadOp>,
-      GenericOpPattern<triton::StoreOp>, GenericOpPattern<triton::HistogramOp>,
-      GenericOpPattern<triton::GatherOp>,
+      TritonTransPattern, TritonDotPattern,
+      GatherScatterOpPattern<DescriptorGatherOp>,
+      GatherScatterOpPattern<DescriptorScatterOp>,
+      GatherScatterOpPattern<triton::nvidia_gpu::AsyncTMAGatherOp>,
+      GatherScatterOpPattern<triton::nvidia_gpu::AsyncTMAScatterOp>,
+      GenericOpPattern<triton::LoadOp>, GenericOpPattern<triton::StoreOp>,
+      GenericOpPattern<triton::HistogramOp>, GenericOpPattern<triton::GatherOp>,
       GenericOpPattern<triton::ExternElementwiseOp>,
       GenericOpPattern<triton::PrintOp>, GenericOpPattern<triton::AssertOp>,
       GenericOpPattern<triton::AtomicCASOp>,
@@ -840,11 +831,13 @@ class ConvertTritonToTritonGPU
   ConvertTritonToTritonGPU() = default;
   // constructor with some parameters set explicitly.
   ConvertTritonToTritonGPU(const std::string &target, int numWarps,
-                           int threadsPerWarp, int numCTAs) {
+                           int threadsPerWarp, int numCTAs,
+                           bool enableSourceRemat) {
     this->numWarps = numWarps;
     this->threadsPerWarp = threadsPerWarp;
     this->numCTAs = numCTAs;
     this->target = target;
+    this->enableSourceRemat = enableSourceRemat;
   }
 
   void runOnOperation() override {
@@ -859,7 +852,7 @@ class ConvertTritonToTritonGPU
     ModuleOp mod = getOperation();
     // type converter
     TritonGPUTypeConverter typeConverter(context, numWarps, threadsPerWarp,
-                                         numCTAs);
+                                         numCTAs, enableSourceRemat);
     TritonGPUConversionTarget target(*context, typeConverter);
     // rewrite patterns
     RewritePatternSet patterns(context);
@@ -898,9 +891,10 @@ std::unique_ptr<OperationPass<ModuleOp>>
 mlir::triton::createConvertTritonToTritonGPUPass(const std::string &target,
                                                  int numWarps,
                                                  int threadsPerWarp,
-                                                 int numCTAs) {
-  return std::make_unique<::ConvertTritonToTritonGPU>(target, numWarps,
-                                                      threadsPerWarp, numCTAs);
+                                                 int numCTAs,
+                                                 bool enableSourceRemat) {
+  return std::make_unique<::ConvertTritonToTritonGPU>(
+      target, numWarps, threadsPerWarp, numCTAs, enableSourceRemat);
 }
 
 std::unique_ptr<OperationPass<ModuleOp>>
 
@@ -34,6 +34,7 @@ add_triton_library(TritonGPUTransforms
   Utility.cpp
   WarpSpecialization/AutomaticWarpSpecialization.cpp
   WarpSpecialization/LoadMMASpecialization.cpp
+  WarpSpecialization/OptimizePartitionWarps.cpp
   WarpSpecialization/PartitionLoops.cpp
   WarpSpecialization/RewritePartitionDependencies.cpp
 
@@ -47,5 +48,6 @@ add_triton_library(TritonGPUTransforms
   TritonIR
   TritonGPUIR
   TritonNvidiaGPUIR
+  TritonToTritonGPU
   MLIRTransformUtils
 )
@@ -51,4 +51,9 @@ void AutomaticWarpSpecialization::runOnOperation() {
   WarpSpecializeOp::getCanonicalizationPatterns(patterns, &getContext());
   if (failed(applyPatternsGreedily(getOperation(), std::move(patterns))))
     return signalPassFailure();
+
+  pm.clear();
+  pm.addPass(createTritonGPUOptimizePartitionWarps());
+  if (failed(runPipeline(pm, getOperation())))
+    return signalPassFailure();
 }
Original file line number	Diff line number	Diff line change
`@@ -136,7 +136,6 @@ struct ReduceOpConversion`
`136`	`136`	`uniqueOffsets.insert({offsets[i], i});`
`137`	`137`	`}`
`138`	`138`
`139`		`- unsigned srcElems = getTotalElemsPerThread(operandType);`
`140`	`139`	`auto *combineOp = &op.getCombineOp();`
`141`	`140`	`auto srcIndices = emitIndices(op.getLoc(), rewriter, targetInfo,`
`142`	`141`	`helper.getSrcLayout(), operandType, true);`
Original file line number	Diff line number	Diff line change
`@@ -12,5 +12,4 @@ add_triton_library(TritonToTritonGPU`
`12`	`12`	`TritonIR`
`13`	`13`	`ProtonIR`
`14`	`14`	`TritonGPUIR`
`15`		`- TritonGPUTransforms`
`16`	`15`	`)`