[Backend] Better warp specialization register reallocation (#6877)

Mogball · web-flow · commit 2d6fb76119b9 · 2025-05-22T09:44:28.000-07:00
This is the last set of changes split from #6760 

This moves where the registers are reallocated into better spots. It
also causes the worker partitions to immediately give up a bunch of
registers when they aren't active to the default warp group, so that it
has more registers to execute the "synchronous" parts of the code. This
is useful when there are many worker warps and the default warp group
does not get many registers at the start of the kernel (maxnreg is low).
diff --git a/lib/Dialect/TritonGPU/Transforms/WarpSpecialization/OptimizePartitionWarps.cpp b/lib/Dialect/TritonGPU/Transforms/WarpSpecialization/OptimizePartitionWarps.cpp
@@ -257,7 +257,7 @@ static LogicalResult optimizePartitionNumWarps(ModuleAxisInfoAnalysis &axisInfo,
        llvm::zip(wsOp.getPartitionRegions(), partitionNumWarps,
                  wsOp.getPartitionNumWarps(), maxTensorRegs, estRegUsage)) {
     // "Guess" the register usage for each partition.
-    estRegs = tensorRegs ? 72 : 24;
+    estRegs = tensorRegs ? 88 : 24;
 
     // Layouts need to be reassigned if the number of warps changed and there
     // are tensor computations.
diff --git a/lib/Dialect/TritonGPU/Transforms/WarpSpecialization/PartitionScheduling.cpp b/lib/Dialect/TritonGPU/Transforms/WarpSpecialization/PartitionScheduling.cpp
@@ -208,6 +208,15 @@ static std::optional<WarpSchedule> getInitialSchedule(scf::ForOp loop) {
       Operation *op = operandViews.pop_back_val();
       if (!op->hasOneUse() || !op->hasTrait<OpTrait::MemDescViewTrait>())
         continue;
+
+      // Duplicate the op if necessary to ensure the MMA op is the only user.
+      if (!llvm::all_of(op->getUsers(),
+                        [&](Operation *user) { return user == mmaOp; })) {
+        Operation *viewOp = OpBuilder(op).clone(*op);
+        mmaOp->replaceUsesOfWith(op->getResult(0), viewOp->getResult(0));
+        op = viewOp;
+      }
+
       schedule.trySchedule(mmaPartition, op);
       if (Operation *defOp = op->getOperand(0).getDefiningOp())
         operandViews.push_back(defOp);
diff --git a/test/Conversion/warp_specialize_to_llvm.mlir b/test/Conversion/warp_specialize_to_llvm.mlir
@@ -723,41 +723,121 @@ llvm.mlir.global external @global_smem() {addr_space = 3 : i32, alignment = 16 :
 
 // CHECK-LABEL: @dynamic_register_reallocation
 llvm.func @dynamic_register_reallocation() attributes {allocation.offset = 0 : i32} {
+  // CHECK: cond_br %{{.*}}, [[ENTRY:\^.*]], [[SWITCH_LOOP:\^.*]]
+
+  // CHECK: [[SWITCH_LOOP]]:
+  // CHECK-NEXT: nvvm.setmaxregister decrease 24
+  // CHECK-NEXT: barrier.sync 1 ;
   // CHECK: llvm.switch
   // CHECK-NEXT: 0: [[PARTITION0:\^.*]],
   // CHECK-NEXT: 1: [[PARTITION1:\^.*]],
   // CHECK-NEXT: 2: [[PARTITION2:\^.*]],
   // CHECK-NEXT: 3: [[EXIT:\^.*]]
 
   // CHECK: [[PARTITION0]]:
-  // CHECK-NEXT: barrier.sync 1 ;
   // CHECK-NEXT: nvvm.setmaxregister increase 80
+  // CHECK-NEXT: barrier.sync 1 ;
   // CHECK-NEXT: "partition0"()
   // CHECK-NEXT: barrier.sync 1 ;
-  // CHECK-NEXT: nvvm.setmaxregister increase 80
+  // CHECK-NEXT: nvvm.setmaxregister decrease 24
 
   // CHECK: [[PARTITION1]]:
+  // CHECK-NEXT: nvvm.setmaxregister increase 48
   // CHECK-NEXT: barrier.sync 1 ;
-  // CHECK-NEXT: nvvm.setmaxregister decrease 48
   // CHECK-NEXT: "partition1"()
   // CHECK-NEXT: barrier.sync 1 ;
+  // CHECK-NEXT: nvvm.setmaxregister decrease 24
+
+  // CHECK: [[PARTITION2]]:
+  // CHECK-NEXT: nvvm.setmaxregister increase 128
+  // CHECK-NEXT: barrier.sync 1 ;
+  // CHECK-NEXT: "partition2"()
+  // CHECK-NEXT: barrier.sync 1 ;
+  // CHECK-NEXT: nvvm.setmaxregister decrease 24
+
+  // CHECK: [[ENTRY]]:
+  // CHECK-NEXT: nvvm.setmaxregister increase 248
+
+  // CHECK: barrier.sync 1 ;
+  // CHECK-NEXT: setmaxregister decrease 152
+  // CHECK-NEXT: barrier.sync 1 ;
+  // CHECK: "default"
+  // CHECK: barrier.sync 1 ;
+  // CHECK-NEXT: setmaxregister increase 248
+
+  ttg.warp_specialize() attributes {allocation.offset = 0 : i32, warpGroupStartIds = array<i32: 4, 8, 12>, actualRegisters = array<i32: 152, 80, 48, 128>}
+  default {
+    "default"() : () -> ()
+    ttg.warp_yield
+  }
+  partition0() num_warps(4) {
+    "partition0"() : () -> ()
+    ttg.warp_return
+  }
+  partition1() num_warps(4) {
+    "partition1"() : () -> ()
+    ttg.warp_return
+  }
+  partition2() num_warps(4) {
+    "partition2"() : () -> ()
+    ttg.warp_return
+  } : () -> ()
+  llvm.return
+}
+
+}
+
+// -----
+
+module attributes {ttg.maxnreg = 128 : i32, "ttg.num-warps" = 4 : i32, ttg.target = "cuda:100", "ttg.total-num-warps" = 16 : i32} {
+
+llvm.mlir.global external @global_smem() {addr_space = 3 : i32, alignment = 16 : i64} : !llvm.array<0 x i8>
+
+// CHECK-LABEL: @dynamic_register_reallocation
+llvm.func @dynamic_register_reallocation_overalloc() attributes {allocation.offset = 0 : i32} {
+  // CHECK: cond_br %{{.*}}, [[ENTRY:\^.*]], [[SWITCH_LOOP:\^.*]]
+
+  // CHECK: [[SWITCH_LOOP]]:
+  // CHECK-NEXT: nvvm.setmaxregister decrease 80
+  // CHECK-NEXT: barrier.sync 1 ;
+  // CHECK: llvm.switch
+  // CHECK-NEXT: 0: [[PARTITION0:\^.*]],
+  // CHECK-NEXT: 1: [[PARTITION1:\^.*]],
+  // CHECK-NEXT: 2: [[PARTITION2:\^.*]],
+  // CHECK-NEXT: 3: [[EXIT:\^.*]]
+
+  // CHECK: [[PARTITION0]]:
+  // CHECK-NEXT: nvvm.setmaxregister decrease 24
+  // CHECK-NEXT: barrier.sync 1 ;
+  // CHECK-NEXT: "partition0"()
+  // CHECK-NEXT: barrier.sync 1 ;
   // CHECK-NEXT: nvvm.setmaxregister increase 80
 
+  // CHECK: [[PARTITION1]]:
+  // CHECK-NEXT: nvvm.setmaxregister increase 192
+  // CHECK-NEXT: barrier.sync 1 ;
+  // CHECK-NEXT: "partition1"()
+  // CHECK-NEXT: barrier.sync 1 ;
+  // CHECK-NEXT: nvvm.setmaxregister decrease 80
+
   // CHECK: [[PARTITION2]]:
+  // CHECK-NEXT: nvvm.setmaxregister increase 192
   // CHECK-NEXT: barrier.sync 1 ;
-  // CHECK-NEXT: nvvm.setmaxregister increase 128
   // CHECK-NEXT: "partition2"()
   // CHECK-NEXT: barrier.sync 1 ;
   // CHECK-NEXT: nvvm.setmaxregister decrease 80
 
+  // CHECK: [[ENTRY]]:
+  // CHECK-NEXT: nvvm.setmaxregister increase 256
+
   // CHECK: barrier.sync 1 ;
+  // CHECK-NEXT: setmaxregister decrease 104
   // CHECK-NEXT: barrier.sync 1 ;
-  // CHECK: setmaxregister increase 152
   // CHECK: "default"
   // CHECK: barrier.sync 1 ;
-  // CHECK-NEXT: setmaxregister decrease 80
+  // CHECK-NEXT: setmaxregister increase 256
 
-  ttg.warp_specialize() attributes {allocation.offset = 0 : i32, warpGroupStartIds = array<i32: 4, 8, 12>, actualRegisters = array<i32: 152, 80, 48, 128>}
+  ttg.warp_specialize() attributes {allocation.offset = 0 : i32, warpGroupStartIds = array<i32: 4, 8, 12>, actualRegisters = array<i32: 104, 24, 192, 192>}
   default {
     "default"() : () -> ()
     ttg.warp_yield
diff --git a/test/TritonGPU/optimize-partition-warps.mlir b/test/TritonGPU/optimize-partition-warps.mlir
@@ -119,7 +119,7 @@ tt.func @fits_after_shrink(%arg0: i32) {
 
 // CHECK-LABEL: @register_use_heuristic
 tt.func @register_use_heuristic() {
-  // CHECK: requestedRegisters = array<i32: 24, 72>
+  // CHECK: requestedRegisters = array<i32: 24, 88>
   ttg.warp_specialize()
   default {
     ttg.warp_yield
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ConvertWarpSpecializeToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ConvertWarpSpecializeToLLVM.cpp
@@ -187,20 +187,6 @@ static void createRegRealloc(TritonLLVMIRRewriter &b, int curRegs,
   b.create<NVVM::SetMaxRegisterOp>(adjRegs, action);
 }
 
-static void createEntryRegRealloc(TritonLLVMIRRewriter &b, Operation *op,
-                                  int actRegs) {
-  auto maxnreg = op->getParentOfType<ModuleOp>()->getAttrOfType<IntegerAttr>(
-      AttrMaxRegistersName);
-  createRegRealloc(b, maxnreg.getInt(), actRegs);
-}
-
-static void createExitRegRealloc(TritonLLVMIRRewriter &b, Operation *op,
-                                 int actRegs) {
-  auto maxnreg = op->getParentOfType<ModuleOp>()->getAttrOfType<IntegerAttr>(
-      AttrMaxRegistersName);
-  createRegRealloc(b, actRegs, maxnreg.getInt());
-}
-
 // Assign hardware barriers to each warp group and rewrite warp group barriers
 // into `barrier.sync` instructions. There is a maximum number of barriers.
 static LogicalResult rewriteWarpGroupBarriers(LLVM::LLVMFuncOp func,
@@ -245,13 +231,20 @@ static LogicalResult rewriteWarpGroupBarriers(LLVM::LLVMFuncOp func,
 }
 
 static void rewritePartitionRegions(WarpSpecializeOp ws, Block *switchLoop,
-                                    const NVIDIA::TargetInfo &targetInfo) {
+                                    const NVIDIA::TargetInfo &targetInfo,
+                                    int lowRegs) {
   TritonLLVMIRRewriter b(ws.getLoc(), ws.getContext());
 
   for (Region *partition : ws.getPartitionRegions()) {
     // Load the explicit captures from shared memory and replace the block args
     // if there are any.
     b.setInsertionPointToStart(&partition->front());
+
+    if (auto actRegs = ws.getActualRegisters()) {
+      createRegRealloc(b, lowRegs,
+                       (*actRegs)[partition->getRegionNumber() + 1]);
+    }
+
     if (partition->getNumArguments()) {
       auto captureType = LLVM::LLVMStructType::getLiteral(
           b.getContext(), llvm::to_vector(partition->getArgumentTypes()),
@@ -275,19 +268,15 @@ static void rewritePartitionRegions(WarpSpecializeOp ws, Block *switchLoop,
     // another barrier here.
     createBarrier(b, kSwitchLoopBarrierIdx, /*numThreads=*/std::nullopt,
                   /*aligned=*/false);
-    if (auto actRegs = ws.getActualRegisters()) {
-      createEntryRegRealloc(b, ws,
-                            (*actRegs)[partition->getRegionNumber() + 1]);
-    }
 
     // Rewrite all warp returns.
     partition->walk([&](WarpReturnOp op) {
       TritonLLVMIRRewriter b(op.getLoc(), op);
       createBarrier(b, kSwitchLoopBarrierIdx, /*numThreads=*/std::nullopt,
                     /*aligned=*/false);
       if (auto actRegs = ws.getActualRegisters()) {
-        createExitRegRealloc(b, ws,
-                             (*actRegs)[partition->getRegionNumber() + 1]);
+        createRegRealloc(b, (*actRegs)[partition->getRegionNumber() + 1],
+                         lowRegs);
       }
       b.replaceOpWithNewOp<LLVM::BrOp>(op, switchLoop);
     });
@@ -328,6 +317,39 @@ static LogicalResult lowerWarpSpecialize(LLVM::LLVMFuncOp func,
                                       defaultWarpGroupSize)))
     return failure();
 
+  auto totalNumWarpsAttr =
+      module->getAttrOfType<IntegerAttr>("ttg.total-num-warps");
+  if (!totalNumWarpsAttr) {
+    return mlir::emitError(module.getLoc(),
+                           "module missing 'ttg.total-num-warps' attribute");
+  }
+  unsigned totalNumThreads = totalNumWarpsAttr.getInt() * threadsPerWarp;
+
+  // Determine how many registers the worker warps can surrender before they
+  // begin execution.
+  auto maxnreg = func->getParentOfType<ModuleOp>()->getAttrOfType<IntegerAttr>(
+      AttrMaxRegistersName);
+  int lowRegs = -1;
+  int defRegs = -1;
+  if (maxnreg) {
+    int numWorkerWarps = totalNumWarpsAttr.getInt() - defaultNumWarps;
+    int startRegs = maxnreg.getInt();
+
+    // First determine how many extra registers the default warp group can get
+    // if the workers surrender the maximum number of registers.
+    lowRegs = 24;
+    int extraRegs = (startRegs - lowRegs) * numWorkerWarps / defaultNumWarps;
+    defRegs = (startRegs + extraRegs) / 8 * 8;
+
+    // If the default warp group goes over 256 registers, the workers don't need
+    // to give up this much.
+    if (defRegs > 256) {
+      defRegs = 256;
+      int giveRegs = (defRegs - startRegs) * defaultNumWarps / numWorkerWarps;
+      lowRegs = (startRegs - giveRegs) / 8 * 8;
+    }
+  }
+
   // Attempt to elide captures of trivial computations by hoisting them into the
   // header or rematerializing them into each partition.
   elideTrivialCaptures(func, wsOps);
@@ -357,22 +379,18 @@ static LogicalResult lowerWarpSpecialize(LLVM::LLVMFuncOp func,
        llvm::zip(header->getArguments(), entry->getArguments()))
     oldArg.replaceAllUsesWith(arg);
   entry->eraseArguments([](auto) { return true; });
-
-  // Generate the switch loop.
-  auto totalNumWarpsAttr =
-      module->getAttrOfType<IntegerAttr>("ttg.total-num-warps");
-  if (!totalNumWarpsAttr) {
-    return mlir::emitError(module.getLoc(),
-                           "module missing 'ttg.total-num-warps' attribute");
-  }
-  unsigned totalNumThreads = totalNumWarpsAttr.getInt() * threadsPerWarp;
+  b.setInsertionPointToStart(entry);
+  if (maxnreg)
+    createRegRealloc(b, maxnreg.getInt(), defRegs);
 
   // ^switchLoop:
   //   barrier.sync 1
   //   %state_ptr = getelementptr (ptr @shared), <offset>
   //   %rel_tid = sub %tid, <default_warp_group_size>
   //   %rel_wid = udiv %rel_tid, 32
   b.setInsertionPointToStart(switchLoop);
+  if (maxnreg)
+    createRegRealloc(b, maxnreg.getInt(), lowRegs);
   createBarrier(b, kSwitchLoopBarrierIdx, /*numThreads=*/std::nullopt,
                 /*aligned=*/false);
   Value statePtr = LLVM::getSharedMemoryBase(b.getLoc(), b, targetInfo, func);
@@ -400,7 +418,7 @@ static LogicalResult lowerWarpSpecialize(LLVM::LLVMFuncOp func,
   SmallVector<SmallVector<int32_t>> warpToState(
       wsOps.size(), SmallVector<int32_t>(maxNumWarps, -1));
   for (auto [op, stateMap] : llvm::zip(wsOps, warpToState)) {
-    rewritePartitionRegions(op, switchLoop, targetInfo);
+    rewritePartitionRegions(op, switchLoop, targetInfo, lowRegs);
     for (auto [partition, partitionNumWarps, startId] :
          llvm::zip(op.getPartitionRegions(), op.getPartitionNumWarps(),
                    *op.getWarpGroupStartIds())) {
@@ -480,18 +498,18 @@ static LogicalResult lowerWarpSpecialize(LLVM::LLVMFuncOp func,
     // they have read the captures before the memory is released upon entry.
     createBarrier(b, kSwitchLoopBarrierIdx, /*numThreads=*/std::nullopt,
                   /*aligned=*/false);
+    if (auto actRegs = ws.getActualRegisters())
+      createRegRealloc(b, defRegs, actRegs->front());
     createBarrier(b, kSwitchLoopBarrierIdx, /*numThreads=*/std::nullopt,
                   /*aligned=*/false);
-    if (auto actRegs = ws.getActualRegisters())
-      createEntryRegRealloc(b, func, actRegs->front());
     b.create<LLVM::BrOp>(&ws.getDefaultRegion().front());
 
     ws.getDefaultRegion().walk([&, ws = ws](WarpYieldOp op) mutable {
       TritonLLVMIRRewriter b(op.getLoc(), op);
       createBarrier(b, kSwitchLoopBarrierIdx, /*numThreads=*/std::nullopt,
                     /*aligned=*/false);
       if (auto actRegs = ws.getActualRegisters())
-        createExitRegRealloc(b, func, actRegs->front());
+        createRegRealloc(b, actRegs->front(), defRegs);
       b.replaceOpWithNewOp<LLVM::BrOp>(op, op.getOperands(), after);
     });
     after->getParent()->getBlocks().splice(after->getIterator(),