rebase

makslevental · makslevental · commit d0dafa55603d · 2025-01-28T13:39:31.000-05:00
diff --git a/third_party/nvidia/lib/NVGPUToLLVM/NVGPUToLLVMPass.cpp b/third_party/nvidia/lib/NVGPUToLLVM/NVGPUToLLVMPass.cpp
@@ -231,8 +231,10 @@ class WarpIdOpPattern : public OpRewritePattern<ttn::WarpIdOp> {
   LogicalResult matchAndRewrite(ttn::WarpIdOp op,
                                 PatternRewriter &rewriter) const override {
     auto loc = op.getLoc();
+    auto b = TritonLLVMOpBuilder(loc, rewriter);
+
     Value threadId = rewriter.create<NVVM::ThreadIdXOp>(loc, i32_ty);
-    Value warpId = udiv(threadId, i32_val(32));
+    Value warpId = b.udiv(threadId, b.i32_val(32));
     warpId = LLVM::NVIDIA::shuffleIdx(loc, rewriter, warpId, 0);
     rewriter.replaceOp(op, warpId);
     return success();
@@ -648,6 +650,7 @@ static Value createTMAlloc(IRRewriter &rewriter, LLVM::LLVMFuncOp func,
                            size_t size, Value pred, bool twoCTAs) {
   PTXBuilder ptxBuilder;
   Location loc = func.getLoc();
+  auto b = TritonLLVMOpBuilder(loc, rewriter);
   Value sharedMem = mlir::LLVM::getStackPointer(rewriter, func);
   std::string ptxString =
       "@$0 tcgen05.alloc.cta_group::" + std::to_string(twoCTAs ? 2 : 1) +
@@ -660,9 +663,9 @@ static Value createTMAlloc(IRRewriter &rewriter, LLVM::LLVMFuncOp func,
   auto voidTy = void_ty(func->getContext());
   ptxBuilder.launch(rewriter, loc, void_ty(func->getContext()));
   rewriter.create<NVVM::Barrier0Op>(loc);
-  Value address = load(i32_ty, sharedMem);
+  Value address = b.load(i32_ty, sharedMem);
   rewriter.create<NVVM::Barrier0Op>(loc);
-  address = inttoptr(ptr_ty(func.getContext(), 6), address);
+  address = b.inttoptr(ptr_ty(func.getContext(), 6), address);
   return address;
 }
 
@@ -709,6 +712,7 @@ static Value initTensorMemory(LLVM::LLVMFuncOp func) {
   rewriter.setInsertionPointToStart(&func.front());
   auto ctx = mod.getContext();
   auto loc = func.getLoc();
+  auto b = TritonLLVMOpBuilder(loc, rewriter);
   // A proper error will be raised by the frontend, but to allow compilation to
   // continue we emit a trap.
   if (size > 512) {
@@ -721,7 +725,7 @@ static Value initTensorMemory(LLVM::LLVMFuncOp func) {
   // should be fine for now.
   bool useTwoCTAs = numCTAs == 2;
   Value threadId = rewriter.create<NVVM::ThreadIdXOp>(loc, i32_ty);
-  Value pred = icmp_ult(threadId, i32_val(32));
+  Value pred = b.icmp_ult(threadId, b.i32_val(32));
   Value alloc = createTMAlloc(rewriter, func, size, pred, useTwoCTAs);
   createRelinquishAlloc(rewriter, loc, pred, useTwoCTAs);
   // TODO: pred will have a long liverange, we need to check if this is a
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/DotOpToLLVM/MMAv5.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/DotOpToLLVM/MMAv5.cpp
@@ -33,22 +33,23 @@ mlir::triton::NVIDIA::DotOpMmaV5TmemLoader::DotOpMmaV5TmemLoader(
 
 Value mlir::triton::NVIDIA::DotOpMmaV5TmemLoader::tmemLoad(
     int a, int b, ConversionPatternRewriter &rewriter, Location loc) {
+  auto tb = TritonLLVMOpBuilder(loc, rewriter);
   int numRows = 64;
   if (interleaved || instrShape[0] >= 128)
     numRows = 128;
   int numColPerBlock =
       ((instrShape[0] * instrShape[1]) / numRows) / numElementsPer32b;
   Value address = base;
   int blockId = a + b * numRepM;
-  address = ptrtoint(i32_ty, address);
+  address = tb.ptrtoint(i32_ty, address);
   if (!interleaved) {
-    address = add(address, i32_val(numColPerBlock * blockId));
+    address = tb.add(address, tb.i32_val(numColPerBlock * blockId));
   } else {
     int blockIdIsOdd = blockId & 1;
     int blockIdPrevEven = blockId - blockIdIsOdd;
-    Value offset =
-        i32_val(numColPerBlock * blockIdPrevEven + ((16 * blockIdIsOdd) << 16));
-    address = add(address, offset);
+    Value offset = tb.i32_val(numColPerBlock * blockIdPrevEven +
+                              ((16 * blockIdIsOdd) << 16));
+    address = tb.add(address, offset);
   }
   return address;
 }
@@ -72,6 +73,7 @@ static Value createInstDescriptor(ConversionPatternRewriter &rewriter,
                                   triton::nvidia_gpu::TCGen5MMAOp op, int M,
                                   int N, bool transposeA, bool transposeB) {
   Location loc = op.getLoc();
+  auto b = TritonLLVMOpBuilder(loc, rewriter);
   union TCGen5InstructionDescriptor {
     uint32_t descriptor;
     struct {
@@ -119,7 +121,7 @@ static Value createInstDescriptor(ConversionPatternRewriter &rewriter,
   Type dstElType = op.getD().getType().getElementType();
   assert(dstElType.isF16() || dstElType.isF32());
   desc.dType = dstElType.isF16() ? 0 : 1;
-  return int_val(32, desc.descriptor);
+  return b.int_val(32, desc.descriptor);
 }
 
 static Value createScaleInstDescriptor(ConversionPatternRewriter &rewriter,
@@ -129,6 +131,7 @@ static Value createScaleInstDescriptor(ConversionPatternRewriter &rewriter,
                                        int scaleFactorsubIdxB,
                                        mxfpKind mxfpInstKind) {
   Location loc = op.getLoc();
+  auto b = TritonLLVMOpBuilder(loc, rewriter);
   union TCGen5InstructionDescriptor {
     uint32_t descriptor;
     struct {
@@ -209,7 +212,7 @@ static Value createScaleInstDescriptor(ConversionPatternRewriter &rewriter,
     }
   }
 
-  return int_val(32, desc.descriptor);
+  return b.int_val(32, desc.descriptor);
 }
 
 static void createGen5MMA(ConversionPatternRewriter &rewriter, Location loc,
@@ -276,6 +279,7 @@ static void createScaledGen5MMA(ConversionPatternRewriter &rewriter,
 static void createMMACommit(ConversionPatternRewriter &rewriter, Location loc,
                             Value barrier, Value pred, bool twoCTAs = false) {
   PTXBuilder ptxBuilder;
+  auto b = TritonLLVMOpBuilder(loc, rewriter);
   SmallVector<PTXBuilder::Operand *> ptxOperands;
   auto *predOperand = ptxBuilder.newOperand(pred, "b");
   ptxOperands.push_back(predOperand);
@@ -285,7 +289,7 @@ static void createMMACommit(ConversionPatternRewriter &rewriter, Location loc,
   if (twoCTAs) {
     // .multicast::cluster and mask 0x3 means the completion of UTCMMA.2CTA will
     // be boardcasted into CTAid 0 and 1
-    auto *ctaMask = ptxBuilder.newOperand(int_val(16, 0x3), "h");
+    auto *ctaMask = ptxBuilder.newOperand(b.int_val(16, 0x3), "h");
     ptxOperands.push_back(ctaMask);
     opcode = "@$0 "
              "tcgen05.commit.cta_group::2.mbarrier::arrive::one.shared::"
@@ -303,23 +307,23 @@ void convertDot(const LLVMTypeConverter *typeConverter,
                 triton::nvidia_gpu::TCGen5MMAOp op, Value a, Value b, Value d,
                 Value loadedA, Value loadedB, Value loadedD, Value useDFlag,
                 Value pred, Value barrier) {
-
+  auto tb = TritonLLVMOpBuilder(loc, rewriter);
   bool twoCTAs = op.getTwoCtas().has_value();
   // Only run mma on one thread. We currently use elect as ptxas is not able to
   // detect that tid.x == 0 is true only for 1 thread.
   Value warpId = rewriter.create<nvgpu::WarpIdOp>(loc);
-  Value wapr0 = icmp_eq(warpId, i32_val(0));
+  Value wapr0 = tb.icmp_eq(warpId, tb.i32_val(0));
   if (twoCTAs) {
     // TODO: we have to sync the two CTAs because we currently don't use remove
     // barriers for the copies.
     rewriter.create<triton::nvidia_gpu::ClusterArriveOp>(loc, false);
     rewriter.create<triton::nvidia_gpu::ClusterWaitOp>(loc);
 
     Value clusterId = rewriter.create<nvgpu::ClusterCTAIdOp>(loc);
-    Value cluster0 = icmp_eq(clusterId, i32_val(0));
-    pred = and_(pred, cluster0);
+    Value cluster0 = tb.icmp_eq(clusterId, tb.i32_val(0));
+    pred = tb.and_(pred, cluster0);
   }
-  pred = and_(pred, wapr0);
+  pred = tb.and_(pred, wapr0);
 
   // Wrap the whole mma code sequence within a IF block.
   auto *curBlock = rewriter.getInsertionBlock();
@@ -382,7 +386,7 @@ void convertDot(const LLVMTypeConverter *typeConverter,
   Value instDescriptor =
       createInstDescriptor(rewriter, op, twoCTAs ? mmaSizeM * 2 : mmaSizeM,
                            mmaSizeN, transA, transB);
-  Value zero = i32_val(0);
+  Value zero = tb.i32_val(0);
   SmallVector<int64_t> shapeA(triton::gpu::getShapePerCTA(aTensorTy));
   SmallVector<int64_t> shapeB(triton::gpu::getShapePerCTA(bTensorTy));
   SmallVector<unsigned> aOperandShape = {(unsigned)mmaSizeM,
@@ -411,7 +415,7 @@ void convertDot(const LLVMTypeConverter *typeConverter,
         b = bLoader.smemLoad(n, k, rewriter, loc);
         createGen5MMA(rewriter, loc, op, a, b, accAddress, pred, instDescriptor,
                       useInitAcc, aInTmem, twoCTAs);
-        useInitAcc = i1_val(1);
+        useInitAcc = tb.i1_val(1);
       }
     }
   }
@@ -475,6 +479,7 @@ struct TCGen5MMAScaledOpConversion
            "tensorcore op should have a barrier at this point.");
     auto typeConverter = getTypeConverter();
     Location loc = op.getLoc();
+    auto tb = TritonLLVMOpBuilder(loc, rewriter);
     auto aTensorTy = cast<MemDescType>(op.getA().getType());
     auto bTensorTy = cast<MemDescType>(op.getB().getType());
     auto dTensorTy = cast<MemDescType>(op.getD().getType());
@@ -508,15 +513,15 @@ struct TCGen5MMAScaledOpConversion
             loc, adaptor.getD(),
             typeConverter->convertType(dTensorTy.getElementType()), rewriter)
             .getBase();
-    baseD = ptrtoint(i32_ty, baseD);
+    baseD = tb.ptrtoint(i32_ty, baseD);
     Value baseScaleA = getSharedMemoryObjectFromStruct(loc, adaptor.getAScale(),
                                                        i8_ty, rewriter)
                            .getBase();
     Value baseScaleB = getSharedMemoryObjectFromStruct(loc, adaptor.getBScale(),
                                                        i8_ty, rewriter)
                            .getBase();
-    baseScaleA = ptrtoint(i32_ty, baseScaleA);
-    baseScaleB = ptrtoint(i32_ty, baseScaleB);
+    baseScaleA = tb.ptrtoint(i32_ty, baseScaleA);
+    baseScaleB = tb.ptrtoint(i32_ty, baseScaleB);
 
     unsigned int M = dTensorTy.getDimSize(0);
     unsigned int N = dTensorTy.getDimSize(1);
@@ -537,7 +542,7 @@ struct TCGen5MMAScaledOpConversion
     int numRepK = ceil<unsigned>(K, mmaSizeK);
     bool interleaved = (mmaSizeM == 64 && (numRepM > 1 || numRepN > 1));
 
-    Value zero = i32_val(0);
+    Value zero = tb.i32_val(0);
     SmallVector<int64_t> shapeA(aTensorTy.getShape());
     SmallVector<int64_t> shapeB(bTensorTy.getShape());
     if (opKindIsMXFP4) {
@@ -561,11 +566,12 @@ struct TCGen5MMAScaledOpConversion
                              numBitsPerElementB, rewriter, loc);
 
     // TODO: Support accumulator init optimization for scaled dot
-    Value useInitAcc = int_val(1, 1);
+    Value useInitAcc = tb.int_val(1, 1);
     // Only run mma on one thread. We currently use elect as ptxas is not able
     // to detect that tid.x == 0 is true only for 1 thread.
-    Value pred = and_(adaptor.getPred(),
-                      LLVM::NVIDIA::createElectPredicateWarp0(loc, rewriter));
+    Value pred =
+        tb.and_(adaptor.getPred(),
+                LLVM::NVIDIA::createElectPredicateWarp0(loc, rewriter));
     int numRows = 128;
     int colSizeInBits = 32;
     int numColPerBlock =
@@ -599,16 +605,16 @@ struct TCGen5MMAScaledOpConversion
         // Blocks are laid out along M first then N as described in
         // `TensorMemorySpace` definition.
         int blockId = m + n * numRepM;
-        Value accAddress = add(baseD, i32_val(numColPerBlock * blockId));
+        Value accAddress = tb.add(baseD, tb.i32_val(numColPerBlock * blockId));
         for (int k = 0; k < numRepK; k++) {
           Value a = aLoader->memLoad(m, k, rewriter, loc);
           Value b = bLoader.smemLoad(n, k, rewriter, loc);
           int subWordIdx = k % (4 / scaleFactorColsPerSet);
           int wordIdx = k / (4 / scaleFactorColsPerSet);
-          Value scaleA = add(baseScaleA, i32_val((m + wordIdx * numRepM) *
-                                                 numColPerScaleBlockA));
-          Value scaleB = add(baseScaleB, i32_val((n + wordIdx * numRepN) *
-                                                 numColPerScaleBlockB));
+          Value scaleA = tb.add(baseScaleA, tb.i32_val((m + wordIdx * numRepM) *
+                                                       numColPerScaleBlockA));
+          Value scaleB = tb.add(baseScaleB, tb.i32_val((n + wordIdx * numRepN) *
+                                                       numColPerScaleBlockB));
           Value instDescriptor = createScaleInstDescriptor(
               rewriter, op, mmaSizeM, mmaSizeN, transA, transB, subWordIdx,
               subWordIdx, mxfpInstKind);
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/DotOpToLLVM/WGMMA.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/DotOpToLLVM/WGMMA.cpp
@@ -93,6 +93,7 @@ int64_t getSwizzlingFromLayout(const SharedEncodingAttr &layout,
 
 static Value createDescriptor(ConversionPatternRewriter &rewriter, Location loc,
                               int64_t swizzling, uint32_t stride) {
+  auto b = TritonLLVMOpBuilder(loc, rewriter);
   static_assert(sizeof(SMEMDescriptor) == 8,
                 "Descriptor size should be 64 bits.");
   SMEMDescriptor desc;
@@ -144,17 +145,16 @@ Value mlir::triton::NVIDIA::DotOpMmaV3SmemLoader::smemLoad(
   auto tb = TritonLLVMOpBuilder(loc, rewriter);
   Value k = tb.i32_val(b * instrShape[1]);
   Value m = tb.add(tb.i32_val(a * dimWpt * instrShape[0]),
-                     tb.mul(warpId, tb.i32_val(instrShape[0])));
-    if (trans) {
-      std::swap(k, m);
-    }
-    Value leading_offset =
-        tb.mul(tb.udiv(k, elemsPerSwizzlingRowVal),
-               tb.i32_val(shape[ord[1]] * elemsPerSwizzlingRow));
+                   tb.mul(warpId, tb.i32_val(instrShape[0])));
+  if (trans) {
+    std::swap(k, m);
+  }
+  Value leading_offset =
+      tb.mul(tb.udiv(k, elemsPerSwizzlingRowVal),
+             tb.i32_val(shape[ord[1]] * elemsPerSwizzlingRow));
   Value stride_offset = tb.mul(m, elemsPerSwizzlingRowVal);
-  Value offset =
-      tb.add(tb.add(leading_offset, stride_offset),
-                          tb.urem(k, elemsPerSwizzlingRowVal));
+  Value offset = tb.add(tb.add(leading_offset, stride_offset),
+                        tb.urem(k, elemsPerSwizzlingRowVal));
   Value off1;
   // Avoid the runtime udiv if we know the elements are byte multiples
   if (elemBits % 8) {
@@ -168,8 +168,8 @@ Value mlir::triton::NVIDIA::DotOpMmaV3SmemLoader::smemLoad(
   // Add the base at the end to make it easier to do loop invariant code
   // motion.
   loadDesc = tb.add(
-        loadDesc, tb.lshr(tb.shl(tb.ptrtoint(i64_ty, base), tb.int_val(64, 46)),
-                          tb.int_val(64, 50)));
+      loadDesc, tb.lshr(tb.shl(tb.ptrtoint(i64_ty, base), tb.int_val(64, 46)),
+                        tb.int_val(64, 50)));
   return loadDesc;
 }
 
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/LoadStoreOpToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/LoadStoreOpToLLVM.cpp
@@ -1384,6 +1384,7 @@ static LogicalResult iterateGatherScatterIndices(
     function_ref<void(Value, Value, Value, ArrayRef<Value>)> callback) {
   MLIRContext *ctx = op->getContext();
   Location loc = op->getLoc();
+  auto b = TritonLLVMOpBuilder(loc, rewriter);
 
   StringAttr kDim0 = str_attr("dim0");
   StringAttr kDim1 = str_attr("dim1");
@@ -1461,24 +1462,25 @@ static LogicalResult iterateGatherScatterIndices(
 
   Value warpId = rewriter.create<nvgpu::WarpIdOp>(loc);
   // Each block has separate shared memory. Multiple CTAs don't work anyways.
-  Value blockId = i32_val(0);
+  Value blockId = b.i32_val(0);
 
   // Mask out warps with redundant x offsets.
-  pred = and_(pred, icmp_eq(i32_val(0), and_(warpId, i32_val(warpMask))));
+  pred = b.and_(pred,
+                b.icmp_eq(b.i32_val(0), b.and_(warpId, b.i32_val(warpMask))));
   // Select one thread in each warp to issue the gather4 messages.
-  pred = and_(pred, LLVM::NVIDIA::createElectPredicate(loc, rewriter));
+  pred = b.and_(pred, LLVM::NVIDIA::createElectPredicate(loc, rewriter));
 
   SmallVector<Value> xOffsets = unpackLLElements(loc, xOffsetsValue, rewriter);
   // Lane ID doesn't matter.
-  Value laneId = i32_val(0);
+  Value laneId = b.i32_val(0);
   for (auto regId : seq<unsigned>(0, xOffsets.size(), 4)) {
     // Skip redundant x offsets within a thread.
     if ((regMask & regId) != 0)
       continue;
-    Value regIdVal = i32_val(regId);
+    Value regIdVal = b.i32_val(regId);
 
     for (auto msgId : llvm::seq(numMessagesPerRow)) {
-      Value msgIdVal = i32_val(msgId);
+      Value msgIdVal = b.i32_val(msgId);
 
       auto result = applyLinearLayout(loc, rewriter, msgToShared,
                                       {{kMsg, msgIdVal},
@@ -1492,8 +1494,8 @@ static LogicalResult iterateGatherScatterIndices(
       // Because we checked that the memdesc's allocshape and shape match, we
       // can ignore the strides and directly index into the shmem object.
       Value shMemPtr =
-          gep(elemPtrTy, llvmElemTy, smemObj.getBase(), shMemOffset);
-      Value yOffset = add(yOffsetValue, i32_val(msgId * msgSize));
+          b.gep(elemPtrTy, llvmElemTy, smemObj.getBase(), shMemOffset);
+      Value yOffset = b.add(yOffsetValue, b.i32_val(msgId * msgSize));
 
       callback(pred, shMemPtr, yOffset, ArrayRef(xOffsets).slice(regId, 4));
     };
@@ -1571,6 +1573,7 @@ LogicalResult AsyncTMAScatterOpConversion::matchAndRewrite(
     triton::nvidia_gpu::AsyncTMAScatterOp op, OpAdaptor adaptor,
     ConversionPatternRewriter &rewriter) const {
   Location loc = op.getLoc();
+  auto b = TritonLLVMOpBuilder(loc, rewriter);
   MLIRContext *ctx = getContext();
   LLVM::LLVMVoidType voidTy = void_ty(op->getContext());
 
@@ -1601,7 +1604,7 @@ LogicalResult AsyncTMAScatterOpConversion::matchAndRewrite(
   if (failed(iterateGatherScatterIndices(
           op, rewriter, *getTypeConverter(), op.getXOffsets(), op.getSrc(),
           adaptor.getSrc(), adaptor.getXOffsets(), adaptor.getYOffset(),
-          /*pred=*/true_val(), callback)))
+          /*pred=*/b.true_val(), callback)))
     return failure();
 
   // TODO: Separate the syncronizations operations into separate TTGIR ops to
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/TensorMemoryToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/TensorMemoryToLLVM.cpp
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/Utility.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/Utility.cpp