triton-lang
diff --git a/‎include/triton/Conversion/TritonGPUToLLVM/Utility.h‎
Lines changed: 120 additions & 125 deletions b/‎include/triton/Conversion/TritonGPUToLLVM/Utility.h‎
Lines changed: 120 additions & 125 deletions
diff --git a/‎lib/Conversion/TritonGPUToLLVM/AssertOpToLLVM.cpp‎
Lines changed: 1 addition & 1 deletion b/‎lib/Conversion/TritonGPUToLLVM/AssertOpToLLVM.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Conversion/TritonGPUToLLVM/ControlFlowOpToLLVM.cpp‎
Lines changed: 2 additions & 2 deletions b/‎lib/Conversion/TritonGPUToLLVM/ControlFlowOpToLLVM.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎lib/Conversion/TritonGPUToLLVM/ConvertLayoutOpToLLVM.cpp‎
Lines changed: 5 additions & 5 deletions b/‎lib/Conversion/TritonGPUToLLVM/ConvertLayoutOpToLLVM.cpp‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎lib/Conversion/TritonGPUToLLVM/ConvertLayoutOpToLLVM/SharedToDotOperandFMA.cpp‎
Lines changed: 6 additions & 6 deletions b/‎lib/Conversion/TritonGPUToLLVM/ConvertLayoutOpToLLVM/SharedToDotOperandFMA.cpp‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎lib/Conversion/TritonGPUToLLVM/ElementwiseOpToLLVM.cpp‎
Lines changed: 5 additions & 5 deletions b/‎lib/Conversion/TritonGPUToLLVM/ElementwiseOpToLLVM.cpp‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎lib/Conversion/TritonGPUToLLVM/GatherOpToLLVM.cpp‎
Lines changed: 3 additions & 3 deletions b/‎lib/Conversion/TritonGPUToLLVM/GatherOpToLLVM.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎lib/Conversion/TritonGPUToLLVM/HistogramOpToLLVM.cpp‎
Lines changed: 2 additions & 2 deletions b/‎lib/Conversion/TritonGPUToLLVM/HistogramOpToLLVM.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎lib/Conversion/TritonGPUToLLVM/MakeRangeOpToLLVM.cpp‎
Lines changed: 1 addition & 1 deletion b/‎lib/Conversion/TritonGPUToLLVM/MakeRangeOpToLLVM.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Conversion/TritonGPUToLLVM/MemoryOpToLLVM.cpp‎
Lines changed: 1 addition & 1 deletion b/‎lib/Conversion/TritonGPUToLLVM/MemoryOpToLLVM.cpp‎
Lines changed: 1 addition & 1 deletion
@@ -18,7 +18,7 @@ struct AssertOpConversion : public ConvertOpToLLVMPattern<triton::AssertOp> {
   matchAndRewrite(triton::AssertOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override {
     auto loc = op.getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     auto ctx = rewriter.getContext();
     auto typeConverter = getTypeConverter();
     auto elems = unpackLLElements(loc, adaptor.getCondition(), rewriter);
 
@@ -14,7 +14,7 @@ struct ReturnOpConversion : public ConvertOpToLLVMPattern<triton::ReturnOp> {
                   ConversionPatternRewriter &rewriter) const override {
     auto funcOp = op->getParentOfType<LLVM::LLVMFuncOp>();
     auto loc = op.getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     if (funcOp->hasAttr("nvvm.kernel")) {
       // A GPU kernel
       if (op.getNumOperands() > 0) {
@@ -79,7 +79,7 @@ struct CallOpConversion : public ConvertOpToLLVMPattern<triton::CallOp> {
     // Get the last argument of the caller, which is the current stack pointer
     // of shared memory and append it to the operands of the callOp.
     auto loc = callOp.getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     auto caller = callOp->getParentOfType<FunctionOpInterface>();
     auto promotedOperands = this->getTypeConverter()->promoteOperands(
         callOp.getLoc(), /*opOperands=*/callOp->getOperands(),
 
@@ -62,7 +62,7 @@ struct ConvertLayoutOpConversion
                       ArrayRef<unsigned> origRepShape,
                       ArrayRef<unsigned> outOrd, SmallVector<Value> &vals,
                       Value smemBase) const {
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     auto accumNumCTAsEachRep = product<unsigned>(numCTAsEachRep);
     auto layout = type.getEncoding();
     auto rank = type.getRank();
@@ -147,7 +147,7 @@ struct ConvertLayoutOpConversion
                                 ConversionPatternRewriter &rewriter,
                                 const TargetInfoBase &targetInfo) const {
     auto loc = op.getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     auto typeConverter = getTypeConverter();
     RankedTensorType srcTy = op.getSrc().getType();
     RankedTensorType dstTy = op.getType();
@@ -357,7 +357,7 @@ struct ConvertLayoutOpUsingLinearLayoutsConversion
                                     ConversionPatternRewriter &rewriter) const {
     MLIRContext *ctx = op.getContext();
     auto loc = op.getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     auto srcTy = op.getSrc().getType();
     auto dstTy = op.getType();
 
@@ -446,7 +446,7 @@ struct ConvertLayoutOpUsingLinearLayoutsConversion
                           ConversionPatternRewriter &rewriter) const {
     MLIRContext *ctx = op.getContext();
     auto loc = op.getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
 
     StringAttr kRegister = str_attr("register");
     StringAttr kLane = str_attr("lane");
@@ -651,7 +651,7 @@ void ConvertLayoutOpUsingLinearLayoutsConversion::transferWithinWarp(
     ConversionPatternRewriter &rewriter) const {
   MLIRContext *ctx = op.getContext();
   Location loc = op.getLoc();
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   StringAttr kRegister = str_attr("register");
   StringAttr kLane = str_attr("lane");
   assert(!cvtNeedsSharedMemory(op.getSrc().getType(), op.getType()));
 
@@ -37,7 +37,7 @@ bool isSwizzled(SharedEncodingAttr layout) { return layout.getMaxPhase() != 1; }
 SmallVector<Value> swizzleIndices(ConversionPatternRewriter &rewriter,
                                   Location loc, SmallVector<Value> rawIndices,
                                   SharedEncodingAttr layout) {
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   const auto &order = layout.getOrder();
   auto rank = order.size();
 
@@ -81,7 +81,7 @@ void storeValuesInLinearVector(PatternRewriter &rewriter, Location loc,
                                unsigned kIdx, unsigned nonKIdx, unsigned bIdx,
                                const DimIdx &dim, int vecDim,
                                ArrayRef<unsigned> opOrder) {
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   auto vecTy = cast<VectorType>(vec.getType());
   auto vectorSize = vecTy.getNumElements();
   auto elemTy = vecTy.getElementType();
@@ -118,7 +118,7 @@ Value getUnswizzledFirstElemOffset(ConversionPatternRewriter &rewriter,
                                    Location loc, unsigned B, unsigned NonK,
                                    Value bTileOffset, Value nonKTileOffset,
                                    Value bStride, Value nonKStride) {
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   auto bOffset = b.mul(b.urem(bTileOffset, b.i32_val(B)), bStride);
   auto nonKOffset = b.mul(b.urem(nonKTileOffset, b.i32_val(NonK)), nonKStride);
   Value threadIdDependantOffset = b.add(bOffset, nonKOffset);
@@ -157,7 +157,7 @@ Value computeSwizzledOffset(ConversionPatternRewriter &rewriter, Location loc,
                             SharedEncodingAttr sharedLayout,
                             ArrayRef<int64_t> opTensorShape,
                             ArrayRef<Value> strides) {
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   Value offset = b.i32_val(0);
   // Compute unswizzled multi dim coordinates in shared memory object
   SmallVector<Value> elemMultiDimIndices(3);
@@ -190,7 +190,7 @@ Value computeNonSwizzledOffset(ConversionPatternRewriter &rewriter,
                                unsigned shapePerCTABTile,
                                unsigned shapePerCTANonKTile,
                                ArrayRef<Value> strides) {
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   SmallVector<Value> offsetIndices(3);
   offsetIndices[dim.batch] =
       b.i32_val((i.bTile * shapePerCTABTile + i.b) % tensorShape[dim.batch]);
@@ -219,7 +219,7 @@ Value loadFMAOp(Value srcVal, Value llVal, BlockedEncodingAttr dLayout,
                 Value thread, Location loc,
                 const LLVMTypeConverter *typeConverter,
                 ConversionPatternRewriter &rewriter, const int dotOpNo) {
-  auto tb = TritonLLVMOpBuilder(loc, rewriter);
+  auto tb = TritonLLVMOpBuilder(loc, &rewriter);
   if (!verifyCTALayout(dLayout.getCTALayout()))
     return Value();
 
 
@@ -40,7 +40,7 @@ struct AddPtrOpConversion : public ConvertOpToLLVMPattern<AddPtrOp> {
   matchAndRewrite(AddPtrOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override {
     Location loc = op->getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     auto resultTy = op.getType();
     auto typeConverter = getTypeConverter();
     auto resultTensorTy = dyn_cast<RankedTensorType>(resultTy);
@@ -248,7 +248,7 @@ struct ElementwiseInlineAsmOpConversion
                                   MultipleOperandsRange operands,
                                   ConversionPatternRewriter &rewriter,
                                   Location loc) const {
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     SmallVector<Value> packedOperands;
     unsigned numPackedElements = op.getPackedElement();
     for (int i = 0, e = op.getNumOperands(); i < e; i++) {
@@ -279,7 +279,7 @@ struct ElementwiseInlineAsmOpConversion
                 ConversionPatternRewriter &rewriter,
                 MultipleOperandsRange operands, Location loc) const {
     auto ctx = op->getContext();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
 
     if (operands.size() % op.getPackedElement() != 0)
       llvm::report_fatal_error("Inline asm op has more packed elements than "
@@ -354,7 +354,7 @@ struct ElementwiseInlineAsmOpConversion
   matchAndRewrite(ElementwiseInlineAsmOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override {
     Location loc = op->getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
 
     // Layout is unpackedOperands[operand][elem].
     SmallVector<SmallVector<Value>> unpackedOperands;
@@ -448,7 +448,7 @@ struct AbsFOpConversion
                                    ConversionPatternRewriter &rewriter,
                                    Type elemTy, MultipleOperandsRange operands,
                                    Location loc) const {
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     if (llvm::isa<IntegerType>(elemTy)) {
       // Mask out the sign bit
       auto num_bits =
 
@@ -50,7 +50,7 @@ GatherOpConversion::matchAndRewrite(GatherOp op, OpAdaptor adaptor,
 
 static Value convertIndexToI32(Location loc, Value index,
                                ConversionPatternRewriter &rewriter) {
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   unsigned idxWidth = index.getType().getIntOrFloatBitWidth();
   // The LL index computations are performed with 32 bit integers. If the
   // indices are something else, cast them to i32.
@@ -66,7 +66,7 @@ static Value convertIndexToI32(Location loc, Value index,
 void GatherOpConversion::emitGatherInShared(
     GatherOp op, OpAdaptor adaptor, ConversionPatternRewriter &rewriter) const {
   Location loc = op.getLoc();
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   RankedTensorType srcType = op.getSrc().getType();
 
   // Compute the src subtensor shape owned by this CTA.
@@ -190,7 +190,7 @@ void GatherOpConversion::emitWarpLocalGather(
     GatherOp op, OpAdaptor adaptor, ConversionPatternRewriter &rewriter) const {
   MLIRContext *ctx = op.getContext();
   Location loc = op.getLoc();
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   RankedTensorType srcType = op.getSrc().getType();
   RankedTensorType idxType = op.getIndices().getType();
 
 
@@ -18,7 +18,7 @@ static SmallVector<Value> computeWarpLevelHistogram(
     Location loc, RankedTensorType srcType, SmallVector<Value> &srcValues,
     int numBins, int numThreadPerWarp, Value threadId,
     ConversionPatternRewriter &rewriter, const TargetInfoBase &targetInfo) {
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   assert(numBins % numThreadPerWarp == 0 &&
          "numBins must be divisible by numThreadPerWarp");
   Value zero = b.i32_val(0);
@@ -88,7 +88,7 @@ static SmallVector<Value> computeCrossWarpHistogram(
     Value baseSharedMemPtr, const SmallVector<Value> &warpLevelHistogram,
     int numBins, int numThreadPerWarp, const SmallVector<Value> &indices,
     Value threadId, int numWarps) {
-  auto b = TritonLLVMOpBuilder(loc, rewriter);
+  auto b = TritonLLVMOpBuilder(loc, &rewriter);
   SmallVector<Value> histogramValues;
   unsigned numWarpsWithUniqueData =
       mlir::triton::gpu::getWarpsPerCTAWithUniqueData(srcType.getEncoding(),
 
@@ -18,7 +18,7 @@ struct MakeRangeOpConversion
   matchAndRewrite(triton::MakeRangeOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override {
     Location loc = op->getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
     RankedTensorType ty = op.getType();
     auto shape = ty.getShape();
     auto layout = ty.getEncoding();
 
@@ -40,7 +40,7 @@ struct GlobalScratchAllocOpConversion
   matchAndRewrite(triton::gpu::GlobalScratchAllocOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override {
     Location loc = op.getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
+    auto b = TritonLLVMOpBuilder(loc, &rewriter);
 
     auto opOffsetAttr = op->getAttrOfType<mlir::IntegerAttr>(
         "ttg.global_scratch_memory_offset");