triton-lang
diff --git a/‎include/triton/Conversion/TritonGPUToLLVM/ElementwiseOpToLLVMBase.h‎
Lines changed: 2 additions & 2 deletions b/‎include/triton/Conversion/TritonGPUToLLVM/ElementwiseOpToLLVMBase.h‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎include/triton/Tools/LinearLayout.h‎
Lines changed: 1 addition & 1 deletion b/‎include/triton/Tools/LinearLayout.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Conversion/TritonGPUToLLVM/Utility.cpp‎
Lines changed: 2 additions & 2 deletions b/‎lib/Conversion/TritonGPUToLLVM/Utility.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎lib/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.cpp‎
Lines changed: 1 addition & 1 deletion b/‎lib/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Dialect/TritonGPU/IR/Dialect.cpp‎
Lines changed: 22 additions & 21 deletions b/‎lib/Dialect/TritonGPU/IR/Dialect.cpp‎
Lines changed: 22 additions & 21 deletions
diff --git a/‎lib/Dialect/TritonGPU/IR/LinearLayoutConversions.cpp‎
Lines changed: 5 additions & 3 deletions b/‎lib/Dialect/TritonGPU/IR/LinearLayoutConversions.cpp‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎lib/Dialect/TritonGPU/IR/Ops.cpp‎
Lines changed: 3 additions & 2 deletions b/‎lib/Dialect/TritonGPU/IR/Ops.cpp‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/AccelerateMatmul.cpp‎
Lines changed: 1 addition & 1 deletion b/‎lib/Dialect/TritonGPU/Transforms/AccelerateMatmul.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Dialect/TritonGPU/Transforms/OptimizeThreadLocality.cpp‎
Lines changed: 1 addition & 1 deletion b/‎lib/Dialect/TritonGPU/Transforms/OptimizeThreadLocality.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/PipeliningUtility.cpp‎
Lines changed: 1 addition & 1 deletion b/‎lib/Dialect/TritonGPU/Transforms/Pipeliner/PipeliningUtility.cpp‎
Lines changed: 1 addition & 1 deletion
@@ -94,8 +94,8 @@ class ElementwiseOpConversionBase : public ConvertOpToLLVMPattern<SourceOp> {
         bases_inv[d][i] = {0};
       }
     }
-    auto invBroadcast =
-        LinearLayout(bases_inv, invReg.getOutDims(), /*isSurjective=*/false);
+    auto invBroadcast = LinearLayout(std::move(bases_inv), invReg.getOutDims(),
+                                     /*isSurjective=*/false);
     auto cvt = llReg.compose(invBroadcast);
 
     // Deduplicate the result values
 
@@ -582,7 +582,7 @@ class LinearLayout {
     auto value = std::move(it->second);
     bases.erase(it);
     bases.insert({newDim, std::move(value)});
-    return LinearLayout(bases, getOutDims(),
+    return LinearLayout(std::move(bases), getOutDims(),
                         /*requireSurjective=*/isSurjective());
   }
 
 
@@ -1224,8 +1224,6 @@ delinearize(RewriterBase &rewriter, Location loc,
             ArrayRef<int64_t> shape, StringAttr dimName, Value linear) {
   auto b = TritonLLVMOpBuilder(loc, rewriter);
   auto ll = triton::gpu::toLinearLayout(shape, layout);
-  auto linearLayout =
-      triton::gpu::LinearEncodingAttr::get(rewriter.getContext(), ll);
   assert(ll.hasInDim(dimName));
   int32_t freeVarMask = ll.getFreeVariableMasks()[dimName];
   auto isRepresentative = b.true_val();
@@ -1237,6 +1235,8 @@ delinearize(RewriterBase &rewriter, Location loc,
     linear = pext_i32(rewriter, loc, linear, nonFreeVarMask);
   }
 
+  auto linearLayout = triton::gpu::LinearEncodingAttr::get(
+      rewriter.getContext(), std::move(ll));
   auto orderDim = linearLayout.orderPerDim(dimName, linearLayout.getOrder());
   auto shapeDim = linearLayout.basesPerDim(dimName);
   auto multiDim = delinearize(rewriter, loc, linear, shapeDim, orderDim);
 
@@ -389,7 +389,7 @@ struct TritonSplitOpPattern : public OpConversionPattern<triton::SplitOp> {
           append(defaultEnc.getThreadsPerWarp(), 1),
           append(defaultEnc.getWarpsPerCTA(), 1),
           prepend(defaultEnc.getOrder(), rank - 1),
-          CGAEncodingAttr::get(getContext(), layout));
+          CGAEncodingAttr::get(getContext(), std::move(layout)));
       srcTy = srcTy.cloneWithEncoding(srcEnc);
       src = ConvertLayoutOp::create(rewriter, op.getLoc(), srcTy, src);
     }
 
@@ -413,7 +413,7 @@ CGAEncodingAttr CGAEncodingAttr::getDefault(MLIRContext *ctx, int rank) {
   LinearLayout::BasesT bases;
   bases[kBlock] = {};
   auto dims = standardOutDimNames(ctx, rank);
-  return get(ctx, LinearLayout(bases, dims));
+  return get(ctx, LinearLayout(std::move(bases), dims));
 }
 
 CGAEncodingAttr CGAEncodingAttr::fromSplitParams(MLIRContext *ctx,
@@ -438,18 +438,18 @@ CGAEncodingAttr CGAEncodingAttr::fromSplitParams(MLIRContext *ctx,
   }
 
   layout = layout.transposeOuts(outDimNames);
-  return CGAEncodingAttr::get(ctx, layout);
+  return CGAEncodingAttr::get(ctx, std::move(layout));
 }
 
 SmallVector<unsigned> CGAEncodingAttr::getCTAsPerCGA() const {
-  auto ll = getLinearLayout();
+  const auto &ll = getLinearLayout();
   auto rank = ll.getNumOutDims();
   return basesPerDimImpl(ll.getBases(), StringAttr::get(getContext(), "block"),
                          rank, /*skipBroadcast=*/false);
 }
 
 SmallVector<unsigned> CGAEncodingAttr::getCTASplitNum() const {
-  auto ll = getLinearLayout();
+  const auto &ll = getLinearLayout();
   auto rank = ll.getNumOutDims();
   return basesPerDimImpl(ll.getBases(), StringAttr::get(getContext(), "block"),
                          rank);
@@ -996,7 +996,7 @@ basesPerDimImpl(const LinearLayout::BasesT &namedBases, StringAttr dimName,
 
 SmallVector<unsigned>
 LinearEncodingAttr::basesPerDim(StringAttr dimName, bool skipBroadcast) const {
-  auto ll = getLinearLayout();
+  const auto &ll = getLinearLayout();
   auto rank = ll.getNumOutDims();
   return basesPerDimImpl(ll.getBases(), dimName, rank, skipBroadcast);
 }
@@ -1066,7 +1066,7 @@ SmallVector<unsigned> LinearEncodingAttr::getThreadOrder() const {
 
 SmallVector<unsigned> LinearEncodingAttr::getSizePerThread() const {
   auto rank = getOrder().size();
-  auto ll = getLinearLayout();
+  const auto &ll = getLinearLayout();
   auto ctx = getContext();
   auto kRegister = StringAttr::get(ctx, "register");
   auto splitNum = getCGALayout().getCTASplitNum();
@@ -1144,7 +1144,7 @@ LinearEncodingAttr::getElemsPerThread(ArrayRef<int64_t> shape) const {
 SmallVector<unsigned>
 LinearEncodingAttr::getContig(const char *inDim,
                               SmallVector<unsigned int> lowerContig) const {
-  auto ll = getLinearLayout();
+  const auto &ll = getLinearLayout();
   const auto &bases =
       ll.getBases().find(StringAttr::get(getContext(), inDim))->second;
   auto order = getOrder();
@@ -1517,7 +1517,7 @@ SmallVector<unsigned> SliceEncodingAttr::getRepOrder() const {
 CGAEncodingAttr SliceEncodingAttr::getCGALayout() const {
   auto layout = ::getCGALayout(getParent()).getLinearLayout();
   layout = removeStandardDim(layout, getDim());
-  return CGAEncodingAttr::get(getContext(), layout);
+  return CGAEncodingAttr::get(getContext(), std::move(layout));
 }
 
 template <class T>
@@ -1749,7 +1749,7 @@ Attribute SharedLinearEncodingAttr::parse(AsmParser &parser, Type type) {
 SmallVector<unsigned>
 SharedLinearEncodingAttr::basesPerDim(StringAttr dimName,
                                       bool skipBroadcast) const {
-  auto ll = getLinearLayout();
+  const auto &ll = getLinearLayout();
   auto rank = ll.getNumOutDims();
   return basesPerDimImpl(ll.getBases(), dimName, rank, skipBroadcast);
 }
@@ -1761,7 +1761,7 @@ SharedLinearEncodingAttr::orderPerDim(StringAttr dimName,
 }
 
 SmallVector<unsigned> SharedLinearEncodingAttr::getOrder() const {
-  auto ll = getLinearLayout();
+  const auto &ll = getLinearLayout();
   auto rank = ll.getNumOutDims();
   SmallVector<unsigned> defaultOrder(rank);
   std::iota(defaultOrder.rbegin(), defaultOrder.rend(), 0);
@@ -1774,7 +1774,7 @@ CGAEncodingAttr SharedLinearEncodingAttr::getCGALayout() const {
 }
 LinearLayout
 SharedLinearEncodingAttr::toLinearLayout(ArrayRef<int64_t> shape) const {
-  auto ll = getLinearLayout();
+  const auto &ll = getLinearLayout();
   auto outDimNames = llvm::to_vector(ll.getOutDimNames());
   assert(shape.size() == outDimNames.size());
   // We don't support automatic broadcasting for shared linear layouts
@@ -1997,7 +1997,7 @@ PaddedSharedEncodingAttr PaddedSharedEncodingAttr::get(
       identityStandardND(kOffset, SmallVector<unsigned>(shape), order);
   linearComponent = combineCtaCgaWithShape(linearComponent, cgaLayout, shape);
 
-  return get(context, intervalPads, linearComponent);
+  return get(context, intervalPads, std::move(linearComponent));
 }
 
 PaddedSharedEncodingAttr PaddedSharedEncodingAttr::get(
@@ -2010,7 +2010,7 @@ PaddedSharedEncodingAttr PaddedSharedEncodingAttr::get(
     intervals.push_back(interval);
     paddings.push_back(padding);
   }
-  return get(context, intervals, paddings, linearComponent);
+  return get(context, intervals, paddings, std::move(linearComponent));
 }
 
 SmallVector<unsigned>
@@ -2454,7 +2454,7 @@ SmallVector<unsigned> DotOperandEncodingAttr::getRepOrder() const {
 }
 
 CGAEncodingAttr DotOperandEncodingAttr::getCGALayout() const {
-  auto layout = ::getCGALayout(getParent()).getLinearLayout();
+  const auto &layout = ::getCGALayout(getParent()).getLinearLayout();
   auto bases = layout.getBases();
   auto kBlock = StringAttr::get(getContext(), "block");
   auto &blockBases = bases[kBlock];
@@ -2465,7 +2465,8 @@ CGAEncodingAttr DotOperandEncodingAttr::getCGALayout() const {
   }
   auto dims = layout.getOutDims();
   dims[kDim].second = 1;
-  return CGAEncodingAttr::get(getContext(), LinearLayout(bases, dims, true));
+  return CGAEncodingAttr::get(getContext(),
+                              LinearLayout(std::move(bases), dims, true));
 }
 LogicalResult DotOperandEncodingAttr::verify(
     ::llvm::function_ref<::mlir::InFlightDiagnostic()> emitError,
@@ -3071,7 +3072,7 @@ struct TritonGPUInferLayoutInterface
     LinearLayout ll =
         inferReshapeLinearLayout(cast<TensorOrMemDesc>(srcTy), dstShape);
 
-    dstEnc = LinearEncodingAttr::get(srcEnc.getContext(), ll);
+    dstEnc = LinearEncodingAttr::get(srcEnc.getContext(), std::move(ll));
     return success();
   }
 
@@ -3119,7 +3120,7 @@ struct TritonGPUInferLayoutInterface
           enc.getContext(), append(enc.getSizePerThread(), 2),
           append(enc.getThreadsPerWarp(), 1), append(enc.getWarpsPerCTA(), 1),
           appendMajorDim(enc.getOrder()),
-          CGAEncodingAttr::get(enc.getContext(), ctall));
+          CGAEncodingAttr::get(enc.getContext(), std::move(ctall)));
       return success();
     }
 
@@ -3136,7 +3137,7 @@ struct TritonGPUInferLayoutInterface
         tryJoinOnAxis(ctx, ll, newLl, /*fwdInference=*/true, axis, loc);
 
     assert(result.succeeded());
-    dstEnc = LinearEncodingAttr::get(ctx, newLl);
+    dstEnc = LinearEncodingAttr::get(ctx, std::move(newLl));
     return success();
   }
 
@@ -3167,7 +3168,7 @@ struct TritonGPUInferLayoutInterface
           ArrayRef(enc.getSizePerThread()).drop_back(1),
           ArrayRef(enc.getThreadsPerWarp()).drop_back(1),
           ArrayRef(enc.getWarpsPerCTA()).drop_back(1), ArrayRef(newOrder),
-          CGAEncodingAttr::get(enc.getContext(), ctall));
+          CGAEncodingAttr::get(enc.getContext(), std::move(ctall)));
       return success();
     }
 
@@ -3191,7 +3192,7 @@ struct TritonGPUInferLayoutInterface
     SmallVector<int64_t> dstShape(shape.begin(), shape.end());
     dstShape.pop_back();
     newLl = newLl.reshapeOuts(standardOutDimPairs(ctx, dstShape));
-    dstEnc = LinearEncodingAttr::get(ctx, newLl);
+    dstEnc = LinearEncodingAttr::get(ctx, std::move(newLl));
     return success();
   }
 
@@ -3254,7 +3255,7 @@ struct TritonGPUInferLayoutInterface
     auto result = tryJoinOnAxis(ctx, ll, newLl, fwdInference, axis, loc);
     if (!result.succeeded())
       return result;
-    outEnc = LinearEncodingAttr::get(ctx, newLl);
+    outEnc = LinearEncodingAttr::get(ctx, std::move(newLl));
     return success();
   }
 };
 
@@ -1077,7 +1077,8 @@ LinearLayout tensorMemoryToLinearLayout(ArrayRef<int64_t> shape,
     if (isM64TwoCTA) {
       auto bases = ret.getBases();
       std::swap(bases[kRow].back(), bases[kCol].back());
-      ret = LinearLayout(bases, ret.getOutDims(), ret.isSurjective());
+      ret =
+          LinearLayout(std::move(bases), ret.getOutDims(), ret.isSurjective());
     }
     auto split = LinearLayout::identity1D(splitM, kCol, dims[0]);
     return ret * split;
@@ -1103,7 +1104,7 @@ LinearLayout tensorMemoryToLinearLayout(ArrayRef<int64_t> shape,
     }
     bases[kRow].push_back({16, 0});
     bases[kRow].push_back({32, 0});
-    tile = LinearLayout(bases, dims);
+    tile = LinearLayout(std::move(bases), dims);
   } else {
     tile *= LinearLayout::identity1D(blockM, kRow, dims[0]) *
             LinearLayout::identity1D(blockN, kCol, dims[1]);
@@ -1251,7 +1252,8 @@ LinearLayout getLayoutWithinBlock(const LinearLayout &layout) {
   assert(layout.hasInDim(kBlock));
   auto bases = layout.getBases();
   bases[kBlock] = {};
-  return LinearLayout(bases, llvm::to_vector<4>(layout.getOutDimNames()));
+  return LinearLayout(std::move(bases),
+                      llvm::to_vector<4>(layout.getOutDimNames()));
 }
 
 LinearLayout combineCtaCgaWithShape(LinearLayout ctaLayout,
 
@@ -611,15 +611,16 @@ static LogicalResult inferMemDescReshapeOpEncoding(ArrayRef<int64_t> srcShape,
     for (auto [interval, padding] : llvm::zip(intervals, paddings)) {
       intervalPads.emplace_back(interval, padding);
     }
-    dstEnc = PaddedSharedEncodingAttr::get(ctx, intervalPads, dst);
+    dstEnc = PaddedSharedEncodingAttr::get(ctx, intervalPads, std::move(dst));
     return success();
   }
 
   // Generic LL case
   auto sharedEnc = cast<SharedEncodingTrait>(srcEnc);
   auto srcLL = toLinearLayout(srcShape, srcEnc);
   auto dstLL = reshapeLayout(ctx, srcLL, dstShape);
-  dstEnc = SharedLinearEncodingAttr::get(ctx, dstLL, sharedEnc.getAlignment());
+  dstEnc = SharedLinearEncodingAttr::get(ctx, std::move(dstLL),
+                                         sharedEnc.getAlignment());
   return success();
 }
 
 
@@ -731,7 +731,7 @@ class ScaledBlockedToMMA : public mlir::OpRewritePattern<triton::DotScaledOp> {
 
       auto ll = triton::gpu::getSM120DotScaledScaleLayout(
           ctx, shape, opIdx, mmaWarps, blocked.getCGALayout());
-      auto newEnc = triton::gpu::LinearEncodingAttr::get(ctx, ll);
+      auto newEnc = triton::gpu::LinearEncodingAttr::get(ctx, std::move(ll));
       auto newTy = RankedTensorType::get(shape, ty.getElementType(), newEnc);
       return ConvertLayoutOp::create(rewriter, scale.getLoc(), newTy, scale);
     };
 
@@ -555,7 +555,7 @@ class TritonGPUOptimizeThreadLocalityPass
     auto *ctx = kBlocked.getContext();
     auto dim = standardOutDimNames(ctx, rank + 1)[rank];
     ctaLl *= LinearLayout::identity1D(1, kBlocked, dim);
-    auto ctaLayout3d = CGAEncodingAttr::get(ctx, ctaLl);
+    auto ctaLayout3d = CGAEncodingAttr::get(ctx, std::move(ctaLl));
     auto blocked3d = triton::gpu::BlockedEncodingAttr::get(
         reduce.getContext(), sizePerThread3d, threadsPerWarp3d, warsPerCTA3d,
         order3d, ctaLayout3d);
 
@@ -449,7 +449,7 @@ Value mlir::triton::createScalarAlloc(ImplicitLocOpBuilder &rewriter, Type type,
       std::vector<std::vector<int32_t>>(llvm::Log2_32(numCTAs), {0});
   auto dims = standardOutDimNames(ctx, 1);
   auto barrierCGALayout =
-      ttg::CGAEncodingAttr::get(ctx, LinearLayout(bases, dims));
+      ttg::CGAEncodingAttr::get(ctx, LinearLayout(std::move(bases), dims));
   auto barrierEncoding =
       ttg::SwizzledSharedEncodingAttr::get(ctx, 1, 1, 1, {0}, barrierCGALayout);
   ttg::MemDescType memDescType = ttg::MemDescType::get(
Original file line number	Diff line number	Diff line change
`@@ -94,8 +94,8 @@ class ElementwiseOpConversionBase : public ConvertOpToLLVMPattern<SourceOp> {`
`94`	`94`	`bases_inv[d][i] = {0};`
`95`	`95`	`}`
`96`	`96`	`}`
`97`		`- auto invBroadcast =`
`98`		`- LinearLayout(bases_inv, invReg.getOutDims(), /isSurjective=/false);`
	`97`	`+ auto invBroadcast = LinearLayout(std::move(bases_inv), invReg.getOutDims(),`
	`98`	`+ /isSurjective=/false);`
`99`	`99`	`auto cvt = llReg.compose(invBroadcast);`
`100`	`100`
`101`	`101`	`// Deduplicate the result values`
Original file line number	Diff line number	Diff line change
`@@ -582,7 +582,7 @@ class LinearLayout {`
`582`	`582`	`auto value = std::move(it->second);`
`583`	`583`	`bases.erase(it);`
`584`	`584`	`bases.insert({newDim, std::move(value)});`
`585`		`- return LinearLayout(bases, getOutDims(),`
	`585`	`+ return LinearLayout(std::move(bases), getOutDims(),`
`586`	`586`	`/requireSurjective=/isSurjective());`
`587`	`587`	`}`
`588`	`588`
Original file line number	Diff line number	Diff line change
`@@ -389,7 +389,7 @@ struct TritonSplitOpPattern : public OpConversionPattern<triton::SplitOp> {`
`389`	`389`	`append(defaultEnc.getThreadsPerWarp(), 1),`
`390`	`390`	`append(defaultEnc.getWarpsPerCTA(), 1),`
`391`	`391`	`prepend(defaultEnc.getOrder(), rank - 1),`
`392`		`- CGAEncodingAttr::get(getContext(), layout));`
	`392`	`+ CGAEncodingAttr::get(getContext(), std::move(layout)));`
`393`	`393`	`srcTy = srcTy.cloneWithEncoding(srcEnc);`
`394`	`394`	`src = ConvertLayoutOp::create(rewriter, op.getLoc(), srcTy, src);`
`395`	`395`	`}`
Original file line number	Diff line number	Diff line change
`@@ -611,15 +611,16 @@ static LogicalResult inferMemDescReshapeOpEncoding(ArrayRef<int64_t> srcShape,`
`611`	`611`	`for (auto [interval, padding] : llvm::zip(intervals, paddings)) {`
`612`	`612`	`intervalPads.emplace_back(interval, padding);`
`613`	`613`	`}`
`614`		`- dstEnc = PaddedSharedEncodingAttr::get(ctx, intervalPads, dst);`
	`614`	`+ dstEnc = PaddedSharedEncodingAttr::get(ctx, intervalPads, std::move(dst));`
`615`	`615`	`return success();`
`616`	`616`	`}`
`617`	`617`
`618`	`618`	`// Generic LL case`
`619`	`619`	`auto sharedEnc = cast<SharedEncodingTrait>(srcEnc);`
`620`	`620`	`auto srcLL = toLinearLayout(srcShape, srcEnc);`
`621`	`621`	`auto dstLL = reshapeLayout(ctx, srcLL, dstShape);`
`622`		`- dstEnc = SharedLinearEncodingAttr::get(ctx, dstLL, sharedEnc.getAlignment());`
	`622`	`+ dstEnc = SharedLinearEncodingAttr::get(ctx, std::move(dstLL),`
	`623`	`+ sharedEnc.getAlignment());`
`623`	`624`	`return success();`
`624`	`625`	`}`
`625`	`626`