Merge commit 'aac457e8d9af7c17e91c9cdc55a431d029fe8782'

whitneywhtsang · whitneywhtsang · commit c973b794b83a · 2025-04-16T18:06:14.000Z
diff --git a/include/triton/Dialect/TritonNvidiaGPU/Transforms/TMAUtilities.h b/include/triton/Dialect/TritonNvidiaGPU/Transforms/TMAUtilities.h
@@ -28,118 +28,18 @@ inline SmallVector<Value> translateTMAIndices(BuilderT &builder, Location loc,
   return indices;
 }
 
-inline gpu::CTALayoutAttr updateCTALayoutForShape(gpu::CTALayoutAttr ctaLayout,
-                                                  ArrayRef<int64_t> shape) {
-  auto rank = shape.size();
-  if (ctaLayout.getRank() == rank)
-    return ctaLayout;
+gpu::CTALayoutAttr updateCTALayoutForShape(gpu::CTALayoutAttr ctaLayout,
+                                           ArrayRef<int64_t> shape);
 
-  auto ctx = ctaLayout.getContext();
-  if (ctaLayout.getRank() > rank) {
-    unsigned rankDiff = ctaLayout.getRank() - rank;
-    return gpu::CTALayoutAttr::get(
-        ctx, ctaLayout.getCTAsPerCGA().drop_front(rankDiff),
-        ctaLayout.getCTASplitNum().drop_front(rankDiff),
-        ctaLayout.getCTAOrder().drop_front(rankDiff));
-  }
-  // For rank-reducing loads, we need to rank-increase the CTA Layout
-  auto rankDiff = rank - ctaLayout.getRank();
-  for (unsigned i = 0; i < rankDiff; ++i) {
-    assert(shape[i] == 1 && "Should only happen for rank-reducing loads");
-  }
-  SmallVector<unsigned> CTAsPerCGA(rank, 1);
-  SmallVector<unsigned> CTASplitNum(rank, 1);
-  SmallVector<unsigned> CTAOrder(rank, 1);
-
-  llvm::copy(ctaLayout.getCTAsPerCGA(), CTAsPerCGA.begin() + rankDiff);
-  llvm::copy(ctaLayout.getCTASplitNum(), CTASplitNum.begin() + rankDiff);
-  for (unsigned i = 0; i < rankDiff; ++i) {
-    CTAOrder[i] = rank - i;
-  }
-  llvm::copy(ctaLayout.getCTAOrder(), CTAOrder.begin() + rankDiff);
-  return gpu::CTALayoutAttr::get(ctx, CTAsPerCGA, CTASplitNum, CTAOrder);
-}
-
-inline gpu::SharedEncodingTrait
+gpu::SharedEncodingTrait
 updateEncodingForShape(Operation *op, gpu::SharedEncodingTrait encoding,
-                       RankedTensorType tensorType) {
-  auto ctx = encoding.getContext();
-  auto ctaLayout = gpu::getCTALayout(encoding);
-  if (auto nvmmaEnc = dyn_cast<gpu::NVMMASharedEncodingAttr>(encoding)) {
-    auto existingCta = nvmmaEnc.getCTALayout();
-    if (!existingCta)
-      return nvmmaEnc;
-
-    auto newCtaEnc = updateCTALayoutForShape(ctaLayout, tensorType.getShape());
-    return gpu::NVMMASharedEncodingAttr::get(
-        ctx, nvmmaEnc.getSwizzlingByteWidth(), nvmmaEnc.getTransposed(),
-        nvmmaEnc.getElementBitWidth(), nvmmaEnc.getFp4Padded(), newCtaEnc);
-  }
-  if (auto swizEnc = dyn_cast<gpu::SwizzledSharedEncodingAttr>(encoding)) {
-    auto existingCta = swizEnc.getCTALayout();
-    if (!existingCta)
-      return swizEnc;
-
-    auto rank = tensorType.getRank();
-    auto oldOrder = swizEnc.getOrder();
-    SmallVector<unsigned> order;
-    for (int i = 0; i + oldOrder.size() < rank; ++i)
-      order.push_back(rank - i - 1);
-    for (int i = 0; i < oldOrder.size(); ++i) {
-      // If it is a rank-reducing load, we need to drop the last dimensions.
-      if (oldOrder[i] >= rank)
-        continue;
-      order.push_back(oldOrder[i]);
-    }
-    auto newCtaEnc = updateCTALayoutForShape(ctaLayout, tensorType.getShape());
-    return gpu::SwizzledSharedEncodingAttr::get(
-        ctx, swizEnc.getVec(), swizEnc.getPerPhase(), swizEnc.getMaxPhase(),
-        order, newCtaEnc);
-  }
-
-  constexpr auto msg = "Internal Error: Unhandled tensor descriptor encoding";
-  if (op)
-    op->emitError() << msg;
-  llvm::report_fatal_error(msg);
-}
+                       RankedTensorType tensorType);
 
-inline triton::gpu::SharedEncodingTrait
+triton::gpu::SharedEncodingTrait
 getEncodingFromDescriptor(Operation *op, RankedTensorType tensorType,
-                          Value desc) {
-  auto descBlockType = cast<TensorDescType>(desc.getType()).getBlockType();
-  Attribute encoding = descBlockType.getEncoding();
-  if (!encoding) {
-    constexpr auto msg =
-        "Internal Error: Tensor descriptor should have encoding set";
-    if (op)
-      op->emitError() << msg;
-    llvm::report_fatal_error(msg);
-  }
-  auto sharedEnc = cast<gpu::SharedEncodingTrait>(encoding);
-  if (descBlockType.getShape() == tensorType.getShape())
-    return sharedEnc;
-
-  return updateEncodingForShape(op, sharedEnc, tensorType);
-}
+                          Value desc);
 
-inline int64_t getTMAContigDim(Attribute encoding, ArrayRef<int64_t> shape) {
-  assert(encoding);
-  auto mmaEncoding =
-      llvm::dyn_cast_or_null<gpu::NVMMASharedEncodingAttr>(encoding);
-
-  // The bounding box inner dimension must be less than or equal to the
-  // swizzle size.
-  // https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__TENSOR__MEMORY.html#group__CUDA__TENSOR__MEMORY_1ga7c7d2aaac9e49294304e755e6f341d7
-  // We clamp the block size and the codegen will emit multiple copy
-  // operations.
-  if (mmaEncoding) {
-    auto elemSize = mmaEncoding.getElementBitWidth() / 8;
-    return mmaEncoding.getSwizzlingByteWidth() / elemSize;
-  }
-
-  auto shapePerCTA = gpu::getShapePerCTA(encoding, shape);
-  return shapePerCTA.back();
-}
+int64_t getTMAContigDim(Attribute encoding, ArrayRef<int64_t> shape);
 
 inline int64_t getTMAContigDim(RankedTensorType tensorType) {
   return getTMAContigDim(tensorType.getEncoding(), tensorType.getShape());
@@ -149,61 +49,9 @@ inline int64_t getTMAContigDim(gpu::MemDescType memDescType) {
   return getTMAContigDim(memDescType.getEncoding(), memDescType.getShape());
 }
 
-inline std::optional<int> getTMASwizzleMode(Operation *op, TensorDescType ty) {
-  auto encoding = ty.getBlockType().getEncoding();
-  auto mmaEncoding = dyn_cast<gpu::NVMMASharedEncodingAttr>(encoding);
-  unsigned swizzleBytes = mmaEncoding ? mmaEncoding.getSwizzlingByteWidth() : 0;
-  if (!mmaEncoding) {
-    auto swizzledEnc = dyn_cast<gpu::SwizzledSharedEncodingAttr>(encoding);
-    if (!swizzledEnc || swizzledEnc.getVec() != 1 ||
-        swizzledEnc.getPerPhase() != 1 || swizzledEnc.getMaxPhase() != 1) {
-      if (op)
-        op->emitError("Unhandled encoding type");
-      return std::nullopt;
-    }
-  }
-
-  bool fp4Padded = mmaEncoding && mmaEncoding.getFp4Padded();
-  assert(!fp4Padded || swizzleBytes == 128 &&
-                           "elem type .b4x16_p64 supports only 128B swizzling");
+std::optional<int> getTMASwizzleMode(Operation *op, TensorDescType ty);
 
-  int32_t swizzleMode = 0;
-  if (swizzleBytes == 128) {
-    swizzleMode = 3;
-  } else if (swizzleBytes == 64) {
-    swizzleMode = 2;
-  } else if (swizzleBytes == 32) {
-    swizzleMode = 1;
-  }
-  return swizzleMode;
-}
-
-inline std::optional<int> getTMAElementType(Operation *op, TensorDescType ty) {
-  auto encoding = ty.getBlockType().getEncoding();
-  auto mmaEncoding = dyn_cast<gpu::NVMMASharedEncodingAttr>(encoding);
-  bool fp4Padded = mmaEncoding && mmaEncoding.getFp4Padded();
-
-  if (fp4Padded)
-    return 14; // .b4x16_p64
-
-  auto elemSize = ty.getBlockType().getElementTypeBitWidth() / 8;
-  switch (elemSize) {
-  case 1:
-    return 0;
-  case 2:
-    return 1;
-  case 4:
-    return 2;
-  default:
-    break;
-  }
-  if (op) {
-    op->emitError()
-        << "Tensor descriptor element type must have size 1, 2, or 4 but got "
-        << elemSize;
-  }
-  return std::nullopt;
-}
+std::optional<int> getTMAElementType(Operation *op, TensorDescType ty);
 
 template <typename BuilderT>
 mlir::LogicalResult createTMADesc(mlir::Value tmaPtr,
diff --git a/lib/Dialect/TritonNvidiaGPU/Transforms/CMakeLists.txt b/lib/Dialect/TritonNvidiaGPU/Transforms/CMakeLists.txt
@@ -7,6 +7,7 @@ add_triton_library(TritonNvidiaGPUTransforms
   PromoteLHSToTMem.cpp
   TensorMemoryAllocation.cpp
   TMALowering.cpp
+  TMAUtilities.cpp
 
   DEPENDS
   TritonNvidiaGPUTransformsIncGen
diff --git a/lib/Dialect/TritonNvidiaGPU/Transforms/TMAUtilities.cpp b/lib/Dialect/TritonNvidiaGPU/Transforms/TMAUtilities.cpp
@@ -0,0 +1,177 @@
+#include <triton/Dialect/TritonNvidiaGPU/Transforms/TMAUtilities.h>
+
+namespace tt = mlir::triton;
+namespace ttg = mlir::triton::gpu;
+
+namespace mlir::triton::nvidia_gpu {
+
+ttg::CTALayoutAttr updateCTALayoutForShape(ttg::CTALayoutAttr ctaLayout,
+                                           ArrayRef<int64_t> shape) {
+  auto rank = shape.size();
+  if (ctaLayout.getRank() == rank)
+    return ctaLayout;
+
+  auto ctx = ctaLayout.getContext();
+  if (ctaLayout.getRank() > rank) {
+    unsigned rankDiff = ctaLayout.getRank() - rank;
+    return ttg::CTALayoutAttr::get(
+        ctx, ctaLayout.getCTAsPerCGA().drop_front(rankDiff),
+        ctaLayout.getCTASplitNum().drop_front(rankDiff),
+        ctaLayout.getCTAOrder().drop_front(rankDiff));
+  }
+  // For rank-reducing loads, we need to rank-increase the CTA Layout
+  auto rankDiff = rank - ctaLayout.getRank();
+  for (unsigned i = 0; i < rankDiff; ++i) {
+    assert(shape[i] == 1 && "Should only happen for rank-reducing loads");
+  }
+  SmallVector<unsigned> CTAsPerCGA(rank, 1);
+  SmallVector<unsigned> CTASplitNum(rank, 1);
+  SmallVector<unsigned> CTAOrder(rank, 1);
+
+  llvm::copy(ctaLayout.getCTAsPerCGA(), CTAsPerCGA.begin() + rankDiff);
+  llvm::copy(ctaLayout.getCTASplitNum(), CTASplitNum.begin() + rankDiff);
+  for (unsigned i = 0; i < rankDiff; ++i) {
+    CTAOrder[i] = rank - i;
+  }
+  llvm::copy(ctaLayout.getCTAOrder(), CTAOrder.begin() + rankDiff);
+  return ttg::CTALayoutAttr::get(ctx, CTAsPerCGA, CTASplitNum, CTAOrder);
+}
+
+ttg::SharedEncodingTrait
+updateEncodingForShape(Operation *op, ttg::SharedEncodingTrait encoding,
+                       RankedTensorType tensorType) {
+  auto ctx = encoding.getContext();
+  auto ctaLayout = ttg::getCTALayout(encoding);
+  if (auto nvmmaEnc = dyn_cast<ttg::NVMMASharedEncodingAttr>(encoding)) {
+    auto existingCta = nvmmaEnc.getCTALayout();
+    if (!existingCta)
+      return nvmmaEnc;
+
+    auto newCtaEnc = updateCTALayoutForShape(ctaLayout, tensorType.getShape());
+    return ttg::NVMMASharedEncodingAttr::get(
+        ctx, nvmmaEnc.getSwizzlingByteWidth(), nvmmaEnc.getTransposed(),
+        nvmmaEnc.getElementBitWidth(), nvmmaEnc.getFp4Padded(), newCtaEnc);
+  }
+  if (auto swizEnc = dyn_cast<ttg::SwizzledSharedEncodingAttr>(encoding)) {
+    auto existingCta = swizEnc.getCTALayout();
+    if (!existingCta)
+      return swizEnc;
+
+    auto rank = tensorType.getRank();
+    auto oldOrder = swizEnc.getOrder();
+    SmallVector<unsigned> order;
+    for (int i = 0; i + oldOrder.size() < rank; ++i)
+      order.push_back(rank - i - 1);
+    for (int i = 0; i < oldOrder.size(); ++i) {
+      // If it is a rank-reducing load, we need to drop the last dimensions.
+      if (oldOrder[i] >= rank)
+        continue;
+      order.push_back(oldOrder[i]);
+    }
+    auto newCtaEnc = updateCTALayoutForShape(ctaLayout, tensorType.getShape());
+    return ttg::SwizzledSharedEncodingAttr::get(
+        ctx, swizEnc.getVec(), swizEnc.getPerPhase(), swizEnc.getMaxPhase(),
+        order, newCtaEnc);
+  }
+
+  constexpr auto msg = "Internal Error: Unhandled tensor descriptor encoding";
+  if (op)
+    op->emitError() << msg;
+  llvm::report_fatal_error(msg);
+}
+
+ttg::SharedEncodingTrait getEncodingFromDescriptor(Operation *op,
+                                                   RankedTensorType tensorType,
+                                                   Value desc) {
+  auto descBlockType = cast<TensorDescType>(desc.getType()).getBlockType();
+  Attribute encoding = descBlockType.getEncoding();
+  if (!encoding) {
+    constexpr auto msg =
+        "Internal Error: Tensor descriptor should have encoding set";
+    if (op)
+      op->emitError() << msg;
+    llvm::report_fatal_error(msg);
+  }
+  auto sharedEnc = cast<ttg::SharedEncodingTrait>(encoding);
+  if (descBlockType.getShape() == tensorType.getShape())
+    return sharedEnc;
+
+  return updateEncodingForShape(op, sharedEnc, tensorType);
+}
+
+int64_t getTMAContigDim(Attribute encoding, ArrayRef<int64_t> shape) {
+  assert(encoding);
+  auto mmaEncoding =
+      llvm::dyn_cast_or_null<ttg::NVMMASharedEncodingAttr>(encoding);
+
+  // The bounding box inner dimension must be less than or equal to the
+  // swizzle size.
+  // https://docs.nvidia.com/cuda/cuda-driver-api/group__CUDA__TENSOR__MEMORY.html#group__CUDA__TENSOR__MEMORY_1ga7c7d2aaac9e49294304e755e6f341d7
+  // We clamp the block size and the codegen will emit multiple copy
+  // operations.
+  if (mmaEncoding) {
+    auto elemSize = mmaEncoding.getElementBitWidth() / 8;
+    return mmaEncoding.getSwizzlingByteWidth() / elemSize;
+  }
+
+  auto shapePerCTA = ttg::getShapePerCTA(encoding, shape);
+  return shapePerCTA.back();
+}
+
+std::optional<int> getTMASwizzleMode(Operation *op, TensorDescType ty) {
+  auto encoding = ty.getBlockType().getEncoding();
+  auto mmaEncoding = dyn_cast<ttg::NVMMASharedEncodingAttr>(encoding);
+  unsigned swizzleBytes = mmaEncoding ? mmaEncoding.getSwizzlingByteWidth() : 0;
+  if (!mmaEncoding) {
+    auto swizzledEnc = dyn_cast<ttg::SwizzledSharedEncodingAttr>(encoding);
+    if (!swizzledEnc || swizzledEnc.getVec() != 1 ||
+        swizzledEnc.getPerPhase() != 1 || swizzledEnc.getMaxPhase() != 1) {
+      if (op)
+        op->emitError("Unhandled encoding type");
+      return std::nullopt;
+    }
+  }
+
+  bool fp4Padded = isFp4Padded(encoding);
+  assert(!fp4Padded || swizzleBytes == 128 &&
+                           "elem type .b4x16_p64 supports only 128B swizzling");
+
+  int32_t swizzleMode = 0;
+  if (swizzleBytes == 128) {
+    swizzleMode = 3;
+  } else if (swizzleBytes == 64) {
+    swizzleMode = 2;
+  } else if (swizzleBytes == 32) {
+    swizzleMode = 1;
+  }
+  return swizzleMode;
+}
+
+std::optional<int> getTMAElementType(Operation *op, TensorDescType ty) {
+  auto encoding = ty.getBlockType().getEncoding();
+  auto mmaEncoding = dyn_cast<ttg::NVMMASharedEncodingAttr>(encoding);
+  bool fp4Padded = isFp4Padded(encoding);
+
+  if (fp4Padded)
+    return 14; // .b4x16_p64
+
+  auto elemSize = ty.getBlockType().getElementTypeBitWidth() / 8;
+  switch (elemSize) {
+  case 1:
+    return 0;
+  case 2:
+    return 1;
+  case 4:
+    return 2;
+  default:
+    break;
+  }
+  if (op) {
+    op->emitError()
+        << "Tensor descriptor element type must have size 1, 2, or 4 but got "
+        << elemSize;
+  }
+  return std::nullopt;
+}
+
+} // namespace mlir::triton::nvidia_gpu
diff --git a/python/triton/tools/experimental_descriptor.py b/python/triton/tools/experimental_descriptor.py
@@ -46,3 +46,11 @@ class TensorDescriptor:
     shape: List[int]
     strides: List[int]
     block_shape: List[int]
+
+    def from_tensor(tensor: Any, block_shape: List[int]):
+        return TensorDescriptor(
+            tensor,
+            tensor.shape,
+            tensor.stride(),
+            block_shape,
+        )
diff --git a/python/tutorials/06-fused-attention.py b/python/tutorials/06-fused-attention.py
diff --git a/python/tutorials/10-block-scaled-matmul.py b/python/tutorials/10-block-scaled-matmul.py