Drop barriers

victor-eds · victor-eds · commit 6c5b3538bb58 · 2024-11-18T11:40:10.000Z
diff --git a/third_party/intel/include/Analysis/Utility.h b/third_party/intel/include/Analysis/Utility.h
@@ -10,9 +10,13 @@ bool isDpasToDotShortcut(RankedTensorType dpasTy, RankedTensorType dotTy);
 /// Return whether the layout conversion from `srcTy` to `dstTy` can be
 /// performed as a sub-group shuffle.
 bool cvtIsSubGroupShuffle(RankedTensorType srcTy, RankedTensorType dstTy);
+bool cvtIsContiguousSubGroupShuffle(RankedTensorType srcTy,
+                                    RankedTensorType dstTy);
 /// Return whether the layout conversion from `srcTy` to `dstTy` can be
 /// performed as a sub-group transpose through local memory.
 bool cvtIsSubGroupTranspose(RankedTensorType srcTy, RankedTensorType dstTy);
+bool cvtIsContiguousSubGroupTranspose(RankedTensorType srcTy,
+                                      RankedTensorType dstTy);
 /// Return whether `type` is a valid element type for a fast sub-group
 /// transpose.
 bool isValidElementTypeForSubGroupTranspose(Type type);
diff --git a/third_party/intel/lib/Analysis/Allocation.cpp b/third_party/intel/lib/Analysis/Allocation.cpp
@@ -106,7 +106,8 @@ static SmallVector<unsigned> getRepShapeForAtomic(Value result) {
 
 ScratchConfig getScratchConfigForCvt(RankedTensorType srcTy,
                                      RankedTensorType dstTy) {
-  if (gpu::intel::cvtIsSubGroupShuffle(srcTy, dstTy)) {
+  if (gpu::intel::cvtIsSubGroupShuffle(srcTy, dstTy) ||
+      gpu::intel::cvtIsContiguousSubGroupShuffle(srcTy, dstTy)) {
     // Conversions that can be implemented as sub-group shuffles do not need
     // scratch memory.
     return ScratchConfig({}, {});
@@ -117,7 +118,8 @@ ScratchConfig getScratchConfigForCvt(RankedTensorType srcTy,
     return ScratchConfig({}, {});
   }
 
-  if (gpu::intel::cvtIsSubGroupTranspose(srcTy, dstTy)) {
+  if (gpu::intel::cvtIsSubGroupTranspose(srcTy, dstTy) ||
+      gpu::intel::cvtIsContiguousSubGroupTranspose(srcTy, dstTy)) {
     // Conversions that can be implemented as sub-group transposes store the
     // whole tensor in shared memory and read it afterwards.
     auto srcEncoding = cast<gpu::DistributedEncodingTrait>(srcTy.getEncoding());
diff --git a/third_party/intel/lib/Analysis/Membar.cpp b/third_party/intel/lib/Analysis/Membar.cpp
@@ -10,6 +10,9 @@ triton::gpu::ConvertLayoutOp dynCastToSubGroupTranspose(Operation *op) {
     return nullptr;
 
   if (!triton::gpu::intel::cvtIsSubGroupTranspose(
+          convertLayout.getSrc().getType(),
+          convertLayout.getResult().getType()) &&
+      !triton::gpu::intel::cvtIsContiguousSubGroupTranspose(
           convertLayout.getSrc().getType(),
           convertLayout.getResult().getType()))
     return nullptr;
diff --git a/third_party/intel/lib/Analysis/Utility.cpp b/third_party/intel/lib/Analysis/Utility.cpp
@@ -71,6 +71,28 @@ buildSubGroupShuffleRegisterBases(int32_t registerSize, int32_t laneSize) {
   return bases;
 }
 
+// Return a vector such as:
+// [[1, 0], ..., [registerSize / (laneSize * 2)], [0, 1], [0, 2], [0, 4], ...,
+// [0, laneSize / 2]] i.e., mapping registers to lanes till laneSize and
+// repeating the pattern afterwards.
+std::vector<std::vector<int32_t>>
+buildContiguousSubGroupShuffleRegisterBases(int32_t registerSize,
+                                            int32_t laneSize) {
+  std::vector<std::vector<int32_t>> bases;
+  std::vector<int32_t> curr(2);
+  int i = 1;
+  for (; i < registerSize / laneSize; i *= 2) {
+    curr[0] = i;
+    bases.push_back(curr);
+  }
+  curr[0] = 0;
+  for (int32_t val = 1; i < registerSize; i *= 2, val *= 2) {
+    curr[1] = val;
+    bases.push_back(curr);
+  }
+  return bases;
+}
+
 // Return a vector such as:
 // [[1, 0], [2, 0], [4, 0], ..., [laneSize / 2, 0]],
 // i.e., mapping lanes to registers.
@@ -85,6 +107,46 @@ buildSubGroupTransposeLaneBases(int32_t laneSize) {
   return bases;
 }
 
+// Return a vector such as:
+// [[0, 1], [0, 2], [0, 4], ..., [0, laneSize / 2], [1, 0], ...,
+// [registerSize / (laneSize * 2), 0]],
+// i.e., mapping registers to lanes till laneSize and performing an ID
+// conversion afterwards.
+std::vector<std::vector<int32_t>>
+buildContiguousSubGroupTransposeRegisterBases(int32_t registerSize,
+                                              int32_t laneSize) {
+  std::vector<std::vector<int32_t>> bases;
+  std::vector<int32_t> curr(2);
+  int i = 1;
+  for (; i < laneSize; i *= 2) {
+    curr[1] = i;
+    bases.push_back(curr);
+  }
+  curr[1] = 0;
+  for (int32_t j = 1; i < registerSize; i *= 2, j *= 2) {
+    curr[0] = j;
+    bases.push_back(curr);
+  }
+  return bases;
+}
+
+// Return a vector such as:
+// [[registerSize / laneSize, 0], [registerSize / laneSize * 2, 0], ...,
+// [registerSize / 2, 0]]
+// i.e., mapping registers to lanes till laneSize and performing an ID
+// conversion afterwards.
+std::vector<std::vector<int32_t>>
+buildContiguousSubGroupTransposeLaneBases(int32_t registerSize,
+                                          int32_t laneSize) {
+  std::vector<std::vector<int32_t>> bases;
+  std::vector<int32_t> curr(2);
+  for (int32_t i = registerSize / laneSize; i < registerSize; i *= 2) {
+    curr[0] = i;
+    bases.push_back(curr);
+  }
+  return bases;
+}
+
 } // namespace
 
 bool isDpasToDotShortcut(RankedTensorType dpasTy, RankedTensorType dotTy) {
@@ -159,6 +221,59 @@ bool cvtIsSubGroupShuffle(RankedTensorType srcTy, RankedTensorType dstTy) {
                                                laneOutDimSize);
 }
 
+bool cvtIsContiguousSubGroupShuffle(RankedTensorType srcTy,
+                                    RankedTensorType dstTy) {
+  MLIRContext *ctx = srcTy.getContext();
+  StringAttr kRegister = str_attr("register");
+  StringAttr kLane = str_attr("lane");
+  StringAttr kWarp = str_attr("warp");
+  StringAttr kBlock = str_attr("block");
+
+  std::optional<LinearLayout> srcLayout =
+      toLinearLayout(srcTy.getShape(), srcTy.getEncoding());
+  if (!srcLayout)
+    return false;
+
+  std::optional<LinearLayout> dstLayout =
+      toLinearLayout(dstTy.getShape(), dstTy.getEncoding());
+  if (!dstLayout)
+    return false;
+
+  LinearLayout comp = dstLayout->invertAndCompose(*srcLayout);
+  std::optional<LinearLayout> conversion = comp.quotient(kBlock);
+  if (!conversion)
+    return false;
+  conversion = conversion->quotient(kWarp);
+  if (!conversion)
+    return false;
+
+  // TODO: Support more kind of shuffles.
+  // Expected conversion is:
+  // - register=1 -> (0, 1)
+  // ...
+  // - register=2**i -> (0, 2**i)
+  // ...
+  // - register=M -> (0, 2**M)
+  // ...
+  // - register=2**k -> (2**(k-M), 0)
+  // ...
+  // - register=2**N -> (2**(N-M), 0)
+  // - lane=1 -> (0, 0)
+  // ...
+  // - lane=2**j -> (0, 0)
+  // ...
+  //   lane=2**M -> (0, 0)
+  // where out dims are: [register (size 2**(N - M)), lane (size 2**(M + 1))]
+  //
+  // With N >= M.
+  int32_t registerInDimSize = conversion->getInDimSize(kRegister);
+  int32_t laneOutDimSize = conversion->getOutDimSize(kLane);
+  return conversion->sublayoutIsZero({kLane}, {kRegister, kLane}) &&
+         conversion->getBases().lookup(kRegister) ==
+             buildContiguousSubGroupShuffleRegisterBases(registerInDimSize,
+                                                         laneOutDimSize);
+}
+
 bool isValidElementTypeForSubGroupTranspose(Type type) {
   return TypeSwitch<Type, bool>(type)
       .Case([](IntegerType intTy) {
@@ -196,16 +311,14 @@ bool cvtIsSubGroupTranspose(RankedTensorType srcTy, RankedTensorType dstTy) {
   if (!conversion)
     return false;
 
-  llvm::errs() << conversion << "\n";
-
   // Expected conversion is:
   // - register=1 -> (0, 1)
   // ...
   // - register=2**i -> (0, 2**i)
   // ...
   // - register=M -> (0, 2**M)
   // ...
-  // - register=2**k -> (2**k, 0)
+  // - register=2**k -> (, 0)
   // ...
   // - register=N -> (2**N, 0)
   // - lane=1 -> (0, 1)
@@ -225,6 +338,63 @@ bool cvtIsSubGroupTranspose(RankedTensorType srcTy, RankedTensorType dstTy) {
              buildSubGroupTransposeLaneBases(laneInDimSize);
 }
 
+bool cvtIsContiguousSubGroupTranspose(RankedTensorType srcTy,
+                                      RankedTensorType dstTy) {
+  if (!canTypeBeConvertedForSubGroupTranspose(srcTy.getElementType()))
+    return false;
+
+  MLIRContext *ctx = srcTy.getContext();
+  StringAttr kRegister = str_attr("register");
+  StringAttr kLane = str_attr("lane");
+  StringAttr kWarp = str_attr("warp");
+  StringAttr kBlock = str_attr("block");
+
+  std::optional<LinearLayout> srcLayout =
+      toLinearLayout(srcTy.getShape(), srcTy.getEncoding());
+  if (!srcLayout)
+    return false;
+
+  std::optional<LinearLayout> dstLayout =
+      toLinearLayout(dstTy.getShape(), dstTy.getEncoding());
+  if (!dstLayout)
+    return false;
+
+  LinearLayout comp = dstLayout->invertAndCompose(*srcLayout);
+  std::optional<LinearLayout> conversion = comp.quotient(kBlock);
+  if (!conversion)
+    return false;
+  conversion = conversion->quotient(kWarp);
+  if (!conversion)
+    return false;
+
+  // Expected conversion is:
+  // - register=1 -> (0, 1)
+  // ...
+  // - register=2**i -> (0, 2**i)
+  // ...
+  // - register=M -> (0, 2**M)
+  // ...
+  // - register=2**k -> (1, 0)
+  // ...
+  // - register=N -> (2**(N-k), 0)
+  // - lane=1 -> (2**(N-k+1), 0)
+  // ...
+  // - lane=2**j -> (2**(N-k+j), 0)
+  // ...
+  //   lane=2**M -> (2**(N-k+M), 0)
+  // where out dims are: [register (size 2**(N + 1)), lane (size 2**(M + 1))]
+  //
+  // With N >= M.
+  int32_t registerInDimSize = conversion->getInDimSize(kRegister);
+  int32_t laneInDimSize = conversion->getInDimSize(kLane);
+  return conversion->getBases().lookup(kRegister) ==
+             buildContiguousSubGroupTransposeRegisterBases(registerInDimSize,
+                                                           laneInDimSize) &&
+         conversion->getBases().lookup(kLane) ==
+             buildContiguousSubGroupTransposeLaneBases(registerInDimSize,
+                                                       laneInDimSize);
+}
+
 bool cvtIsUnbroadcast(RankedTensorType srcTy, RankedTensorType dstTy) {
   MLIRContext *ctx = srcTy.getContext();
   StringAttr kRegister = str_attr("register");
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/ConvertLayoutOpToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/ConvertLayoutOpToLLVM.cpp