Blocking support for vector.transpose (#743)

Hardcode84 · web-flow · commit 8835e8dbb7bd · 2024-05-13T21:19:22.000-05:00
Transpose blocking
diff --git a/lib/Conversion/XeTileToXeGPU/XeTileOpConversion.cpp b/lib/Conversion/XeTileToXeGPU/XeTileOpConversion.cpp
@@ -718,6 +718,48 @@ struct SgUpdateTileOffsetOpPattern
   }
 };
 
+struct SgTransposeOpPattern
+    : public SgXeTileToXeGPUConversion<mlir::vector::TransposeOp> {
+  using SgXeTileToXeGPUConversion::SgXeTileToXeGPUConversion;
+
+  mlir::LogicalResult
+  matchAndRewrite(mlir::vector::TransposeOp op, OpAdaptor adaptor,
+                  XeGPUOneToNPatterRewriter &rewriter) const override {
+    auto resType = op.getResult().getType();
+    if (resType.getRank() != 4)
+      return ((mlir::PatternRewriter &)rewriter)
+          .notifyMatchFailure(op, "Expected a 4D vector");
+
+    auto srcVectors = adaptor.getVector();
+    auto shape = resType.getShape();
+    if (shape[0] * shape[1] != static_cast<int64_t>(srcVectors.size()))
+      return ((mlir::PatternRewriter &)rewriter)
+          .notifyMatchFailure(op, "Invalid shape");
+
+    auto permutation = op.getPermutation();
+    auto outerPerm = permutation.take_front(2);
+    int64_t innerPerm[2] = {permutation[2] - 2, permutation[3] - 2};
+
+    auto newResType =
+        mlir::VectorType::get(shape.take_back(2), resType.getElementType());
+
+    mlir::Location loc = op.getLoc();
+    llvm::SmallVector<mlir::Value> results;
+    for (auto i : llvm::seq<size_t>(0, shape[0])) {
+      for (auto j : llvm::seq<size_t>(0, shape[1])) {
+        size_t ij[2] = {i, j};
+        auto idx = ij[outerPerm[1]] + shape[outerPerm[1]] * ij[outerPerm[0]];
+        mlir::Value arg = srcVectors[idx];
+        mlir::Value res = rewriter.create<mlir::vector::TransposeOp>(
+            loc, newResType, arg, innerPerm);
+        results.emplace_back(res);
+      }
+    }
+    rewriter.replaceOp(op, results);
+    return mlir::success();
+  }
+};
+
 bool isLegalElementWiseOp(mlir::Operation *op) {
   auto res = op->getResult(0);
   auto resType = mlir::dyn_cast<mlir::VectorType>(res.getType());
@@ -801,8 +843,8 @@ void populateXeTileOpConversionPatterns(imex::XeGPUTypeConverter &converter,
   patterns.insert<SgInitTileOpPattern, SgPrefetchTileOpPattern,
                   SgTileUnpackOpPattern, SgTilePackOpPattern,
                   SgLoadTileOpPattern, SgStoreTileOpPattern, SgTileMMAOpPattern,
-                  SgUpdateTileOffsetOpPattern>(patterns.getContext(), converter,
-                                               analysis);
+                  SgUpdateTileOffsetOpPattern, SgTransposeOpPattern>(
+      patterns.getContext(), converter, analysis);
   patterns.insert<ElementWiseOpPattern<mlir::arith::NegFOp, 1>,
                   ElementWiseOpPattern<mlir::math::ExpOp, 1>,
                   ElementWiseOpPattern<mlir::math::SinOp, 1>,
diff --git a/lib/Conversion/XeTileToXeGPU/XeTileToXeGPU.cpp b/lib/Conversion/XeTileToXeGPU/XeTileToXeGPU.cpp
@@ -125,6 +125,11 @@ class XeTileConversionTarget : public mlir::ConversionTarget {
         [&](mlir::Operation *op) -> bool { return isLegalElementWiseOp(op); });
     addDynamicallyLegalOp<mlir::math::TanhOp>(
         [&](mlir::Operation *op) -> bool { return isLegalElementWiseOp(op); });
+
+    addDynamicallyLegalOp<mlir::vector::TransposeOp>(
+        [](mlir::vector::TransposeOp op) {
+          return op.getResult().getType().getRank() == 2;
+        });
   }
 
 private:
diff --git a/lib/Dialect/XeTile/Transforms/Blocking.cpp b/lib/Dialect/XeTile/Transforms/Blocking.cpp
@@ -58,7 +58,7 @@ populateXeTileBlockAligningPatterns(imex::XeTypeConverter &converter,
                                     mlir::RewritePatternSet &patterns,
                                     PropagateAnalysis &analysis);
 
-enum OpType { Prefetch, Load, Store, Elementwise };
+enum OpType { Prefetch, Load, Store, Elementwise, Transpose };
 
 // Find the maximum divisible number between minHeight/Width and maxHeight/Width
 // and use that as the inner block sizes.
@@ -170,8 +170,26 @@ getInnerBlockSizes(mlir::Operation *operation, mlir::Type elemTy, int height,
     // TODO: get from uArch?
     int64_t subgroupSize = 16;
 
-    return {1, subgroupSize};
+    maxHeight = 1;
+    minHeight = 1;
+    maxWidth = subgroupSize;
+    minWidth = 1;
+
+    return imex::getInnerBlockHeightWidth(maxHeight, maxWidth, minHeight,
+                                          minWidth, height, width);
+  }
+
+  if (op == OpType::Transpose) {
+    // TODO: get from uArch?
+    maxHeight = 16;
+    minHeight = 1;
+    maxWidth = 16;
+    minWidth = 1;
+
+    return imex::getInnerBlockHeightWidth(maxHeight, maxWidth, minHeight,
+                                          minWidth, height, width);
   }
+
   llvm_unreachable("Unsupported.");
   return {};
 }
@@ -368,6 +386,70 @@ struct VectorizableOpPattern
   }
 };
 
+struct TransposeOpPattern
+    : public XeTileConversion<mlir::vector::TransposeOp, TileUsageAnalysis> {
+
+  using XeTileConversion::XeTileConversion;
+
+  TransposeOpPattern(mlir::MLIRContext *context,
+                     imex::XeTypeConverter &converter,
+                     TileUsageAnalysis &analysis,
+                     std::shared_ptr<XeuArchInterface> ptruArch)
+      : XeTileConversion(context, converter, analysis) {
+    this->uArchInterface = ptruArch;
+  }
+
+  std::shared_ptr<XeuArchInterface> uArchInterface = nullptr;
+
+  mlir::LogicalResult
+  matchAndRewrite(mlir::vector::TransposeOp op, OpAdaptor adaptor,
+                  mlir::PatternRewriter &rewriter) const override {
+    auto res = op.getResult();
+    auto resType = mlir::cast<mlir::VectorType>(res.getType());
+    if (resType.getRank() != 2)
+      return rewriter.notifyMatchFailure(op, "type is not 2D vector");
+
+    auto permutation = op.getPermutation();
+    if (permutation != mlir::ArrayRef<int64_t>({1, 0}))
+      return rewriter.notifyMatchFailure(op, "Unsupported permutation");
+
+    auto shape = resType.getShape();
+    auto blocks = getInnerBlockSizes<Transpose>(
+        op, resType.getElementType(), shape[0], shape[1], this->uArchInterface);
+
+    if (blocks.size() != 2)
+      return rewriter.notifyMatchFailure(op, "Invalid inner block sizes");
+
+    int64_t inBlocks[2] = {blocks[1], blocks[0]};
+
+    auto newSrcTy = mlir::VectorType::get(
+        {shape[1] / blocks[1], shape[0] / blocks[0], blocks[1], blocks[0]},
+        resType.getElementType());
+
+    auto newDstTy = mlir::VectorType::get(
+        {shape[0] / blocks[0], shape[1] / blocks[1], blocks[0], blocks[1]},
+        resType.getElementType());
+
+    mlir::Value arg = adaptor.getVector();
+    Location loc = op->getLoc();
+    mlir::Value pack = rewriter.create<xetile::TilePackOp>(
+        loc, newSrcTy, arg,
+        mlir::DenseI64ArrayAttr::get(getContext(), inBlocks));
+
+    int64_t newPermutation[4] = {1, 0, 3, 2};
+    mlir::Value transpose = rewriter.create<mlir::vector::TransposeOp>(
+        loc, newDstTy, pack, newPermutation);
+
+    mlir::Value unpack = rewriter.create<xetile::TileUnpackOp>(
+        loc, resType, transpose,
+        mlir::DenseI64ArrayAttr::get(getContext(), blocks));
+
+    rewriter.replaceOp(op, unpack);
+
+    return mlir::success();
+  }
+};
+
 struct VectorMultiDimReductionOpPattern
     : public XeTileConversion<mlir::vector::MultiDimReductionOp,
                               TileUsageAnalysis> {
@@ -873,11 +955,12 @@ struct UpdateTileOffsetOpPattern
 void populateXeTileBlockingPatterns(
     imex::XeTypeConverter &converter, mlir::RewritePatternSet &patterns,
     TileUsageAnalysis &analysis, std::shared_ptr<XeuArchInterface> ptruArch) {
-  patterns.insert<ArithConstantOpPattern, VectorizableOpPattern,
-                  SCFForOpPattern, SCFYieldOpPattern, InitTileOpPattern,
-                  LoadTileOpPattern, StoreTileOpPattern, TileMMAOpPattern,
-                  UpdateTileOffsetOpPattern, VectorMultiDimReductionOpPattern>(
-      patterns.getContext(), converter, analysis, ptruArch);
+  patterns
+      .insert<ArithConstantOpPattern, VectorizableOpPattern, SCFForOpPattern,
+              SCFYieldOpPattern, InitTileOpPattern, LoadTileOpPattern,
+              StoreTileOpPattern, TileMMAOpPattern, UpdateTileOffsetOpPattern,
+              TransposeOpPattern, VectorMultiDimReductionOpPattern>(
+          patterns.getContext(), converter, analysis, ptruArch);
 }
 
 // Lowers XeTile to blocked layout with high-dim vector
diff --git a/test/Conversion/XeTileToXeGPU/test_blocking.mlir b/test/Conversion/XeTileToXeGPU/test_blocking.mlir
@@ -24,3 +24,37 @@ func.func @test_blocking_elementwise(%a: vector<64x64xf16>, %b: vector<64x64xf16
 }
 
 }
+
+// -----
+
+gpu.module @test_kernel {
+
+// CHECK-LABEL: test_blocking_transpose
+//  CHECK-SAME: (%[[SRC:.*]]: vector<64x32xf16>)
+//       CHECK: %[[PACK:.*]] = xetile.tile_pack %[[SRC]] { inner_blocks = [16, 16] } : vector<64x32xf16> -> vector<4x2x16x16xf16>
+//       CHECK: %[[T:.*]] = vector.transpose %[[PACK]], [1, 0, 3, 2] : vector<4x2x16x16xf16> to vector<2x4x16x16xf16>
+//       CHECK: %[[UNPACK:.*]] = xetile.tile_unpack %[[T]] { inner_blocks = [16, 16] } : vector<2x4x16x16xf16> -> vector<32x64xf16>
+//       CHECK: return %[[UNPACK]] : vector<32x64xf16>
+func.func @test_blocking_transpose(%a: vector<64x32xf16>) -> vector<32x64xf16> {
+  %0 = vector.transpose %a, [1, 0]: vector<64x32xf16> to vector<32x64xf16>
+  return %0 : vector<32x64xf16>
+}
+
+}
+
+// -----
+
+gpu.module @test_kernel {
+
+// CHECK-LABEL: test_blocking_transpose_small
+//  CHECK-SAME: (%[[SRC:.*]]: vector<16x8xf16>)
+//       CHECK: %[[PACK:.*]] = xetile.tile_pack %[[SRC]] { inner_blocks = [16, 8] } : vector<16x8xf16> -> vector<1x1x16x8xf16>
+//       CHECK: %[[T:.*]] = vector.transpose %[[PACK]], [1, 0, 3, 2] : vector<1x1x16x8xf16> to vector<1x1x8x16xf16>
+//       CHECK: %[[UNPACK:.*]] = xetile.tile_unpack %[[T]] { inner_blocks = [8, 16] } : vector<1x1x8x16xf16> -> vector<8x16xf16>
+//       CHECK: return %[[UNPACK]] : vector<8x16xf16>
+func.func @test_blocking_transpose_small(%a: vector<16x8xf16>) -> vector<8x16xf16> {
+  %0 = vector.transpose %a, [1, 0]: vector<16x8xf16> to vector<8x16xf16>
+  return %0 : vector<8x16xf16>
+}
+
+}
diff --git a/test/Conversion/XeTileToXeGPU/transpose.mlir b/test/Conversion/XeTileToXeGPU/transpose.mlir
@@ -0,0 +1,24 @@
+// RUN: imex-opt --split-input-file --convert-xetile-to-xegpu %s -verify-diagnostics -o -| FileCheck %s
+
+// CHECK-LABEL: test_transpose
+// Compare original args order with transposed
+//       CHECK:  %[[RES1:.*]] = builtin.unrealized_conversion_cast %[[ARG1:.*]], %[[ARG2:.*]], %[[ARG3:.*]], %[[ARG4:.*]], %[[ARG5:.*]], %[[ARG6:.*]], %[[ARG7:.*]], %[[ARG8:.*]] :
+//   CHECK-DAG:  %[[TARG1:.*]] = vector.transpose %[[ARG1]], [1, 0] : vector<1x16xf16> to vector<16x1xf16>
+//   CHECK-DAG:  %[[TARG2:.*]] = vector.transpose %[[ARG2]], [1, 0] : vector<1x16xf16> to vector<16x1xf16>
+//   CHECK-DAG:  %[[TARG3:.*]] = vector.transpose %[[ARG3]], [1, 0] : vector<1x16xf16> to vector<16x1xf16>
+//   CHECK-DAG:  %[[TARG4:.*]] = vector.transpose %[[ARG4]], [1, 0] : vector<1x16xf16> to vector<16x1xf16>
+//   CHECK-DAG:  %[[TARG5:.*]] = vector.transpose %[[ARG5]], [1, 0] : vector<1x16xf16> to vector<16x1xf16>
+//   CHECK-DAG:  %[[TARG6:.*]] = vector.transpose %[[ARG6]], [1, 0] : vector<1x16xf16> to vector<16x1xf16>
+//   CHECK-DAG:  %[[TARG7:.*]] = vector.transpose %[[ARG7]], [1, 0] : vector<1x16xf16> to vector<16x1xf16>
+//   CHECK-DAG:  %[[TARG8:.*]] = vector.transpose %[[ARG8]], [1, 0] : vector<1x16xf16> to vector<16x1xf16>
+//       CHECK:  %[[RES2:.*]] = builtin.unrealized_conversion_cast %[[TARG1]], %[[TARG5]], %[[TARG2]], %[[TARG6]], %[[TARG3]], %[[TARG7]], %[[TARG4]], %[[TARG8]]
+//       CHECK:  gpu.return %[[RES1]], %[[RES2]]
+gpu.module @test_kernel {
+gpu.func @test_transpose(%a: memref<2x64xf16>) -> (vector<2x4x1x16xf16>, vector<4x2x16x1xf16>) {
+  %c0 = arith.constant 0 : index
+  %0 = xetile.init_tile %a[%c0, %c0] : memref<2x64xf16> -> !xetile.tile<2x64xf16, #xetile.tile_attr<inner_blocks = [1, 16]>>
+  %1 = xetile.load_tile %0 : !xetile.tile<2x64xf16, #xetile.tile_attr<inner_blocks = [1, 16]>> -> vector<2x4x1x16xf16>
+  %2 = vector.transpose %1, [1, 0, 3, 2] : vector<2x4x1x16xf16> to vector<4x2x16x1xf16>
+  gpu.return %1, %2 : vector<2x4x1x16xf16>, vector<4x2x16x1xf16>
+}
+}