Support DecomposeScaledBlocked to Fp4ToFpOp (#3606)

leonling-ll · web-flow · commit ef778258664b · 2025-03-06T11:28:23.000+08:00
This PR is splitted as the first part of #3538. It decomposes `tt.scaled_dot` to `tt.dot` + `tt.fp_to_fp` and `tt.fp4_to_fp`.
diff --git a/include/triton/Tools/Sys/GetEnv.hpp b/include/triton/Tools/Sys/GetEnv.hpp
@@ -49,6 +49,7 @@ inline const std::set<std::string> CACHE_INVALIDATING_ENV_VARS = {
     "TRITON_INTEL_ENABLE_INSTR_SCHED",
     "TRITON_INTEL_RAISE_BLOCK_POINTER",
     "TRITON_INTEL_REDUCE_TRANSPOSE",
+    "TRITON_INTEL_DECOMPOSE_SCALED_BLOCKED",
     // clang-format on
 };
 
diff --git a/test/TritonIntelGPU/accelerate-matmul-pvc.mlir b/test/TritonIntelGPU/accelerate-matmul-pvc.mlir
diff --git a/third_party/intel/include/Dialect/TritonIntelGPU/Transforms/DecomposeScaledBlocked.h b/third_party/intel/include/Dialect/TritonIntelGPU/Transforms/DecomposeScaledBlocked.h
@@ -0,0 +1,8 @@
+#include "mlir/IR/PatternMatch.h"
+
+namespace mlir::triton::gpu::intel {
+
+void populateDecomposeScaledBlockedPatterns(mlir::RewritePatternSet &patterns,
+                                            int benefit);
+
+} // namespace mlir::triton::gpu::intel
diff --git a/third_party/intel/lib/Dialect/TritonIntelGPU/IR/Dialect.cpp b/third_party/intel/lib/Dialect/TritonIntelGPU/IR/Dialect.cpp
@@ -1047,7 +1047,7 @@ struct TritonIntelGPUInferLayoutInterface
   inferFp4ToFpOpEncoding(ArrayRef<int64_t> shape, int axis, Attribute inEnc,
                          Attribute &outEnc, bool fwdInference,
                          std::optional<Location> loc) const override {
-    // TODO
+    // Not required to support Fp4ToFpOp on DPAS layout.
     return failure();
   }
 };
diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp b/third_party/intel/lib/TritonIntelGPUTransforms/AccelerateMatmul.cpp
@@ -1,4 +1,5 @@
 #include "Dialect/TritonIntelGPU/IR/Attributes.h"
+#include "Dialect/TritonIntelGPU/Transforms/DecomposeScaledBlocked.h"
 #include "Dialect/TritonIntelGPU/Transforms/Utility.h"
 #include "mlir/Analysis/SliceAnalysis.h"
 #include "mlir/IR/Builders.h"
@@ -13,6 +14,7 @@
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "triton/Dialect/Triton/IR/Utility.h"
 #include "triton/Dialect/TritonGPU/IR/Dialect.h"
+#include "triton/Tools/Sys/GetEnv.hpp"
 #include "llvm/ADT/TypeSwitch.h"
 #include <optional>
 
@@ -669,7 +671,17 @@ class TritonIntelGPUAccelerateMatmulPass
     transposeDots(m);
 
     RewritePatternSet patterns(context);
-    patterns.add<BlockedToDPAS, DecomposeScaledBlocked>(context, dpasAnalysis);
+    // TODO: This ENV variable will be removed in the Fp4ToFp lowering PR
+    // Keep it here to maintain old implementation functionality.
+    if (!mlir::triton::tools::getBoolEnv(
+            "TRITON_INTEL_DECOMPOSE_SCALED_BLOCKED"))
+      patterns.add<BlockedToDPAS, DecomposeScaledBlocked>(context,
+                                                          dpasAnalysis);
+    else {
+      constexpr int benefitDefault = 1;
+      patterns.add<BlockedToDPAS>(context, dpasAnalysis);
+      ttgi::populateDecomposeScaledBlockedPatterns(patterns, benefitDefault);
+    }
     if (applyPatternsGreedily(m, std::move(patterns)).failed())
       signalPassFailure();
 
diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/CMakeLists.txt b/third_party/intel/lib/TritonIntelGPUTransforms/CMakeLists.txt
@@ -1,6 +1,7 @@
 add_triton_library(TritonIntelGPUTransforms
   AccelerateMatmul.cpp
   Coalesce.cpp
+  DecomposeScaledBlocked.cpp
   DistributeToWarps.cpp
   MatchTargetSize.cpp
   MaterializeBlockPointer.cpp
diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/DecomposeScaledBlocked.cpp b/third_party/intel/lib/TritonIntelGPUTransforms/DecomposeScaledBlocked.cpp
@@ -0,0 +1,264 @@
+#include "Dialect/TritonIntelGPU/Transforms/DecomposeScaledBlocked.h"
+
+#include "mlir/IR/Types.h"
+#include "mlir/IR/Value.h"
+#include "mlir/Support/LogicalResult.h"
+#include "mlir/Transforms/GreedyPatternRewriteDriver.h"
+
+#include "triton/Dialect/Triton/IR/Dialect.h"
+#include "triton/Dialect/TritonGPU/IR/Attributes.h"
+#include "triton/Dialect/TritonGPU/IR/Dialect.h"
+
+using namespace mlir;
+using namespace mlir::triton;
+using namespace mlir::triton::gpu;
+
+namespace {
+
+SmallVector<int, 2> getTransposeOrder(int rank) {
+  assert(rank >= 2);
+  auto transOrder = llvm::to_vector<2>(llvm::seq<int>(rank - 2));
+  transOrder.push_back(rank - 1);
+  transOrder.push_back(rank - 2);
+  return transOrder;
+}
+
+class DecomposeScaledBlocked : public OpRewritePattern<DotScaledOp> {
+
+public:
+  DecomposeScaledBlocked(MLIRContext *context, int benefit)
+      : OpRewritePattern<DotScaledOp>(context, benefit) {}
+
+  LogicalResult matchAndRewrite(DotScaledOp scaledDotOp,
+                                PatternRewriter &rewriter) const override {
+    // Types
+    auto computeType = getComputeType(scaledDotOp.getAElemType(),
+                                      scaledDotOp.getBElemType(), rewriter);
+    auto loc = scaledDotOp.getLoc();
+
+    auto cvtDotOperand = [&](TypedValue<RankedTensorType> v,
+                             int opIdx) -> TypedValue<RankedTensorType> {
+      auto *ctx = rewriter.getContext();
+      auto retEnc = scaledDotOp.getType().getEncoding();
+      auto vType = v.getType();
+      auto encoding = DotOperandEncodingAttr::get(ctx, opIdx, retEnc,
+                                                  vType.getElementType());
+      auto retTy = RankedTensorType::get(vType.getShape(),
+                                         vType.getElementType(), encoding);
+      return rewriter.create<ConvertLayoutOp>(loc, retTy, v);
+    };
+
+    auto scaledA = scaleArg(rewriter, scaledDotOp, 0, computeType);
+    scaledA = cvtDotOperand(scaledA, 0);
+    auto scaledB = scaleArg(rewriter, scaledDotOp, 1, computeType);
+    scaledB = cvtDotOperand(scaledB, 1);
+    auto newDot = rewriter.create<DotOp>(scaledDotOp.getLoc(), scaledA, scaledB,
+                                         scaledDotOp.getC());
+
+    rewriter.replaceOpWithNewOp<ConvertLayoutOp>(scaledDotOp,
+                                                 scaledDotOp.getType(), newDot);
+    return success();
+  }
+
+private:
+  FloatType getComputeType(ScaleDotElemType aType, ScaleDotElemType bType,
+                           PatternRewriter &rewriter) const {
+    if (aType == ScaleDotElemType::FP16 || bType == ScaleDotElemType::FP16)
+      return rewriter.getF16Type();
+    return rewriter.getBF16Type();
+  }
+
+  TypedValue<RankedTensorType> scaleTo16(PatternRewriter &rewriter,
+                                         TypedValue<RankedTensorType> scale,
+                                         FloatType computeType) const {
+    auto loc = scale.getLoc();
+    auto scaleTy = scale.getType();
+    assert(computeType == rewriter.getBF16Type() ||
+           computeType == rewriter.getF16Type());
+
+    // Choose an fp type that can fit the scale value.
+    FloatType largeFpType = computeType == rewriter.getF16Type()
+                                ? rewriter.getF32Type()
+                                : computeType;
+    int intWidth = largeFpType.getIntOrFloatBitWidth();
+    auto intType = rewriter.getIntegerType(intWidth);
+
+    auto zexted =
+        rewriter.create<arith::ExtUIOp>(loc, scaleTy.clone(intType), scale);
+    // getFpMantissaWidth() returns the number of bits in the mantissa plus the
+    // sign bit!
+    int shiftValue = largeFpType.getFPMantissaWidth() - 1;
+    auto shiftConst =
+        rewriter.create<arith::ConstantIntOp>(loc, shiftValue, intWidth);
+    auto shift =
+        rewriter.create<SplatOp>(loc, scaleTy.clone(intType), shiftConst);
+    auto shlRes = rewriter.create<arith::ShLIOp>(loc, zexted, shift);
+    Value scaleFP =
+        rewriter.create<BitcastOp>(loc, scaleTy.clone(largeFpType), shlRes);
+    if (largeFpType != computeType) {
+      scaleFP = rewriter.create<arith::TruncFOp>(
+          loc, scaleTy.clone(computeType), scaleFP);
+    }
+    return cast<TypedValue<RankedTensorType>>(scaleFP);
+  }
+
+  TypedValue<RankedTensorType>
+  broadcastScale(PatternRewriter &rewriter, DotScaledOp scaledDotOp,
+                 ModuleOp mod, TypedValue<RankedTensorType> scale,
+                 int dim) const {
+    auto *ctx = rewriter.getContext();
+    auto loc = scale.getLoc();
+    auto scaleTy = scale.getType();
+    auto rank = scaleTy.getRank();
+    // 2.1) Expand dims along the last dimension
+    {
+      // 2.1.1) Find default encoding for ExpandDims
+      auto shape = to_vector(scaleTy.getShape());
+      shape.insert(shape.end(), 1);
+      auto nWarps = lookupNumWarps(scaledDotOp);
+      auto threadsPerWarp = TritonGPUDialect::getThreadsPerWarp(mod);
+      auto numCTAs = TritonGPUDialect::getNumCTAs(mod);
+      auto blockedEnc = getDefaultBlockedEncoding(ctx, shape, nWarps,
+                                                  threadsPerWarp, numCTAs);
+      // 2.1.2) Cast scale16 to SliceEncoding
+      auto sliceEnc = SliceEncodingAttr::get(ctx, rank, blockedEnc);
+      auto sliceType = RankedTensorType::get(
+          scaleTy.getShape(), scaleTy.getElementType(), sliceEnc);
+      scale = rewriter.create<ConvertLayoutOp>(loc, sliceType, scale);
+    }
+    auto expandScale = rewriter.create<ExpandDimsOp>(loc, scale, rank);
+    // 2.2) Broadcast the dimension to size 32
+    auto scaleShape = to_vector(scaleTy.getShape());
+    scaleShape.push_back(32);
+    auto broadcastScale = rewriter.create<BroadcastOp>(
+        loc, expandScale.getType().clone(scaleShape), expandScale);
+    // 2.3) Transpose the dimension to the scaled dimension
+    auto transposeOrder = llvm::to_vector(llvm::seq<int32_t>(rank));
+    transposeOrder.insert(transposeOrder.begin() + dim + 1, rank);
+    auto transposedScale =
+        rewriter.create<TransOp>(loc, broadcastScale, transposeOrder);
+    // 2.4) Reshape to the shape of v
+    scaleShape.pop_back();
+    scaleShape[dim] *= 32;
+    auto reshapeScale =
+        rewriter.create<ReshapeOp>(loc, scaleShape, transposedScale);
+    return reshapeScale;
+  }
+
+  TypedValue<RankedTensorType> maskNan(PatternRewriter &rewriter,
+                                       DotScaledOp scaledDotOp, ModuleOp mod,
+                                       TypedValue<RankedTensorType> mxfp,
+                                       TypedValue<RankedTensorType> scale,
+                                       FloatType computeType, int dim) const {
+    // Implement tl.where(scale == 0xFF, float("nan"), mxfp)
+    auto loc = scale.getLoc();
+
+    // FIXME: use large int type (int32) for comparing with 0xFF to avoid
+    // accidently masking non-NaN values to NaN.
+    // This piece of code will be removed after
+    // https://github.com/intel/intel-xpu-backend-for-triton/issues/3605
+    FloatType largeFpType = computeType == rewriter.getF16Type()
+                                ? rewriter.getF32Type()
+                                : computeType;
+    int intWidth = largeFpType.getIntOrFloatBitWidth();
+    auto intType = rewriter.getIntegerType(intWidth);
+    // Use large int scale type, incase it get nonNaN to NaN
+    auto scaleTy = scale.getType().clone(intType);
+    auto zexted = rewriter.create<arith::ExtUIOp>(loc, scaleTy, scale);
+
+    // Scale is NaN
+    auto constFF = rewriter.create<arith::ConstantOp>(
+        loc, scaleTy,
+        DenseElementsAttr::get(scaleTy,
+                               APInt(scaleTy.getElementTypeBitWidth(), 0xff)));
+    auto scaleIsNan = cast<TypedValue<RankedTensorType>>(
+        rewriter
+            .create<arith::CmpIOp>(loc, arith::CmpIPredicate::eq, zexted,
+                                   constFF)
+            .getResult());
+    auto cond = broadcastScale(rewriter, scaledDotOp, mod, scaleIsNan, dim);
+    // Make scale is NaN compatible with mxfp
+    auto condTy = cond.getType();
+    condTy = RankedTensorType::get(condTy.getShape(), condTy.getElementType(),
+                                   mxfp.getType().getEncoding());
+    cond = rewriter.create<ConvertLayoutOp>(loc, condTy, cond);
+
+    // Create NaN
+    auto mxfpTy = mxfp.getType();
+    auto nan = APFloat::getNaN(
+        cast<FloatType>(mxfpTy.getElementType()).getFloatSemantics());
+    auto constNan = rewriter.create<arith::ConstantOp>(
+        loc, mxfpTy, DenseElementsAttr::get(mxfpTy, nan));
+
+    auto result = rewriter.create<arith::SelectOp>(loc, cond, constNan, mxfp);
+    return cast<TypedValue<RankedTensorType>>(result.getResult());
+  }
+
+  TypedValue<RankedTensorType> scaleArg(PatternRewriter &rewriter,
+                                        DotScaledOp scaledDotOp, int opIdx,
+                                        FloatType computeType) const {
+    auto v = opIdx == 0 ? scaledDotOp.getA() : scaledDotOp.getB();
+    auto scale = opIdx == 0 ? scaledDotOp.getAScale() : scaledDotOp.getBScale();
+    auto isFp4 =
+        ScaleDotElemType::E2M1 ==
+        (opIdx == 0 ? scaledDotOp.getAElemType() : scaledDotOp.getBElemType());
+    auto fastMath = scaledDotOp.getFastMath();
+
+    auto *ctx = rewriter.getContext();
+    auto loc = v.getLoc();
+    auto mod = scaledDotOp->getParentOfType<ModuleOp>();
+    auto rank = v.getType().getRank();
+    auto kDim = opIdx == 0 ? rank - 1 : rank - 2;
+
+    // 0) Upcast value to computeType (fp16/bf16)
+    if (isFp4) {
+      // We always pack along the fastest moving dimension, kDim
+      v = rewriter.create<Fp4ToFpOp>(loc, v, computeType, kDim);
+    } else {
+      auto vType16 = v.getType().clone(computeType);
+      v = cast<TypedValue<RankedTensorType>>(
+          rewriter.create<FpToFpOp>(loc, vType16, v).getResult());
+    }
+    if (!scale)
+      return v;
+
+    // For some weird reason, we take the scale with shape as if it were coming
+    // from the lhs even when it's the rhs. In a normal world, we should accept
+    // this parametre transposed, as we do with the mxfp.
+    if (opIdx == 1) {
+      auto order = getTransposeOrder(rank);
+      scale = rewriter.create<TransOp>(loc, scale, order);
+    }
+
+    // 1) Cast scale to compute type (fp16/bf16)
+    auto scale16 = scaleTo16(rewriter, scale, computeType);
+
+    // 2) Broadcast scale to the same shape and layout as v
+    auto reshapeScale =
+        broadcastScale(rewriter, scaledDotOp, mod, scale16, kDim);
+    reshapeScale =
+        rewriter.create<ConvertLayoutOp>(loc, v.getType(), reshapeScale);
+
+    // 3) Multiply
+    auto mxfp = cast<TypedValue<RankedTensorType>>(
+        rewriter.create<arith::MulFOp>(loc, v, reshapeScale).getResult());
+
+    // Skip NaN checks if fastMath
+    if (fastMath)
+      return mxfp;
+
+    // 4) If the scale is NaN, return NaN, else return the scaled value.
+    return maskNan(rewriter, scaledDotOp, mod, mxfp, scale, computeType, kDim);
+  }
+};
+
+} // namespace
+
+namespace mlir::triton::gpu::intel {
+
+void populateDecomposeScaledBlockedPatterns(RewritePatternSet &patterns,
+                                            int benefit) {
+  patterns.add<DecomposeScaledBlocked>(patterns.getContext(), benefit);
+}
+
+} // namespace mlir::triton::gpu::intel

Original file line number	Diff line number	Diff line change
`@@ -1047,7 +1047,7 @@ struct TritonIntelGPUInferLayoutInterface`
`1047`	`1047`	`inferFp4ToFpOpEncoding(ArrayRef<int64_t> shape, int axis, Attribute inEnc,`
`1048`	`1048`	`Attribute &outEnc, bool fwdInference,`
`1049`	`1049`	`std::optional<Location> loc) const override {`
`1050`		`- // TODO`
	`1050`	`+ // Not required to support Fp4ToFpOp on DPAS layout.`
`1051`	`1051`	`return failure();`
`1052`	`1052`	`}`
`1053`	`1053`	`};`