[AMD] Support tied wmma instrucrions (#4483)

joviliast · web-flow · commit b962e4447161 · 2025-03-24T18:28:01.000Z
- Generated intrinsic for wmma calculations
- Generate tied instructions along M axis if possible
- Supported transposed case
- Added lit tests

Signed-off-by: Ilya Veselov &lt;iveselov.nn@gmail.com&gt;
diff --git a/test/Conversion/amd/tritongpu_wmma_dot_to_llvm.mlir b/test/Conversion/amd/tritongpu_wmma_dot_to_llvm.mlir
@@ -27,13 +27,13 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.thr
     tt.return
   }
 
-  //  CHECK-LABEL: wmma1_dot
-  tt.func @wmma1_dot(%arg0: tensor<16x16xf16, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>>, %arg1: tensor<16x16xf16, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>>, %arg2: tensor<16x16xf16, #mma1>) {
+  //  CHECK-LABEL: wmma1_dot_f16
+  tt.func @wmma1_dot_f16(%arg0: tensor<16x16xf16, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>>, %arg1: tensor<16x16xf16, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>>, %arg2: tensor<16x16xf16, #mma1>) {
     // CHECK-COUNT-32: llvm.extractvalue %{{.*}} : !llvm.struct<(f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16)>
     // CHECK-COUNT-8: llvm.extractvalue %{{.*}} : !llvm.struct<(f16, f16, f16, f16, f16, f16, f16, f16)>
     // CHECK: llvm.mlir.undef : vector<16xf16>
     // CHECK-COUNT-8: llvm.insertelement {{.*}} : vector<16xf16>
-    // CHECK: rocdl.wmma.f16.16x16x16.f16 {{.*}} : (vector<16xf16>, vector<16xf16>, vector<16xf16>, i1) -> vector<16xf16>
+    // CHECK: wmma.f16.16x16x16.f16{{.*}} : (vector<16xf16>, vector<16xf16>, vector<16xf16>, i1) -> vector<16xf16>
     %0 = tt.dot %arg0, %arg1, %arg2, inputPrecision = ieee : tensor<16x16xf16, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>> * tensor<16x16xf16, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>> -> tensor<16x16xf16, #mma1>
     // CHECK-COUNT-8: llvm.extractelement {{.*}} : vector<16xf16>
     // CHECK: llvm.mlir.undef : !llvm.struct<(f16, f16, f16, f16, f16, f16, f16, f16)>
@@ -50,11 +50,39 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.thr
     // CHECK-COUNT-8: llvm.extractvalue %{{.*}} : !llvm.struct<(bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16)>
     // CHECK: llvm.mlir.undef : vector<16xbf16>
     // CHECK-COUNT-8: llvm.insertelement {{.*}} : vector<16xbf16>
-    // CHECK: rocdl.wmma.bf16.16x16x16.bf16 {{.*}} : (vector<16xi16>, vector<16xi16>, vector<16xbf16>, i1) -> vector<16xbf16>
+    // CHECK: wmma.bf16.16x16x16.bf16{{.*}} : (vector<16xi16>, vector<16xi16>, vector<16xbf16>, i1) -> vector<16xbf16>
     %0 = tt.dot %arg0, %arg1, %arg2, inputPrecision = ieee : tensor<16x16xbf16, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>> * tensor<16x16xbf16, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>> -> tensor<16x16xbf16, #mma1>
     tt.return
   }
 
+  //  CHECK-LABEL: wmma1_dot_f16_tied
+  tt.func @wmma1_dot_f16_tied(%arg0: tensor<64x16xf16, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>>, %arg1: tensor<16x16xf16, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>>, %arg2: tensor<64x16xf16, #mma1>) {
+    // CHECK-COUNT-32: llvm.extractvalue %{{.*}} : !llvm.struct<(f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16)>
+    // CHECK-COUNT-8: llvm.extractvalue %{{.*}} : !llvm.struct<(f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16)>
+    // CHECK: llvm.mlir.undef : vector<16xf16>
+    // CHECK-COUNT-16: llvm.insertelement {{.*}} : vector<16xf16>
+    // CHECK-COUNT-2: wmma.f16.16x16x16.f16.tied{{.*}} : (vector<16xf16>, vector<16xf16>, vector<16xf16>, i1) -> vector<16xf16>
+    %0 = tt.dot %arg0, %arg1, %arg2, inputPrecision = ieee : tensor<64x16xf16, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>> * tensor<16x16xf16, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>> -> tensor<64x16xf16, #mma1>
+    // CHECK-COUNT-8: llvm.extractelement {{.*}} : vector<16xf16>
+    // CHECK: llvm.mlir.undef : !llvm.struct<(f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16)>
+    // CHECK-COUNT-8: llvm.insertvalue {{.*}} : !llvm.struct<(f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16, f16)>
+    tt.return
+  }
+
+  //  CHECK-LABEL: wmma1_dot_bf16_tied
+  tt.func @wmma1_dot_bf16_tied(%arg0: tensor<64x16xbf16, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>>, %arg1: tensor<16x16xbf16, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>>, %arg2: tensor<64x16xbf16, #mma1>) {
+    // CHECK-COUNT-32: llvm.extractvalue %{{.*}} : !llvm.struct<(bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16)>
+    // CHECK-COUNT-8: llvm.extractvalue %{{.*}} : !llvm.struct<(bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16)>
+    // CHECK: llvm.mlir.undef : vector<16xbf16>
+    // CHECK-COUNT-16: llvm.insertelement {{.*}} : vector<16xbf16>
+    // CHECK-COUNT-2: wmma.bf16.16x16x16.bf16.tied{{.*}} : (vector<16xi16>, vector<16xi16>, vector<16xbf16>, i1) -> vector<16xbf16>
+    %0 = tt.dot %arg0, %arg1, %arg2, inputPrecision = ieee : tensor<64x16xbf16, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>> * tensor<16x16xbf16, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>> -> tensor<64x16xbf16, #mma1>
+    // CHECK-COUNT-8: llvm.extractelement {{.*}} : vector<16xbf16>
+    // CHECK: llvm.mlir.undef : !llvm.struct<(bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16)>
+    // CHECK-COUNT-8: llvm.insertvalue {{.*}} : !llvm.struct<(bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16, bf16)>
+    tt.return
+  }
+
   //  CHECK-LABEL: wmma1_dot_int8_32
   tt.func @wmma1_dot_int8_32(%arg0: tensor<16x16xi8, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>>, %arg1: tensor<16x16xi8, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>>, %arg2: tensor<16x16xi32, #mma1>) {
     // CHECK-COUNT-16: llvm.extractvalue %{{.*}} : !llvm.struct<(i8, i8, i8, i8, i8, i8, i8, i8, i8, i8, i8, i8, i8, i8, i8, i8)>
@@ -64,7 +92,7 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.thr
     // CHECK-COUNT-16: llvm.insertelement {{.*}} : vector<16xi8>
     // CHECK: llvm.bitcast %{{.*}} : vector<16xi8> to vector<4xi32>
     // CHECK-COUNT-8: llvm.extractvalue %{{.*}} : !llvm.struct<(i32, i32, i32, i32, i32, i32, i32, i32)>
-    // CHECK: rocdl.wmma.i32.16x16x16.iu8 {{.*}} : (i1, vector<4xi32>, i1, vector<4xi32>, vector<8xi32>, i1) -> vector<8xi32>
+    // CHECK: wmma.i32.16x16x16.iu8{{.*}} : (i1, vector<4xi32>, i1, vector<4xi32>, vector<8xi32>, i1) -> vector<8xi32>
     %0 = tt.dot %arg0, %arg1, %arg2 {inputPrecision = 2 : i32, maxNumImpreciseAcc = 0 : i32} : tensor<16x16xi8, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>> * tensor<16x16xi8, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>> -> tensor<16x16xi32, #mma1>
     // CHECK-COUNT-8: llvm.insertvalue {{.*}} : !llvm.struct<(i32, i32, i32, i32, i32, i32, i32, i32)>
     tt.return
@@ -79,7 +107,7 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.thr
     // CHECK-COUNT-16: llvm.insertelement {{.*}} : vector<16xi4>
     // CHECK: llvm.bitcast %{{.*}} : vector<16xi4> to vector<2xi32>
     // CHECK-COUNT-8: llvm.extractvalue %{{.*}} : !llvm.struct<(i32, i32, i32, i32, i32, i32, i32, i32)>
-    // CHECK: rocdl.wmma.i32.16x16x16.iu4 {{.*}} : (i1, vector<2xi32>, i1, vector<2xi32>, vector<8xi32>, i1) -> vector<8xi32>
+    // CHECK: wmma.i32.16x16x16.iu4{{.*}} : (i1, vector<2xi32>, i1, vector<2xi32>, vector<8xi32>, i1) -> vector<8xi32>
     %0 = tt.dot %arg0, %arg1, %arg2 {inputPrecision = 2 : i32, maxNumImpreciseAcc = 0 : i32} : tensor<16x16xi4, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>> * tensor<16x16xi4, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>> -> tensor<16x16xi32, #mma1>
     // CHECK-COUNT-8: llvm.insertvalue {{.*}} : !llvm.struct<(i32, i32, i32, i32, i32, i32, i32, i32)>
     tt.return
@@ -196,7 +224,7 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 8 : i32, "ttg.thr
     // CHECK-COUNT-32: llvm.insertelement
     // CHECK-COUNT-8: llvm.extractvalue %arg2
     // CHECK-COUNT-8: llvm.insertelement
-    // CHECK-COUNT-2: rocdl.wmma.f16.16x16x16.f16 {{.*}} : (vector<16xf16>, vector<16xf16>, vector<16xf16>, i1) -> vector<16xf16>
+    // CHECK-COUNT-2: wmma.f16.16x16x16.f16{{.*}} : (vector<16xf16>, vector<16xf16>, vector<16xf16>, i1) -> vector<16xf16>
     %0 = tt.dot %arg0, %arg1, %arg2, inputPrecision = ieee : tensor<2x16x32xf16, #ttg.dot_op<{opIdx = 0, parent = #mma1, kWidth = 16}>> * tensor<2x32x16xf16, #ttg.dot_op<{opIdx = 1, parent = #mma1, kWidth = 16}>> -> tensor<2x16x16xf16, #mma1>
     // CHECK-COUNT-8: llvm.extractelement
     // CHECK-COUNT-8: llvm.insertvalue
diff --git a/third_party/amd/lib/TritonAMDGPUToLLVM/DotOpToLLVM/WMMA.cpp b/third_party/amd/lib/TritonAMDGPUToLLVM/DotOpToLLVM/WMMA.cpp
@@ -183,33 +183,37 @@ std::string getTypeStr(Type ty) {
 }
 
 StringRef getWmmaIntrinsicName(Type aElTy, Type bElTy, Type dElTy, Type valATy,
-                               Type valCTy) {
+                               Type valCTy, bool tied) {
   static llvm::SmallDenseMap<llvm::hash_code, std::string> intrinsics;
   using MapInfo = llvm::DenseMapInfo<Type>;
   llvm::hash_code h = llvm::hash_combine(
       MapInfo::getHashValue(aElTy), MapInfo::getHashValue(bElTy),
       MapInfo::getHashValue(dElTy), MapInfo::getHashValue(valATy),
-      MapInfo::getHashValue(valCTy));
+      MapInfo::getHashValue(valCTy), llvm::hash_value(tied));
   if (!intrinsics.contains(h)) {
     std::string name = "llvm.amdgcn.wmma.";
     name += getTypeStr(dElTy);
     name += ".16x16x16."; // TODO support 16x16x32 for i4 operands
     name += getTypeStr(aElTy);
-    if (isa<FloatType>(aElTy) && aElTy.getIntOrFloatBitWidth() == 8)
-      name += '.' + getTypeStr(bElTy);
-    name += '.' + getTypeStr(valCTy) + "." + getTypeStr(valATy);
+    if (tied) {
+      name += ".tied";
+    } else {
+      if (isa<FloatType>(aElTy) && aElTy.getIntOrFloatBitWidth() == 8)
+        name += '.' + getTypeStr(bElTy);
+      name += '.' + getTypeStr(valCTy) + "." + getTypeStr(valATy);
+    }
     intrinsics[h] = name;
   }
   return intrinsics[h];
 }
 
 Value generateWMMAIntrinsic(ConversionPatternRewriter &rewriter, Location loc,
-                            WMMAInstrType wmmaType, Value valA, Value valB,
-                            Value valC, Type aElType, Type bElType,
-                            Type dElType) {
+                            Value valA, Value valB, Value valC, Type aElType,
+                            Type bElType, Type dElType,
+                            std::optional<bool> tiedLower) {
   auto b = TritonLLVMOpBuilder(loc, rewriter);
   auto name = getWmmaIntrinsicName(aElType, bElType, dElType, valA.getType(),
-                                   valC.getType());
+                                   valC.getType(), tiedLower.has_value());
   LLVM::FastmathFlagsAttr defaultFlags{};
   SmallVector<Value> operands;
   if (aElType.isInteger())
@@ -221,25 +225,23 @@ Value generateWMMAIntrinsic(ConversionPatternRewriter &rewriter, Location loc,
   operands.push_back(valC);
   // Flag for using low bits in registers. Result could be already packed to
   // int32. Set low bits by default for now.
-  if (32 / dElType.getIntOrFloatBitWidth() > 1 || dElType.isInteger(32)) {
-    operands.push_back(b.int_val(1, false));
+  if (tiedLower.has_value() || 32 / dElType.getIntOrFloatBitWidth() > 1 ||
+      dElType.isInteger(32)) {
+    operands.push_back(b.int_val(1, tiedLower.value_or(false)));
   }
   auto wmmaIntrinsic = LLVM::createLLVMIntrinsicCallOp(
       rewriter, loc, name, valC.getType(), operands);
   return wmmaIntrinsic.getResult(0);
 }
 
 Value generateWMMAOp(ConversionPatternRewriter &rewriter, Location loc,
-                     WMMAInstrType wmmaType, Value valA, Value valB, Value valC,
-                     Type aElType, Type bElType, Type dElType, int version) {
-  if (version == 1) {
-    return generateROCDLOp(rewriter, loc, wmmaType, valA, valB, valC, aElType,
-                           bElType);
-  } else {
-    assert(version == 2);
-    return generateWMMAIntrinsic(rewriter, loc, wmmaType, valA, valB, valC,
-                                 aElType, bElType, dElType);
-  }
+                     Value valA, Value valB, Value valC, Type aElType,
+                     Type bElType, Type dElType,
+                     std::optional<bool> tiedLower) {
+  // Independent of wmma version because builtin functions are backward
+  // compatible
+  return generateWMMAIntrinsic(rewriter, loc, valA, valB, valC, aElType,
+                               bElType, dElType, tiedLower);
 }
 
 // Conduct the Dot conversion.
@@ -251,7 +253,6 @@ LogicalResult convertDot(DotOp op, DotOpAdaptor adaptor,
   int wmmaVer = wmmaLayout.getVersion();
   auto warpsPerCTA = wmmaLayout.getWarpsPerCTA();
   auto mnkDim = AMDWmmaEncodingAttr::getMNKDimPerInstr();
-  auto wmmaInstrType = getWMMAInstrTypeFromDot(op);
 
   auto loc = op.getLoc();
   auto tb = TritonLLVMOpBuilder(loc, rewriter);
@@ -300,33 +301,50 @@ LogicalResult convertDot(DotOp op, DotOpAdaptor adaptor,
   auto elemsPerVec = mnkDim[0] * mnkDim[1] * paddedOutputElemSize / warpSize;
   auto dElemsToStorePerThread = mnkDim[0] * mnkDim[1] / warpSize;
   auto vecTy = vec_ty(dstElemTy, elemsPerVec);
+  bool tied = numRepM % 2 == 0 && paddedOutputElemSize == 2;
+  int tiedGroup = tied ? 2 : 1;
   for (int b = 0; b < numRepB; ++b) {
-    for (int m = 0; m < numRepM; ++m) {
+    for (int m = 0; m < numRepM / tiedGroup; ++m) {
       for (int n = 0; n < numRepN; ++n) {
         auto batchOffIdx = b * numRepM * numRepN * dElemsToStorePerThread;
-        auto mRepOffId = m * numRepN * dElemsToStorePerThread;
         auto nRepOffId = n * dElemsToStorePerThread;
-        auto fcThreadOffIdx = batchOffIdx + mRepOffId + nRepOffId;
+        auto nBatchOffSum = nRepOffId + batchOffIdx;
 
         Value acc = tb.undef(vecTy);
         for (unsigned v = 0; v < dElemsToStorePerThread; ++v) {
-          acc = tb.insert_element(vecTy, acc, fc[fcThreadOffIdx + v],
-                                  tb.i32_val(v * paddedOutputElemSize));
+          for (int subTied = 0; subTied < tiedGroup; ++subTied) {
+            auto mRepOffId =
+                (m * tiedGroup + subTied) * numRepN * dElemsToStorePerThread;
+            auto fcThreadOffIdx = nBatchOffSum + mRepOffId;
+            acc = tb.insert_element(
+                vecTy, acc, fc[fcThreadOffIdx + v],
+                tb.i32_val(v * paddedOutputElemSize + subTied));
+          }
         }
-        for (size_t k = 0; k < numRepK; k++) {
-          acc = wmmaLayout.getIsTransposed()
-                    ? generateWMMAOp(
-                          rewriter, loc, wmmaInstrType, hb[{b, n, k}],
-                          ha[{b, m, k}], acc, bTensorTy.getElementType(),
-                          aTensorTy.getElementType(), dstElemTy, wmmaVer)
-                    : generateWMMAOp(
-                          rewriter, loc, wmmaInstrType, ha[{b, m, k}],
-                          hb[{b, n, k}], acc, aTensorTy.getElementType(),
-                          bTensorTy.getElementType(), dstElemTy, wmmaVer);
+        for (size_t k = 0; k < numRepK; ++k) {
+          for (int subTied = 0; subTied < tiedGroup; ++subTied) {
+            auto optTied =
+                tied ? std::optional<bool>(subTied != 0) : std::nullopt;
+            acc = wmmaLayout.getIsTransposed()
+                      ? generateWMMAOp(rewriter, loc, hb[{b, n, k}],
+                                       ha[{b, m * tiedGroup + subTied, k}], acc,
+                                       bTensorTy.getElementType(),
+                                       aTensorTy.getElementType(), dstElemTy,
+                                       optTied)
+                      : generateWMMAOp(
+                            rewriter, loc, ha[{b, m * tiedGroup + subTied, k}],
+                            hb[{b, n, k}], acc, aTensorTy.getElementType(),
+                            bTensorTy.getElementType(), dstElemTy, optTied);
+          }
         }
         for (unsigned v = 0; v < dElemsToStorePerThread; ++v) {
-          fc[fcThreadOffIdx + v] = tb.extract_element(
-              dstElemTy, acc, tb.i32_val(v * paddedOutputElemSize));
+          for (int subTied = 0; subTied < tiedGroup; ++subTied) {
+            auto mRepOffId =
+                (m * tiedGroup + subTied) * numRepN * dElemsToStorePerThread;
+            auto fcThreadOffIdx = nBatchOffSum + mRepOffId;
+            fc[fcThreadOffIdx + v] = tb.extract_element(
+                dstElemTy, acc, tb.i32_val(v * paddedOutputElemSize + subTied));
+          }
         }
       }
     }