[AMD] Remove manual transposed MFMA to DotOp layout conversion (#7625)

FrederickVu · web-flow · commit 5a87bde2d982 · 2025-07-25T22:50:27.000-07:00
Generalized warp-shuffle conversions were introduced in #7558. We remove
the two manual implementations for the transposed mfma to dot op layout
conversions and their corresponding LIT tests.

For the 32x32 instruction, in the LIT test `mfma_dot_cvt_f8_mfma32`:
 - The manual implementation uses 4 `ds_bpermute`s and 4 `select`s
 - The general pathway uses 2 `ds_bpermute`s and 6 `select`s

For the 16x16 instruction, in the LIT test `mfma_dot_cvt_f8_mfma16`:
 - The manual implementation uses 8 `ds_bpermute`s and 12 `select`s
 - The general pathway uses 4 `ds_bpermute`s and 10 `select`s

While I have not run tests to verify that this would not result in a
performance regression, it seems likely there would be noticeable
improvements. Still, maintainers should check (cf. #7574).

There is room for further optimization in the 32x32 case for CDNA4
supported hardware using the `V_PERMLANE32_SWAP_B32` instruction, as in
`ConvertLayoutOpMFMAToLinearConversion`, where two such instructions can
replace the 2 `ds_bpermute`s and 6 `select`s above. This PR does not
implement this as I believe it would make more sense to implement this
generally rather than by hand for each case. This can be done using the
`getWarpLayoutConvertDecomposition` utility function in a later PR.
diff --git a/include/triton/Analysis/Utility.h b/include/triton/Analysis/Utility.h
@@ -252,11 +252,6 @@ bool cvtNeedsWarpShuffle(RankedTensorType srcTy, RankedTensorType dstTy);
 // warps, and possibly blocks.
 bool cvtNeedsSharedMemory(RankedTensorType srcTy, RankedTensorType dstTy);
 
-// Check if MFMA layout can be converted to the dot operand
-// layout using warp shuffle.
-bool matchMFMAAndDotOperandShuffleCase(RankedTensorType srcTy,
-                                       RankedTensorType dstTy);
-
 // TODO: Move utility functions that belong to ConvertLayoutOp to class
 // ConvertLayoutOpHelper in the future
 bool shouldUseDistSmem(Attribute srcLayout, Attribute dstLayout);
diff --git a/lib/Analysis/Utility.cpp b/lib/Analysis/Utility.cpp
@@ -713,24 +713,6 @@ bool supportMMA(Value value, int version) {
          (elemTy.isInteger(8) && version >= 2);
 }
 
-bool matchMFMAAndDotOperandShuffleCase(RankedTensorType srcTy,
-                                       RankedTensorType dstTy) {
-  auto mfmaLayout = dyn_cast<AMDMfmaEncodingAttr>(srcTy.getEncoding());
-  auto dotOperandLayout = dyn_cast<DotOperandEncodingAttr>(dstTy.getEncoding());
-  if (!mfmaLayout || !dotOperandLayout)
-    return false;
-
-  // Currently supporting 32x32 and 16x16 FP8 MFMA -> dot operand case
-  return dotOperandLayout.getParent() == mfmaLayout &&
-         dotOperandLayout.getOpIdx() == 0 && mfmaLayout.getIsTransposed() &&
-         dotOperandLayout.getKWidth() == 8 &&
-         ((mfmaLayout.getMDim() == 16 && mfmaLayout.getNDim() == 16) ||
-          (mfmaLayout.getMDim() == 32 && mfmaLayout.getNDim() == 32)) &&
-         triton::type::isFloat8(srcTy.getElementType()) &&
-         triton::type::isFloat8(dstTy.getElementType()) &&
-         mfmaLayout.getWarpsPerCTA()[1] == 1;
-}
-
 // We get the smallest submap of srcTy^{-1} * dstTy that is not the identity
 // under the common dimensions. The idea here is that if we have a
 // transformation that's the identity on kBlock, we don't need to use
@@ -788,13 +770,8 @@ bool cvtNeedsWarpShuffle(RankedTensorType srcTy, RankedTensorType dstTy) {
 }
 
 bool cvtNeedsSharedMemory(RankedTensorType srcTy, RankedTensorType dstTy) {
-  // TODO(jlebar): Remove these special cases `isMfmaToDotShortcut` once
-  // they're fully subsumed by the linear-layout checks.
   return !cvtReordersRegisters(srcTy, dstTy) &&
-         !cvtNeedsWarpShuffle(srcTy, dstTy) &&
-         // to be removed when generalized warp shuffle conversions
-         // are ready:
-         !matchMFMAAndDotOperandShuffleCase(srcTy, dstTy);
+         !cvtNeedsWarpShuffle(srcTy, dstTy);
 }
 
 namespace {
diff --git a/test/Conversion/amd/mfma-shortcut.mlir b/test/Conversion/amd/mfma-shortcut.mlir
@@ -19,70 +19,6 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.thr
 #mfma = #ttg.amd_mfma<{version = 3, warpsPerCTA = [4, 1], instrShape = [32, 32], isTransposed = true}>
 #dotop0 = #ttg.dot_op<{opIdx = 0, parent = #mfma, kWidth=8}>
 
-module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.threads-per-warp" = 64 : i32} {
-  // GFX942-LABEL: mfma_dot_cvt_f8_mfma32
-  tt.func public @mfma_dot_cvt_f8_mfma32(%arg0: tensor<128x32xf8E4M3FNUZ, #mfma>) {
-    // GFX942-NOT: store
-    // GFX942-NOT: load
-
-    // GFX942: [[val3:%.*]] = llvm.extractvalue %arg0[3]
-    // GFX942: [[val7:%.*]] = llvm.extractvalue %arg0[7]
-
-    // GFX942-DAG: [[c32:%.*]] = llvm.mlir.constant(32 : i32)
-    // GFX942-DAG: [[c64:%.*]] = llvm.mlir.constant(64 : i32)
-
-    // GFX942: [[threadId:%.*]] = rocdl.workitem.id.x
-    // GFX942: [[c255:%.*]] = llvm.mlir.constant(255 : i32)
-    // GFX942: [[RTID:%.*]] = llvm.and [[threadId]], [[c255]]
-    // GFX942: [[laneId:%.*]] = llvm.urem [[RTID]], [[c64]]
-    // GFX942: [[mask0:%.*]] = llvm.icmp "slt" [[laneId]], [[c32]]
-
-    // GFX942: [[shflLaneId:%.*]] = llvm.add [[laneId]], [[c32]]
-    // GFX942: [[addr32:%.*]] = llvm.urem [[shflLaneId]], [[c64]]
-
-    // GFX942: [[vec0:%.*]] = llvm.insertelement [[val3]], {{.*}} : vector<4xi8>
-    // GFX942: [[vec1:%.*]] = llvm.insertelement [[val7]], {{.*}} : vector<4xi8>
-
-    // GFX942: [[bvec0:%.*]] = llvm.bitcast [[vec0]]
-    // GFX942: [[c2:%.*]] = llvm.mlir.constant(2 : i32)
-    // GFX942: [[addr:%.*]] = llvm.shl [[addr32]], [[c2]]
-    // GFX942: [[bShflVec0:%.*]] = rocdl.ds_bpermute [[addr]], [[bvec0]]
-    // GFX942: [[shflVec0:%.*]] = llvm.bitcast [[bShflVec0]]
-
-    // GFX942: [[bvec1:%.*]] = llvm.bitcast [[vec1]]
-    // GFX942: [[c2:%.*]] = llvm.mlir.constant(2 : i32)
-    // GFX942: [[addr:%.*]] = llvm.shl [[addr32]], [[c2]]
-    // GFX942: [[bShflVec1:%.*]] = rocdl.ds_bpermute [[addr]], [[bvec1]]
-    // GFX942: [[shflVec1:%.*]] = llvm.bitcast [[bShflVec1]]
-
-    // Input (8 values): (vec0, vec1)
-    // Output (8 values shuffled, '>> n' - take the value from (lane + n) % 64):
-    //                 resVec0     resVec1
-    //   lanes  0-31: (vec0      , vec0 >> 32) (mask0=1)
-    //   lanes 32-63: (vec1 >> 32, vec1      ) (mask0=0)
-
-    // GFX942: [[resVec0:%.*]] = llvm.select [[mask0]], [[vec0]], [[shflVec1]]
-    // GFX942: [[resVec1:%.*]] = llvm.select [[mask0]], [[shflVec0]], [[vec1]]
-
-    // GFX942: [[c3:%.*]] = llvm.mlir.constant(3 : i32)
-    // GFX942: [[resVal3:%.*]] = llvm.extractelement [[resVec0]][[[c3]] : i32] : vector<4xi8>
-    // GFX942: [[c3:%.*]] = llvm.mlir.constant(3 : i32) : i32
-    // GFX942: [[resVal7:%.*]] = llvm.extractelement [[resVec1]][[[c3]] : i32] : vector<4xi8>
-
-    // GFX942: llvm.insertvalue [[resVal3]], {{.*}}[3]
-    // GFX942: llvm.insertvalue [[resVal7]], {{.*}}[7]
-
-    // GFX942: llvm.return
-    %0 = ttg.convert_layout %arg0 : tensor<128x32xf8E4M3FNUZ, #mfma> -> tensor<128x32xf8E4M3FNUZ, #dotop0>
-    tt.return
-  }
-}
-
-// -----
-
-#mfma = #ttg.amd_mfma<{version = 3, warpsPerCTA = [4, 1], instrShape = [32, 32], isTransposed = true}>
-#dotop0 = #ttg.dot_op<{opIdx = 0, parent = #mfma, kWidth=8}>
-
 module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.threads-per-warp" = 64 : i32} {
   // GFX942-LABEL: mfma_dot_cvt_bf8_mfma32
   tt.func public @mfma_dot_cvt_bf8_mfma32(%arg0: tensor<128x32xf8E5M2, #mfma>) {
@@ -100,100 +36,6 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.thr
 #mfma = #ttg.amd_mfma<{version = 3, warpsPerCTA = [4, 1], instrShape = [16, 16], isTransposed = true}>
 #dotop0 = #ttg.dot_op<{opIdx = 0, parent = #mfma, kWidth=8}>
 
-module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.threads-per-warp" = 64 : i32} {
-  // GFX942-LABEL: mfma_dot_cvt_f8_mfma16
-  tt.func public @mfma_dot_cvt_f8_mfma16(%arg0: tensor<128x32xf8E4M3FNUZ, #mfma>) {
-    // GFX942-NOT: store
-    // GFX942-NOT: load
-
-    // GFX942: [[val3:%.*]] = llvm.extractvalue %arg0[3]
-    // GFX942: [[val7:%.*]] = llvm.extractvalue %arg0[7]
-
-    // GFX942-DAG: [[c16:%.*]] = llvm.mlir.constant(16 : i32)
-    // GFX942-DAG: [[c32:%.*]] = llvm.mlir.constant(32 : i32)
-    // GFX942-DAG: [[c48:%.*]] = llvm.mlir.constant(48 : i32)
-    // GFX942-DAG: [[c64:%.*]] = llvm.mlir.constant(64 : i32)
-
-    // GFX942: [[threadId:%.*]] = rocdl.workitem.id.x
-    // GFX942: [[c255:%.*]] = llvm.mlir.constant(255 : i32)
-    // GFX942: [[RTID:%.*]] = llvm.and [[threadId]], [[c255]]
-    // GFX942: [[laneId:%.*]] = llvm.urem [[RTID]], [[c64]]
-    // GFX942: [[mask0:%.*]] = llvm.icmp "slt" [[laneId]], [[c32]]
-
-    // GFX942: [[laneIdRem:%.*]] = llvm.urem [[laneId]], [[c32]]
-    // GFX942: [[mask1:%.*]] = llvm.icmp "slt" [[laneIdRem]], [[c16]]
-
-    // GFX942: [[shflLaneId:%.*]] = llvm.add [[laneId]], [[c16]]
-    // GFX942: [[addr16:%.*]] = llvm.urem [[shflLaneId]], [[c64]]
-
-    // GFX942: [[shflLaneId:%.*]] = llvm.add [[laneId]], [[c32]]
-    // GFX942: [[addr32:%.*]] = llvm.urem [[shflLaneId]], [[c64]]
-
-    // GFX942: [[shflLaneId:%.*]] = llvm.add [[laneId]], [[c48]]
-    // GFX942: [[addr48:%.*]] = llvm.urem [[shflLaneId]], [[c64]]
-
-    // GFX942: [[vec0:%.*]] = llvm.insertelement [[val3]], {{.*}} : vector<4xi8>
-    // GFX942: [[vec1:%.*]] = llvm.insertelement [[val7]], {{.*}} : vector<4xi8>
-
-    // GFX942: [[bvec0:%.*]] = llvm.bitcast [[vec0]]
-    // GFX942: [[c2:%.*]] = llvm.mlir.constant(2 : i32)
-    // GFX942: [[addr:%.*]] = llvm.shl [[addr16]], [[c2]]
-    // GFX942: [[bShflVec0_16:%.*]] = rocdl.ds_bpermute [[addr]], [[bvec0]]
-    // GFX942: [[shflVec0_16:%.*]] = llvm.bitcast [[bShflVec0_16]]
-
-    // GFX942: [[bvec0:%.*]] = llvm.bitcast [[vec0]]
-    // GFX942: [[c2:%.*]] = llvm.mlir.constant(2 : i32)
-    // GFX942: [[addr:%.*]] = llvm.shl [[addr32]], [[c2]]
-    // GFX942: [[bShflVec0_32:%.*]] = rocdl.ds_bpermute [[addr]], [[bvec0]]
-    // GFX942: [[shflVec0_32:%.*]] = llvm.bitcast [[bShflVec0_32]]
-
-    // GFX942: [[bvec1:%.*]] = llvm.bitcast [[vec1]]
-    // GFX942: [[c2:%.*]] = llvm.mlir.constant(2 : i32)
-    // GFX942: [[addr:%.*]] = llvm.shl [[addr32]], [[c2]]
-    // GFX942: [[bShflVec1_32:%.*]] = rocdl.ds_bpermute [[addr]], [[bvec1]]
-    // GFX942: [[shflVec1_32:%.*]] = llvm.bitcast [[bShflVec1_32]]
-
-    // GFX942: [[bvec1:%.*]] = llvm.bitcast [[vec1]]
-    // GFX942: [[c2:%.*]] = llvm.mlir.constant(2 : i32)
-    // GFX942: [[addr:%.*]] = llvm.shl [[addr48]], [[c2]]
-    // GFX942: [[bShflVec1_48:%.*]] = rocdl.ds_bpermute [[addr]], [[bvec1]]
-    // GFX942: [[shflVec1_48:%.*]] = llvm.bitcast [[bShflVec1_48]]
-
-    // Input (8 values): (vec0, vec1)
-    // Output (8 values shuffled, '>> n' - take the value from (lane + n) % 64):
-    //                 resVec0     resVec1
-    //   lanes  0-15: (vec0      , vec0 >> 16) (mask0=1, mask1=1)
-    //   lanes 16-31: (vec0 >> 16, vec0 >> 32) (mask0=1, mask1=0)
-    //   lanes 32-47: (vec1 >> 32, vec1 >> 48) (mask0=0, mask1=1)
-    //   lanes 48-63: (vec1 >> 48, vec1      ) (mask0=0, mask1=0)
-
-    // GFX942-DAG: [[mask0_true:%.*]] = llvm.select [[mask1]], [[vec0]], [[shflVec0_16]] : i1, vector<4xi8>
-    // GFX942-DAG: [[mask0_false:%.*]] = llvm.select [[mask1]], [[shflVec1_32]], [[shflVec1_48]] : i1, vector<4xi8>
-    // GFX942: [[resVec0:%.*]] = llvm.select [[mask0]], [[mask0_true]], [[mask0_false]] : i1, vector<4xi8>
-
-    // GFX942-DAG: [[mask0_true:%.*]] = llvm.select [[mask1]], [[shflVec0_16]], [[shflVec0_32]] : i1, vector<4xi8>
-    // GFX942-DAG: [[mask0_false:%.*]] = llvm.select [[mask1]], [[shflVec1_48]], [[vec1]] : i1, vector<4xi8>
-    // GFX942: [[resVec1:%.*]] = llvm.select [[mask0]], [[mask0_true]], [[mask0_false]] : i1, vector<4xi8>
-
-    // GFX942: [[c3:%.*]] = llvm.mlir.constant(3 : i32)
-    // GFX942: [[resVal3:%.*]] = llvm.extractelement [[resVec0]][[[c3]] : i32] : vector<4xi8>
-    // GFX942: [[c3:%.*]] = llvm.mlir.constant(3 : i32) : i32
-    // GFX942: [[resVal7:%.*]] = llvm.extractelement [[resVec1]][[[c3]] : i32] : vector<4xi8>
-
-    // GFX942: llvm.insertvalue [[resVal3]], {{.*}}[3]
-    // GFX942: llvm.insertvalue [[resVal7]], {{.*}}[7]
-
-    // GFX942: llvm.return
-    %0 = ttg.convert_layout %arg0 : tensor<128x32xf8E4M3FNUZ, #mfma> -> tensor<128x32xf8E4M3FNUZ, #dotop0>
-    tt.return
-  }
-}
-
-// -----
-
-#mfma = #ttg.amd_mfma<{version = 3, warpsPerCTA = [4, 1], instrShape = [16, 16], isTransposed = true}>
-#dotop0 = #ttg.dot_op<{opIdx = 0, parent = #mfma, kWidth=8}>
-
 module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, "ttg.threads-per-warp" = 64 : i32} {
   // GFX942-LABEL: mfma_dot_cvt_bf8_mfma16
   tt.func public @mfma_dot_cvt_bf8_mfma16(%arg0: tensor<128x32xf8E5M2, #mfma>) {
diff --git a/third_party/amd/lib/TritonAMDGPUToLLVM/ConvertLayoutOpToLLVM.cpp b/third_party/amd/lib/TritonAMDGPUToLLVM/ConvertLayoutOpToLLVM.cpp
@@ -13,159 +13,6 @@ using ::triton::gpu::LinearEncodingAttr;
 
 namespace {
 
-struct ConvertLayoutOpMFMAToDotOpConversion
-    : public ConvertOpToLLVMPattern<triton::gpu::ConvertLayoutOp> {
-public:
-  explicit ConvertLayoutOpMFMAToDotOpConversion(
-      LLVMTypeConverter &typeConverter, const TargetInfoBase &targetInfo,
-      PatternBenefit benefit)
-      : ConvertOpToLLVMPattern<triton::gpu::ConvertLayoutOp>(typeConverter,
-                                                             benefit),
-        targetInfo(targetInfo) {}
-
-  LogicalResult
-  matchAndRewrite(triton::gpu::ConvertLayoutOp op, OpAdaptor adaptor,
-                  ConversionPatternRewriter &rewriter) const override {
-    auto srcType = cast<RankedTensorType>(op.getSrc().getType());
-    auto dstType = cast<RankedTensorType>(op.getType());
-
-    if (!matchMFMAAndDotOperandShuffleCase(srcType, dstType))
-      return failure();
-
-    auto loc = op.getLoc();
-    auto b = TritonLLVMOpBuilder(loc, rewriter);
-
-    SmallVector<Value> inVals =
-        unpackLLElements(loc, adaptor.getSrc(), rewriter);
-    if (inVals.empty() || inVals.size() % 8 != 0)
-      return failure();
-
-    auto mfmaLayout = dyn_cast<AMDMfmaEncodingAttr>(srcType.getEncoding());
-    assert((mfmaLayout.getMDim() == 16 || mfmaLayout.getMDim() == 32) &&
-           "Expected MFMA size 16 or 32");
-    assert(triton::gpu::lookupThreadsPerWarp(rewriter) == 64 &&
-           "Expected warp size 64 for MFMA");
-
-    auto elemTy = int_ty(8);
-    auto vecTy = vec_ty(elemTy, 4);
-
-    Value c16 = b.i32_val(16);
-    Value c32 = b.i32_val(32);
-    Value c48 = b.i32_val(48);
-    Value c64 = b.i32_val(64);
-
-    Value threadId = getThreadId(rewriter, loc);
-    Value laneId = b.urem(threadId, c64);
-
-    Value mask0 = b.icmp_slt(laneId, c32);
-    Value mask1 = b.icmp_slt(b.urem(laneId, c32), c16);
-
-    Value addrShift16 = b.urem(b.add(laneId, c16), c64);
-    Value addrShift32 = b.urem(b.add(laneId, c32), c64);
-    Value addrShift48 = b.urem(b.add(laneId, c48), c64);
-
-    SmallVector<Value> outVals;
-    for (size_t startIdx = 0; startIdx < inVals.size(); startIdx += 8) {
-      Value vec0 = b.undef(vecTy);
-      for (size_t vIdx = 0; vIdx < 4; ++vIdx) {
-        vec0 = b.insert_element(vecTy, vec0, inVals[startIdx + vIdx],
-                                b.i32_val(vIdx));
-      }
-      Value vec1 = b.undef(vecTy);
-      for (size_t vIdx = 0; vIdx < 4; ++vIdx) {
-        vec1 = b.insert_element(vecTy, vec1, inVals[startIdx + vIdx + 4],
-                                b.i32_val(vIdx));
-      }
-
-      Value resVec0, resVec1;
-      if (mfmaLayout.getMDim() == 32) {
-        /*
-        Using wave shuffle to convert layouts (32x32x16 case):
-        1) Input MMA layout (32x32, fp8, 16 values):
-         _____________________________________________________________
-        |(t0  v0 v1 v2 v3) (t32 v0 v1 v2 v3) ... (t32 v12 v13 v14 v15)|
-        | ...                                ...                      |
-        |(t31 v0 v1 v2 v3) (t63 v0 v1 v2 v3) ... (t63 v12 v13 v14 v15)|
-        |_____________________________________________________________|
-
-        2) Output Dot operand layout (two 32x16 tiles, fp8, 8 values each):
-         ____________________________________________________________  ___
-        |(t0  v0 v1 v2 v3 v4 v5 v6 v7) (t32 v0 v1 v2 v3 v4 v5 v6 v7) ||
-        | ...                           ...                          ||...
-        |(t31 v0 v1 v2 v3 v4 v5 v6 v7) (t63 v0 v1 v2 v3 v4 v5 v6 v7) ||
-        |____________________________________________________________||___
-        */
-
-        Value shflVec0 = b.bitcast(
-            targetInfo.shuffleIdx(rewriter, loc, b.bitcast(vec0, int_ty(32)),
-                                  addrShift32),
-            vecTy);
-        Value shflVec1 = b.bitcast(
-            targetInfo.shuffleIdx(rewriter, loc, b.bitcast(vec1, int_ty(32)),
-                                  addrShift32),
-            vecTy);
-
-        resVec0 = b.select(mask0, vec0, shflVec1);
-        resVec1 = b.select(mask0, shflVec0, vec1);
-      } else if (mfmaLayout.getMDim() == 16) {
-        /*
-        16x16x32 case:
-        1) Input MMA layout (two 16x16, fp8, 4 values each):
-         _________________________________________________________  ___________
-        |(t0  v0 v1 v2 v3) (t16 v0 v1 v2 v3) ... (t48 v0 v1 v2 v3)||(t0  v4 ...
-        | ...                                ...                  || ...
-        |(t15 v0 v1 v2 v3) (t31 v0 v1 v2 v3) ... (t63 v0 v1 v2 v3)||(t15 v4 ...
-        |_________________________________________________________||___________
-
-        2) Output Dot operand layout (16x32 tile, fp8, 8 values):
-         ________________________________________________________________
-        |(t0  v0 v1 v2 v3 v4 v5 v6 v7) ... (t48 v0 v1 v2 v3 v4 v5 v6 v7) |
-        | ...                          ...                               |
-        |(t15 v0 v1 v2 v3 v4 v5 v6 v7) ... (t63 v0 v1 v2 v3 v4 v5 v6 v7) |
-        |________________________________________________________________|
-        */
-
-        Value shflVec0_16 = b.bitcast(
-            targetInfo.shuffleIdx(rewriter, loc, b.bitcast(vec0, int_ty(32)),
-                                  addrShift16),
-            vecTy);
-        Value shflVec0_32 = b.bitcast(
-            targetInfo.shuffleIdx(rewriter, loc, b.bitcast(vec0, int_ty(32)),
-                                  addrShift32),
-            vecTy);
-        Value shflVec1_32 = b.bitcast(
-            targetInfo.shuffleIdx(rewriter, loc, b.bitcast(vec1, int_ty(32)),
-                                  addrShift32),
-            vecTy);
-        Value shflVec1_48 = b.bitcast(
-            targetInfo.shuffleIdx(rewriter, loc, b.bitcast(vec1, int_ty(32)),
-                                  addrShift48),
-            vecTy);
-
-        resVec0 = b.select(mask0, b.select(mask1, vec0, shflVec0_16),
-                           b.select(mask1, shflVec1_32, shflVec1_48));
-        resVec1 = b.select(mask0, b.select(mask1, shflVec0_16, shflVec0_32),
-                           b.select(mask1, shflVec1_48, vec1));
-      }
-
-      for (size_t vIdx = 0; vIdx < 4; ++vIdx) {
-        outVals.push_back(b.extract_element(elemTy, resVec0, b.i32_val(vIdx)));
-      }
-      for (size_t vIdx = 0; vIdx < 4; ++vIdx) {
-        outVals.push_back(b.extract_element(elemTy, resVec1, b.i32_val(vIdx)));
-      }
-    }
-
-    Value result = packLLElements(loc, getTypeConverter(), outVals, rewriter,
-                                  op.getType());
-    rewriter.replaceOp(op, result);
-    return success();
-  }
-
-protected:
-  const TargetInfoBase &targetInfo;
-};
-
 // Match MFMA->Linear Layout conversion
 static bool matchMFMAAndLinearLayoutCase(RankedTensorType srcTy,
                                          RankedTensorType dstTy) {
@@ -338,8 +185,6 @@ struct ConvertLayoutForcedSwizzling
 void mlir::triton::AMD::populateConvertLayoutOpToLLVMPatterns(
     LLVMTypeConverter &typeConverter, const TargetInfo &targetInfo,
     RewritePatternSet &patterns, PatternBenefit benefit) {
-  patterns.add<ConvertLayoutOpMFMAToDotOpConversion>(typeConverter, targetInfo,
-                                                     benefit);
   patterns.add<ConvertLayoutOpMFMAToLinearConversion>(typeConverter, targetInfo,
                                                       benefit);
   patterns.add<ConvertLayoutForcedPadding>(typeConverter, targetInfo, benefit);