[AMD][MFMA] Use linear layout for batch-non-slowest 3D conversion (triton-lang#6371)

joviliast · web-flow · commit dacd15539863 · 2025-04-02T11:25:15.000-07:00
Please see equal change for WMMA: triton-lang#6350 Signed-off-by: Ilya Veselov <iveselov.nn@gmail.com>
diff --git a/third_party/amd/lib/TritonAMDGPUToLLVM/ConvertLayoutOpToLLVM/SharedToDotOperandMFMA.cpp b/third_party/amd/lib/TritonAMDGPUToLLVM/ConvertLayoutOpToLLVM/SharedToDotOperandMFMA.cpp
@@ -230,8 +230,11 @@ Value convertLayout(int opIdx, ConversionPatternRewriter &rewriter,
   if (!sharedLayout)
     return Value();
   auto order = sharedLayout.getOrder();
-  assert((rank == 2 || order[2] == 0) &&
-         "expect batch to be the slowest dimension");
+
+  // Rely on the linear layout conversion logic in this case, since only slowest
+  // dimension for batch is supported here
+  if (rank != 2 && order.back() != 0)
+    return Value();
 
   auto elemTy = aTensorTy.getElementType();
   auto kWidth = encoding.getKWidth();