intel
diff --git a/‎include/triton/Dialect/TritonGPU/IR/Dialect.h‎
Lines changed: 2 additions & 2 deletions b/‎include/triton/Dialect/TritonGPU/IR/Dialect.h‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎include/triton/Dialect/TritonGPU/Transforms/LayoutPropagationUtility.h‎
Lines changed: 21 additions & 0 deletions b/‎include/triton/Dialect/TritonGPU/Transforms/LayoutPropagationUtility.h‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎lib/Analysis/AxisInfo.cpp‎
Lines changed: 30 additions & 0 deletions b/‎lib/Analysis/AxisInfo.cpp‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎lib/Dialect/Triton/IR/Traits.cpp‎
Lines changed: 30 additions & 0 deletions b/‎lib/Dialect/Triton/IR/Traits.cpp‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎lib/Dialect/TritonGPU/IR/Dialect.cpp‎
Lines changed: 6 additions & 6 deletions b/‎lib/Dialect/TritonGPU/IR/Dialect.cpp‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎lib/Dialect/TritonGPU/IR/Ops.cpp‎
Lines changed: 1 addition & 10 deletions b/‎lib/Dialect/TritonGPU/IR/Ops.cpp‎
Lines changed: 1 addition & 10 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions b/‎lib/Dialect/TritonGPU/Transforms/CMakeLists.txt‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/LayoutPropagationUtility.cpp‎
Lines changed: 49 additions & 0 deletions b/‎lib/Dialect/TritonGPU/Transforms/LayoutPropagationUtility.cpp‎
Lines changed: 49 additions & 0 deletions
diff --git a/‎lib/Dialect/TritonGPU/Transforms/Utility.cpp‎
Lines changed: 0 additions & 2 deletions b/‎lib/Dialect/TritonGPU/Transforms/Utility.cpp‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎lib/Dialect/TritonNvidiaGPU/IR/Dialect.cpp‎
Lines changed: 5 additions & 4 deletions b/‎lib/Dialect/TritonNvidiaGPU/IR/Dialect.cpp‎
Lines changed: 5 additions & 4 deletions
@@ -272,8 +272,8 @@ llvm::SmallVector<unsigned>
 expandMatrixOrderWithBatch(llvm::ArrayRef<unsigned> o);
 
 // Return true if the two layouts represent the exact same mapping.
-bool areLayoutsEquivalent(ArrayRef<int64_t> shape, DistributedEncodingTrait lhs,
-                          DistributedEncodingTrait rhs);
+bool areLayoutsEquivalent(ArrayRef<int64_t> shape, LayoutEncodingTrait lhs,
+                          LayoutEncodingTrait rhs);
 
 // Return true if the innermost numElems are contiguous.
 bool isInnermostContiguous(MemDescType type, unsigned numElems);
 
@@ -0,0 +1,21 @@
+#ifndef TRITON_DIALECT_TRITONGPU_TRANSFORMS_LAYOUT_PROPAGATION_UTILITY_H_
+#define TRITON_DIALECT_TRITONGPU_TRANSFORMS_LAYOUT_PROPAGATION_UTILITY_H_
+
+#include "triton/Dialect/Triton/IR/Dialect.h"
+#include "triton/Dialect/TritonGPU/IR/Attributes.h"
+#include "triton/Tools/LinearLayout.h"
+#include <optional>
+
+namespace mlir::triton::gpu {
+
+// Given the result |dstLayout|, infer the source layout that we should use for
+// global load if we propagate through op def chain of |defOp|. Returns
+// std::nullopt if fails to infer or cannot reach a global load.
+std::optional<std::pair<triton::LoadOp, LinearLayout>>
+inferSourceLoadLayout(const LinearLayout &dstLayout, Operation *defOp);
+std::optional<std::pair<triton::LoadOp, LinearLayout>>
+inferSourceLoadLayout(LinearEncodingAttr dstLayout, Operation *defOp);
+
+} // namespace mlir::triton::gpu
+
+#endif // TRITON_DIALECT_TRITONGPU_TRANSFORMS_LAYOUT_PROPAGATION_UTILITY_H_
@@ -988,6 +988,35 @@ class MaxMinOpAxisInfoVisitor final : public AxisInfoVisitorImpl<OpTy> {
   }
 };
 
+class TransOpAxisInfoVisitor final
+    : public AxisInfoVisitorImpl<triton::TransOp> {
+public:
+  using AxisInfoVisitorImpl<triton::TransOp>::AxisInfoVisitorImpl;
+
+  AxisInfo
+  getAxisInfo(triton::TransOp op,
+              ArrayRef<const dataflow::Lattice<AxisInfo> *> operands) override {
+    AxisInfo srcInfo = operands[0]->getValue();
+    auto order = op.getOrder();
+    auto rank = srcInfo.getRank();
+
+    // Apply the transpose permutation to all axis info properties
+    AxisInfo::DimVectorT contiguity;
+    AxisInfo::DimVectorT divisibility;
+    AxisInfo::DimVectorT constancy;
+
+    for (int d = 0; d < rank; ++d) {
+      int srcDim = order[d];
+      contiguity.push_back(srcInfo.getContiguity(srcDim));
+      divisibility.push_back(srcInfo.getDivisibility(srcDim));
+      constancy.push_back(srcInfo.getConstancy(srcDim));
+    }
+
+    return AxisInfo(contiguity, divisibility, constancy,
+                    srcInfo.getConstantValue());
+  }
+};
+
 //===----------------------------------------------------------------------===//
 // AxisInfoAnalysis
 //===----------------------------------------------------------------------===//
@@ -1032,6 +1061,7 @@ AxisInfoAnalysis::AxisInfoAnalysis(DataFlowSolver &solver,
                   MaxMinOpAxisInfoVisitor<arith::MinSIOp>,
                   MaxMinOpAxisInfoVisitor<arith::MinUIOp>>();
   visitors.append<LoadOpAxisInfoVisitor>();
+  visitors.append<TransOpAxisInfoVisitor>();
 
   if (callback)
     callback(visitors);
 
@@ -6,11 +6,41 @@
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "triton/Dialect/Triton/IR/Types.h"
 #include "triton/Dialect/Triton/IR/Utility.h"
+#include "triton/Dialect/TritonGPU/IR/Types.h"
 #include "llvm/Support/ErrorHandling.h"
 
 using namespace mlir;
+using namespace mlir::triton::gpu;
 
 LogicalResult OpTrait::impl::verifyEquivalentType(Type typeA, Type typeB) {
+  auto memdescA = dyn_cast<MemDescType>(typeA);
+  auto memdescB = dyn_cast<MemDescType>(typeB);
+  if (memdescA || memdescB) {
+    if (!memdescA || !memdescB)
+      return failure();
+    if (memdescA.getShape() != memdescB.getShape())
+      return failure();
+    if (memdescA.getAllocShape() != memdescB.getAllocShape())
+      return failure();
+    if (memdescA.getElementType() != memdescB.getElementType())
+      return failure();
+    if (memdescA.getMemorySpace() != memdescB.getMemorySpace())
+      return failure();
+    if (memdescA.getMutableMemory() != memdescB.getMutableMemory())
+      return failure();
+
+    Attribute encodingA = memdescA.getEncoding();
+    Attribute encodingB = memdescB.getEncoding();
+    if (encodingA == encodingB)
+      return success();
+    if (static_cast<bool>(encodingA) != static_cast<bool>(encodingB))
+      return failure();
+
+    auto layoutInterface =
+        cast<triton::DialectInferLayoutInterface>(&encodingA.getDialect());
+    return layoutInterface->verifyLayoutsAreEqual(memdescA.getShape(),
+                                                  encodingA, encodingB, {});
+  }
   auto tensorTypeA = dyn_cast<RankedTensorType>(typeA);
   auto tensorTypeB = dyn_cast<RankedTensorType>(typeB);
   if (!(bool(tensorTypeA) && bool(tensorTypeB)))
 
@@ -3054,8 +3054,8 @@ struct TritonGPUInferLayoutInterface
       return failure();
 
     // Check whether the encodings are structurally the same.
-    if (!areLayoutsEquivalent(shape, cast<DistributedEncodingTrait>(expected),
-                              cast<DistributedEncodingTrait>(got))) {
+    if (!areLayoutsEquivalent(shape, cast<LayoutEncodingTrait>(expected),
+                              cast<LayoutEncodingTrait>(got))) {
       return emitOptionalError(loc, "Expected result encoding ", expected,
                                " but was ", got);
     }
@@ -3109,8 +3109,8 @@ struct TritonGPUInferLayoutInterface
       Attribute splitEnc;
       auto result = inferSplitOpEncoding(parent, splitEnc, joinedShape, loc);
       if (succeeded(result) &&
-          areLayoutsEquivalent(shape, cast<DistributedEncodingTrait>(splitEnc),
-                               cast<DistributedEncodingTrait>(srcEnc))) {
+          areLayoutsEquivalent(shape, cast<LayoutEncodingTrait>(splitEnc),
+                               cast<LayoutEncodingTrait>(srcEnc))) {
         dstEnc = parent;
         return success();
       }
@@ -3807,8 +3807,8 @@ int triton::gpu::lookupNumCTAs(OpBuilder &rewriter) {
 }
 
 bool triton::gpu::areLayoutsEquivalent(ArrayRef<int64_t> shape,
-                                       DistributedEncodingTrait lhs,
-                                       DistributedEncodingTrait rhs) {
+                                       LayoutEncodingTrait lhs,
+                                       LayoutEncodingTrait rhs) {
   auto lhsLL = triton::gpu::toLinearLayout(shape, lhs);
   auto rhsLL = triton::gpu::toLinearLayout(shape, rhs);
   return lhsLL == rhsLL;
 
@@ -515,16 +515,7 @@ LogicalResult MemDescReshapeOp::verify() {
   if (failed(inferReturnTypes(getContext(), getLoc(), srcType,
                               dstType.getShape(), expectedTy)))
     return failure();
-  // Check that the alloc shape separately to give a cleaner error, given that
-  // it's the most likely source of the error.
-  if (expectedTy.getAllocShape() != dstType.getAllocShape()) {
-    return emitError(
-        "The result alloc shape does not match the expected alloc shape.");
-  }
-  if (expectedTy != dstType) {
-    return emitError("source and destination layout are incompatible.");
-  }
-  return success();
+  return OpTrait::impl::verifyEquivalentType(expectedTy, dstType);
 }
 
 static LogicalResult inferMemDescReshapeOpEncoding(ArrayRef<int64_t> srcShape,
 
@@ -27,6 +27,7 @@ add_triton_library(TritonGPUTransforms
   ReorderInstructions.cpp
   CoalesceAsyncCopy.cpp
   Utility.cpp
+  LayoutPropagationUtility.cpp
   WarpSpecialization/AutomaticWarpSpecialization.cpp
   WarpSpecialization/LoadMMASpecialization.cpp
   WarpSpecialization/Partition.cpp
@@ -35,6 +36,7 @@ add_triton_library(TritonGPUTransforms
   WarpSpecialization/PartitionLoops.cpp
   WarpSpecialization/PartitionScheduling.cpp
   WarpSpecialization/RewritePartitionDependencies.cpp
+
   DEPENDS
   TritonGPUTransformsIncGen
 
 
@@ -0,0 +1,49 @@
+#include "triton/Dialect/TritonGPU/Transforms/LayoutPropagationUtility.h"
+#include "triton/Dialect/Triton/IR/Dialect.h"
+#include "triton/Dialect/TritonGPU/IR/Attributes.h"
+#include "triton/Dialect/TritonGPU/IR/LinearLayoutConversions.h"
+#include "triton/Dialect/TritonGPU/Transforms/Utility.h"
+#include <optional>
+#include <utility>
+
+namespace mlir::triton::gpu {
+
+std::optional<std::pair<triton::LoadOp, LinearLayout>>
+inferSourceLoadLayout(const LinearLayout &dstLayout, Operation *defOp) {
+  if (!defOp)
+    return std::nullopt;
+  return inferSourceLoadLayout(
+      LinearEncodingAttr::get(defOp->getContext(), dstLayout), defOp);
+}
+
+std::optional<std::pair<triton::LoadOp, LinearLayout>>
+inferSourceLoadLayout(LinearEncodingAttr dstLayout, Operation *defOp) {
+  Attribute curLayout = dstLayout;
+  Operation *curOp = defOp;
+  while (curOp) {
+    if (isa<triton::LoadOp>(curOp))
+      break; // Found the load op; we are done here.
+
+    if (auto cvtOp = dyn_cast<ConvertLayoutOp>(curOp)) {
+      // For convert op we keep the current layout to push through further.
+      curOp = cvtOp.getSrc().getDefiningOp();
+    } else {
+      if (curOp->getNumOperands() != 1)
+        break;
+      curLayout = inferSrcEncoding(curOp, curLayout);
+      curOp = curOp->getOperand(0).getDefiningOp();
+    }
+  }
+  auto loadOp = dyn_cast_or_null<triton::LoadOp>(curOp);
+  if (!loadOp)
+    return std::nullopt;
+  auto loadType = dyn_cast<RankedTensorType>(loadOp.getType());
+  if (!loadType)
+    return std::nullopt;
+
+  return std::make_pair(
+      loadOp,
+      toLinearLayout(loadType.getShape(), cast<LinearEncodingAttr>(curLayout)));
+}
+
+} // namespace mlir::triton::gpu
@@ -6,15 +6,13 @@
 #include "mlir/Dialect/SCF/IR/SCF.h"
 #include "mlir/IR/Dominance.h"
 #include "mlir/IR/IRMapping.h"
-#include "mlir/Transforms/GreedyPatternRewriteDriver.h"
 #include "triton/Analysis/AxisInfo.h"
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "triton/Dialect/Triton/IR/Utility.h"
 #include "triton/Dialect/TritonGPU/IR/Dialect.h"
 #include "triton/Dialect/TritonGPU/IR/LinearLayoutConversions.h"
 #include "triton/Dialect/TritonGPU/Transforms/Utility.h"
 #include "triton/Dialect/TritonNvidiaGPU/IR/Dialect.h"
-#include "llvm/ADT/SetOperations.h"
 #include "llvm/Support/Debug.h"
 
 #define DEBUG_TYPE "ttg-utility"
 
@@ -178,8 +178,8 @@ bool isDistributedLayoutSplitMTmemLoadStore(RankedTensorType tensorType,
   if (!layout)
     return false;
   return areLayoutsEquivalent(
-      tensorType.getShape(), cast<DistributedEncodingTrait>(layout),
-      cast<DistributedEncodingTrait>(tensorType.getEncoding()));
+      tensorType.getShape(), cast<LayoutEncodingTrait>(layout),
+      cast<LayoutEncodingTrait>(tensorType.getEncoding()));
 }
 
 SmallVector<DistributedEncodingTrait>
@@ -226,9 +226,10 @@ bool isDistributedLayoutTMemCompatible(Operation *op,
                                        gpu::MemDescType memType) {
   SmallVector<DistributedEncodingTrait> layouts =
       getTmemCompatibleLayouts(op, tensorType, memType);
-  auto enc = cast<DistributedEncodingTrait>(tensorType.getEncoding());
+  auto enc = cast<LayoutEncodingTrait>(tensorType.getEncoding());
   return llvm::any_of(layouts, [&](DistributedEncodingTrait layout) {
-    return areLayoutsEquivalent(tensorType.getShape(), layout, enc);
+    return areLayoutsEquivalent(tensorType.getShape(),
+                                cast<LayoutEncodingTrait>(layout), enc);
   });
 }