intel
diff --git a/‎build_tools/llvm_version.txt
Lines changed: 1 addition & 1 deletion b/‎build_tools/llvm_version.txt
Lines changed: 1 addition & 1 deletion
diff --git a/‎include/imex/Dialect/Region/IR/RegionOps.td
Lines changed: 2 additions & 2 deletions b/‎include/imex/Dialect/Region/IR/RegionOps.td
Lines changed: 2 additions & 2 deletions
diff --git a/‎lib/Conversion/NDArrayToLinalg/NDArrayToLinalg.cpp
Lines changed: 1 addition & 1 deletion b/‎lib/Conversion/NDArrayToLinalg/NDArrayToLinalg.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Conversion/XeGPUToVC/LSCPatterns.cpp
Lines changed: 36 additions & 2 deletions b/‎lib/Conversion/XeGPUToVC/LSCPatterns.cpp
Lines changed: 36 additions & 2 deletions
diff --git a/‎lib/Conversion/XeTileToXeGPU/XeTileToXeGPU.cpp
Lines changed: 11 additions & 7 deletions b/‎lib/Conversion/XeTileToXeGPU/XeTileToXeGPU.cpp
Lines changed: 11 additions & 7 deletions
diff --git a/‎lib/Dialect/LLVMIR/CMakeLists.txt
Lines changed: 1 addition & 0 deletions b/‎lib/Dialect/LLVMIR/CMakeLists.txt
Lines changed: 1 addition & 0 deletions
diff --git a/‎lib/Dialect/NDArray/Transforms/AddGPURegions.cpp
Lines changed: 1 addition & 1 deletion b/‎lib/Dialect/NDArray/Transforms/AddGPURegions.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Transforms/CMakeLists.txt
Lines changed: 0 additions & 1 deletion b/‎lib/Transforms/CMakeLists.txt
Lines changed: 0 additions & 1 deletion
diff --git a/‎lib/Transforms/InsertGPUAllocs.cpp
Lines changed: 15 additions & 11 deletions b/‎lib/Transforms/InsertGPUAllocs.cpp
Lines changed: 15 additions & 11 deletions
diff --git a/‎lib/Transforms/OptimizeTranspose.cpp
Lines changed: 10 additions & 10 deletions b/‎lib/Transforms/OptimizeTranspose.cpp
Lines changed: 10 additions & 10 deletions
@@ -1 +1 @@
-c539ec0db53ac850d121f1420fc9da72a5bf8891
+6b7e1b97f4bbb6dd6fca04ee4caccbf54ec92f09
@@ -120,8 +120,8 @@ def EnvironmentRegionOp : Region_Op<"env_region", [
 
   let builders = [
     OpBuilder<(ins "::mlir::Attribute":$environment,
-      CArg<"::mlir::ValueRange", "std::nullopt">:$args,
-      CArg<"::mlir::TypeRange", "std::nullopt">:$results,
+      CArg<"::mlir::ValueRange", "{}">:$args,
+      CArg<"::mlir::TypeRange", "{}">:$results,
       CArg<"::llvm::function_ref<void(::mlir::OpBuilder &, ::mlir::Location)>", "nullptr">)>
   ];
 
 
@@ -102,7 +102,7 @@ struct CopyLowering : public ::mlir::OpRewritePattern<::imex::ndarray::CopyOp> {
       // create a region with given env, add copy op within it
       auto env = rewriter.getStringAttr("protect_copy_op");
       rewriter.create<::imex::region::EnvironmentRegionOp>(
-          loc, env, std::nullopt, std::nullopt,
+          loc, env, llvm::ArrayRef<mlir::Value>(), llvm::ArrayRef<mlir::Type>(),
           [&srcMR, &mr](::mlir::OpBuilder &builder, ::mlir::Location loc) {
             (void)builder.create<::mlir::memref::CopyOp>(loc, srcMR, mr);
             (void)builder.create<::imex::region::EnvironmentRegionYieldOp>(loc);
 
@@ -46,6 +46,13 @@ namespace imex {
 
 namespace LSC {
 
+static SmallVector<int64_t> generateFullPermutation(int rank) {
+  SmallVector<int64_t> permutation;
+  for (int i = rank - 1; i >= 0; --i)
+    permutation.push_back(i);
+  return permutation;
+}
+
 static int getCacheEncoding(std::optional<xegpu::CachePolicy> hint) {
 
   if (!hint.has_value())
@@ -1139,6 +1146,21 @@ class LoadGatherPattern : public OpConversionPattern<LoadGatherOp> {
     auto newValue = genLoadIntrinsicCallWithC32BConversion(
         rewriter, loc, resultTy, simd_lanes, op.getMask(), l1hint, l3hint,
         elemTy, chunkSize, tdescTy.getMemorySpace(), adaptor.getTensorDesc());
+
+    // transpose the result because of the difference between hardware
+    // implementation and the XeGPU definition.
+    if (resultTy.getRank() > 1) {
+      SmallVector<int64_t> permutation =
+          generateFullPermutation(resultTy.getRank());
+      llvm::ArrayRef<int64_t> shape = resultTy.getShape();
+      auto intrinsicTy =
+          VectorType::get(applyPermutation(shape, permutation), elemTy);
+      newValue =
+          rewriter.create<vector::ShapeCastOp>(loc, intrinsicTy, newValue);
+      newValue =
+          rewriter.create<vector::TransposeOp>(loc, newValue, permutation);
+    }
+
     rewriter.replaceOp(op, newValue);
 
     return success();
@@ -1220,10 +1242,22 @@ class StoreScatterPattern : public OpConversionPattern<StoreScatterOp> {
     auto l1hint = op.getL1Hint();
     // auto l2hint = op.getL2Hint();
     auto l3hint = op.getL3Hint();
+
+    Value data = adaptor.getValue();
+    // transpose the value because of the difference between hardware
+    // implementation and the XeGPU definition.
+    if (tdescTy.getRank() > 1) {
+      Type flatVecTy =
+          data.getType(); // 1D VectorType expected by the intrinsic
+      SmallVector<int64_t> permutation =
+          generateFullPermutation(tdescTy.getRank());
+      data = rewriter.create<vector::ShapeCastOp>(loc, op.getValueType(), data);
+      data = rewriter.create<vector::TransposeOp>(loc, data, permutation);
+      data = rewriter.create<vector::ShapeCastOp>(loc, flatVecTy, data);
+    }
     auto callOp = genStoreIntrinsicCallWithC32BConversion(
         rewriter, loc, simd_lanes, op.getMask(), l1hint, l3hint, elemTy,
-        chunkSize, tdescTy.getMemorySpace(), adaptor.getTensorDesc(),
-        adaptor.getValue());
+        chunkSize, tdescTy.getMemorySpace(), adaptor.getTensorDesc(), data);
 
     rewriter.replaceOp(op, callOp);
     return success();
 
@@ -535,12 +535,11 @@ class GatherOpPattern : public OpConversionPattern<xetile::LoadGatherOp> {
     auto ldTy = VectorType::get(type.getNumElements(), elemTy);
     auto maskTy =
         VectorType::get(type.getNumElements(), rewriter.getIntegerType(1));
-    auto transposeAttr = UnitAttr();
     auto [L1, L2, L3] = getCachePolicy(op);
     auto mask =
         rewriter.create<vector::ShapeCastOp>(loc, maskTy, adaptor.getMask());
     auto ldOp = rewriter.create<xegpu::LoadGatherOp>(
-        loc, ldTy, adaptor.getTile(), mask, transposeAttr, L1, L2, L3);
+        loc, ldTy, adaptor.getTile(), mask, L1, L2, L3);
     auto v = rewriter.create<vector::ShapeCastOp>(loc, op.getType(), ldOp);
     rewriter.replaceOp(op, v);
     return success();
@@ -574,9 +573,15 @@ class StoreOpPattern : public OpConversionPattern<xetile::StoreTileOp> {
       auto maskTy = VectorType::get(tileTy.getShape()[1], rewriter.getI1Type());
       auto mask = rewriter.create<arith::ConstantOp>(
           loc, DenseElementsAttr::get(maskTy, rewriter.getBoolAttr(true)));
-      auto transAttr = rewriter.getUnitAttr();
+
+      if (tileTy.getRank() > 1) {
+        SmallVector<int64_t> permutation = llvm::to_vector(
+            llvm::reverse(llvm::seq<int64_t>(tileTy.getRank())));
+        value = rewriter.create<vector::TransposeOp>(loc, value, permutation);
+      }
+
       rewriter.replaceOpWithNewOp<xegpu::StoreScatterOp>(
-          op, value, adaptor.getTile(), mask, transAttr, L1, L2, L3);
+          op, value, adaptor.getTile(), mask, L1, L2, L3);
     } else {
       // Since the low-level instruction works on 1D vector of 32-bits data, the
       // data to be stored need to be linearized and bitcasted.
@@ -605,12 +610,11 @@ class ScatterOpPattern : public OpConversionPattern<xetile::StoreScatterOp> {
     auto numElems = tileTy.getNumElements();
     auto valTy = VectorType::get(numElems, tileTy.getElementType());
     auto maskTy = VectorType::get(numElems, rewriter.getIntegerType(1));
-    auto transposeAttr = UnitAttr();
     auto [L1, L2, L3] = getCachePolicy(op, xegpu::CachePolicy::WRITE_BACK);
     mask = rewriter.create<vector::ShapeCastOp>(op.getLoc(), maskTy, mask);
     value = rewriter.create<vector::ShapeCastOp>(op.getLoc(), valTy, value);
-    rewriter.replaceOpWithNewOp<xegpu::StoreScatterOp>(
-        op, value, tdesc, mask, transposeAttr, L1, L2, L3);
+    rewriter.replaceOpWithNewOp<xegpu::StoreScatterOp>(op, value, tdesc, mask,
+                                                       L1, L2, L3);
     return success();
   }
 };
 
@@ -16,6 +16,7 @@ add_imex_dialect_library(MLIRXeVMDialect
   Core
 
   LINK_LIBS PUBLIC
+  MLIRDialectUtils
   MLIRIR
   MLIRLLVMDialect
   MLIRSideEffectInterfaces
 
@@ -65,7 +65,7 @@ static ::mlir::LogicalResult matchAndRewritePTOP(::mlir::Operation *op,
 
   // create a region with given env and clone creator op within and yield it
   rewriter.replaceOpWithNewOp<::imex::region::EnvironmentRegionOp>(
-      op, env, std::nullopt, op->getResultTypes(),
+      op, env, llvm::ArrayRef<mlir::Value>(), op->getResultTypes(),
       [op](::mlir::OpBuilder &builder, ::mlir::Location loc) {
         auto cOp = builder.clone(*op);
         (void)builder.create<::imex::region::EnvironmentRegionYieldOp>(
 
@@ -31,7 +31,6 @@ add_mlir_library(IMEXTransforms
   MLIRSupport
   MLIRTransformUtils
   MLIRVectorTransforms
-  MLIRCopyOpInterface
 
   DEPENDS
   IMEXTransformsPassIncGen
 
@@ -104,8 +104,9 @@ class InsertGPUAllocsPass final
         builder.setInsertionPoint(alloc);
         auto allocResult = builder.create<::mlir::gpu::AllocOp>(
             alloc.getLoc(), alloc.getType(), /*asyncToken*/ nullptr,
-            /*asyncDependencies*/ std::nullopt, alloc.getDynamicSizes(),
-            alloc.getSymbolOperands(), /*hostShared*/ hostShared);
+            /*asyncDependencies*/ llvm::ArrayRef<mlir::Value>(),
+            alloc.getDynamicSizes(), alloc.getSymbolOperands(),
+            /*hostShared*/ hostShared);
         alloc.replaceAllUsesWith(allocResult);
         alloc.erase();
       }
@@ -114,7 +115,8 @@ class InsertGPUAllocsPass final
       for (auto dealloc : deallocOpsInGpuRegion) {
         builder.setInsertionPoint(dealloc);
         (void)builder.create<::mlir::gpu::DeallocOp>(
-            dealloc.getLoc(), std::nullopt /*async*/, dealloc.getMemref());
+            dealloc.getLoc(), llvm::ArrayRef<mlir::Type>() /*async*/,
+            dealloc.getMemref());
         dealloc.erase();
       }
 
@@ -429,8 +431,8 @@ class InsertGPUAllocsPass final
         bool hostShared = access.hostRead || access.hostWrite;
         auto gpuAlloc = builder.create<mlir::gpu::AllocOp>(
             loc, alloc.getType(), /*asyncToken*/ nullptr,
-            /*asyncDependencies*/ std::nullopt, alloc.getDynamicSizes(),
-            alloc.getSymbolOperands(), hostShared);
+            /*asyncDependencies*/ llvm::ArrayRef<mlir::Value>(),
+            alloc.getDynamicSizes(), alloc.getSymbolOperands(), hostShared);
         auto allocResult = gpuAlloc.getResult(0);
         builder.setInsertionPoint(term);
         for (mlir::OpOperand &use : alloc.getResult().getUses()) {
@@ -453,7 +455,8 @@ class InsertGPUAllocsPass final
         }
 
         alloc.replaceAllUsesWith(allocResult);
-        builder.create<mlir::gpu::DeallocOp>(loc, std::nullopt, allocResult);
+        builder.create<mlir::gpu::DeallocOp>(loc, llvm::ArrayRef<mlir::Type>(),
+                                             allocResult);
         alloc.erase();
       }
     }
@@ -484,8 +487,8 @@ class InsertGPUAllocsPass final
         bool hostShared = access.hostRead || access.hostWrite;
         auto gpuAlloc = builder.create<mlir::gpu::AllocOp>(
             loc, allocType, /*asyncToken*/ nullptr,
-            /*asyncDependencies*/ std::nullopt, dims,
-            /*symbolOperands*/ std::nullopt, hostShared);
+            /*asyncDependencies*/ llvm::ArrayRef<mlir::Value>(), dims,
+            /*symbolOperands*/ llvm::ArrayRef<mlir::Value>(), hostShared);
         auto allocResult = gpuAlloc.getResult(0);
         if (access.hostWrite && access.deviceRead) {
           auto copy =
@@ -502,15 +505,16 @@ class InsertGPUAllocsPass final
           if (access.hostRead && access.deviceWrite) {
             builder.create<mlir::memref::CopyOp>(loc, castedAllocResult, op);
           }
-          builder.create<mlir::gpu::DeallocOp>(loc, std::nullopt,
-                                               castedAllocResult);
+          builder.create<mlir::gpu::DeallocOp>(
+              loc, llvm::ArrayRef<mlir::Type>(), castedAllocResult);
         } else {
           op.replaceAllUsesExcept(allocResult, filter);
           builder.setInsertionPoint(term);
           if (access.hostRead && access.deviceWrite) {
             builder.create<mlir::memref::CopyOp>(loc, allocResult, op);
           }
-          builder.create<mlir::gpu::DeallocOp>(loc, std::nullopt, allocResult);
+          builder.create<mlir::gpu::DeallocOp>(
+              loc, llvm::ArrayRef<mlir::Type>(), allocResult);
         }
       } else if (m_clientAPI == "vulkan") {
         auto gpuAlloc =
 
@@ -372,8 +372,8 @@ static void createStoreScatter(Value data, Value slm, Value base,
 
   auto loc = data.getLoc();
   auto shape = type.getShape();
-  auto chunkSize = type.getRank() == 2 ? shape[0] : 1;
-  auto simdLanes = type.getRank() == 2 ? shape[1] : shape[0];
+  auto chunkSize = type.getRank() == 2 ? shape[1] : 1;
+  auto simdLanes = type.getRank() == 2 ? shape[0] : shape[1];
 
   llvm::SmallVector<int64_t> staticOffsets;
   for (auto i = 0; i < simdLanes; i++) {
@@ -392,13 +392,11 @@ static void createStoreScatter(Value data, Value slm, Value base,
                                             chunkSize, xegpu::MemorySpace::SLM);
   auto desc = rewriter.create<xegpu::CreateDescOp>(loc, tdescTy, slm, offsets);
 
-  auto transposeAttr = rewriter.getUnitAttr();
   auto maskTy = VectorType::get(simdLanes, rewriter.getI1Type());
   auto mask = rewriter.create<arith::ConstantOp>(
       loc, DenseElementsAttr::get(maskTy, rewriter.getBoolAttr(true)));
-  rewriter.create<xegpu::StoreScatterOp>(loc, data, desc, mask, transposeAttr,
-                                         nullptr /*L1*/, nullptr /*L2*/,
-                                         nullptr /*L3*/);
+  rewriter.create<xegpu::StoreScatterOp>(loc, data, desc, mask, nullptr /*L1*/,
+                                         nullptr /*L2*/, nullptr /*L3*/);
 }
 
 static Value createBlockLoad(TypedValue<MemRefType> slm, Value base,
@@ -660,7 +658,7 @@ struct UpdateNdOffsetOpPattern final
 //
 // Following:
 // clang-format off
-// %0 = load ...
+// %0 = load %t ...
 // %1 = transpose %0 ...
 // %2 = shape_cast %1 ...
 // %3 = shuffle %2 ...
@@ -670,8 +668,7 @@ struct UpdateNdOffsetOpPattern final
 //
 // is replaced with:
 // clang-format off
-// %0 = load ...
-// %1 = load+transpose %0 ...
+// %1 = load+transpose %t...
 // ... DPAS B usage ...
 // clang-format on
 struct TransposeRewritePattern : public OpRewritePattern<vector::TransposeOp> {
@@ -798,6 +795,9 @@ struct TransposeRewritePattern : public OpRewritePattern<vector::TransposeOp> {
       auto offset = rewriter.create<arith::MulIOp>(
           loc, sgId, index_val(numElems), nullptr /* overflowFlags */);
 
+      data =
+          rewriter.create<vector::TransposeOp>(loc, data, op.getPermutation());
+
       // store data using store_scatter to SLM at the given offset.
       createStoreScatter(data, slm, offset, rewriter);
 
@@ -955,7 +955,7 @@ struct OptimizeTransposePass final
     GreedyRewriteConfig config;
     config.setRegionSimplificationLevel(GreedySimplifyRegionLevel::Disabled);
     config.setUseTopDownTraversal(true);
-    config.setStrictness(GreedyRewriteStrictness::ExistingAndNewOps);
+    config.setStrictness(GreedyRewriteStrictness::ExistingOps);
     patterns.add<TransposeRewritePattern>(context, analysis, uArchInterface);
     if (failed(applyPatternsGreedily(getOperation(), std::move(patterns),
                                      config))) {
Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-c539ec0db53ac850d121f1420fc9da72a5bf8891`
	`1`	`+6b7e1b97f4bbb6dd6fca04ee4caccbf54ec92f09`