intel
diff --git a/‎build_tools/llvm_version.txt‎
Lines changed: 1 addition & 1 deletion b/‎build_tools/llvm_version.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎build_tools/patches/0004-Add-serialization-and-de-serialization-support-for-s.patch‎
Lines changed: 17 additions & 16 deletions b/‎build_tools/patches/0004-Add-serialization-and-de-serialization-support-for-s.patch‎
Lines changed: 17 additions & 16 deletions
diff --git a/‎build_tools/patches/0008-xegpu-temporary-downstream-defintion-changes-and-vec.patch‎
Lines changed: 38 additions & 20 deletions b/‎build_tools/patches/0008-xegpu-temporary-downstream-defintion-changes-and-vec.patch‎
Lines changed: 38 additions & 20 deletions
diff --git a/‎include/imex/Dialect/NDArray/Transforms/Passes.td‎
Lines changed: 1 addition & 1 deletion b/‎include/imex/Dialect/NDArray/Transforms/Passes.td‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lib/Conversion/XeGPUToVC/LSCPatterns.cpp‎
Lines changed: 3 additions & 3 deletions b/‎lib/Conversion/XeGPUToVC/LSCPatterns.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎lib/Conversion/XeGPUToXeVM/XeGPUToXeVM.cpp‎
Lines changed: 9 additions & 5 deletions b/‎lib/Conversion/XeGPUToXeVM/XeGPUToXeVM.cpp‎
Lines changed: 9 additions & 5 deletions
diff --git a/‎lib/Conversion/XeTileToXeGPU/XeTileToXeGPU.cpp‎
Lines changed: 1 addition & 0 deletions b/‎lib/Conversion/XeTileToXeGPU/XeTileToXeGPU.cpp‎
Lines changed: 1 addition & 0 deletions
@@ -1 +1 @@
-9f733f4324412ef89cc7729bf027cdcab912ceff
+228e96b28a84828e1720c387a339a7e68dbdc029
@@ -1,26 +1,26 @@
-From 4cb4411e2451b1549bafd6a8a3723f78251ef6f3 Mon Sep 17 00:00:00 2001
-From: izamyati <[email protected]>
-Date: Tue, 1 Oct 2024 08:59:35 -0500
-Subject: [PATCH] Add serialization and deserialization support for s
+From 89e527e48b727a1479aa47fdbe3d2d178d8969a7 Mon Sep 17 00:00:00 2001
+From: Garra1980 <[email protected]>
+Date: Mon, 4 Aug 2025 17:50:56 +0200
+Subject: [PATCH] Add serilialization and deserialization for spirv
 
 ---
  mlir/lib/Target/SPIRV/Deserialization/Deserializer.cpp | 6 ++++++
  mlir/lib/Target/SPIRV/Serialization/Serializer.cpp     | 6 ++++++
  2 files changed, 12 insertions(+)
 
 diff --git a/mlir/lib/Target/SPIRV/Deserialization/Deserializer.cpp b/mlir/lib/Target/SPIRV/Deserialization/Deserializer.cpp
-index 6c7fe4106982..b1be812e74eb 100644
+index 88931b53a688..f1c22d09cc8e 100644
 --- a/mlir/lib/Target/SPIRV/Deserialization/Deserializer.cpp
 +++ b/mlir/lib/Target/SPIRV/Deserialization/Deserializer.cpp
-@@ -259,6 +259,7 @@ LogicalResult spirv::Deserializer::processDecoration(ArrayRef<uint32_t> words) {
+@@ -282,6 +282,7 @@ LogicalResult spirv::Deserializer::processDecoration(ArrayRef<uint32_t> words) {
          symbol, FPRoundingModeAttr::get(opBuilder.getContext(),
                                          static_cast<FPRoundingMode>(words[2])));
      break;
 +  case spirv::Decoration::Alignment:
    case spirv::Decoration::DescriptorSet:
    case spirv::Decoration::Binding:
      if (words.size() != 3) {
-@@ -320,6 +321,10 @@ LogicalResult spirv::Deserializer::processDecoration(ArrayRef<uint32_t> words) {
+@@ -343,6 +344,10 @@ LogicalResult spirv::Deserializer::processDecoration(ArrayRef<uint32_t> words) {
    case spirv::Decoration::RestrictPointer:
    case spirv::Decoration::NoContraction:
    case spirv::Decoration::Constant:
@@ -31,19 +31,19 @@ index 6c7fe4106982..b1be812e74eb 100644
      if (words.size() != 2) {
        return emitError(unknownLoc, "OpDecoration with ")
               << decorationName << "needs a single target <id>";
-@@ -330,6 +335,7 @@ LogicalResult spirv::Deserializer::processDecoration(ArrayRef<uint32_t> words) {
-     // it is needed for many validation rules.
-     decorations[words[0]].set(symbol, opBuilder.getUnitAttr());
+@@ -351,6 +356,7 @@ LogicalResult spirv::Deserializer::processDecoration(ArrayRef<uint32_t> words) {
      break;
-+  case spirv::Decoration::FuncParamIOKindINTEL:
    case spirv::Decoration::Location:
    case spirv::Decoration::SpecId:
++  case spirv::Decoration::FuncParamIOKindINTEL:
      if (words.size() != 3) {
+       return emitError(unknownLoc, "OpDecoration with ")
+              << decorationName << "needs a single integer literal";
 diff --git a/mlir/lib/Target/SPIRV/Serialization/Serializer.cpp b/mlir/lib/Target/SPIRV/Serialization/Serializer.cpp
-index f355982e9ed8..d6080185eefe 100644
+index 737f29662f64..cd925b02b6a6 100644
 --- a/mlir/lib/Target/SPIRV/Serialization/Serializer.cpp
 +++ b/mlir/lib/Target/SPIRV/Serialization/Serializer.cpp
-@@ -252,8 +252,10 @@ LogicalResult Serializer::processDecorationAttr(Location loc, uint32_t resultID,
+@@ -283,8 +283,10 @@ LogicalResult Serializer::processDecorationAttr(Location loc, uint32_t resultID,
      }
      return emitError(loc, "expected FPRoundingModeAttr attribute for ")
             << stringifyDecoration(decoration);
@@ -54,16 +54,17 @@ index f355982e9ed8..d6080185eefe 100644
    case spirv::Decoration::Location:
      if (auto intAttr = dyn_cast<IntegerAttr>(attr)) {
        args.push_back(intAttr.getValue().getZExtValue());
-@@ -287,6 +289,10 @@ LogicalResult Serializer::processDecorationAttr(Location loc, uint32_t resultID,
+@@ -318,6 +320,10 @@ LogicalResult Serializer::processDecorationAttr(Location loc, uint32_t resultID,
    case spirv::Decoration::RestrictPointer:
    case spirv::Decoration::NoContraction:
    case spirv::Decoration::Constant:
 +  case spirv::Decoration::SingleElementVectorINTEL:
 +  case spirv::Decoration::VectorComputeCallableFunctionINTEL:
 +  case spirv::Decoration::VectorComputeFunctionINTEL:
 +  case spirv::Decoration::VectorComputeVariableINTEL:
+   case spirv::Decoration::Block:
      // For unit attributes and decoration attributes, the args list
      // has no values so we do nothing.
-     if (isa<UnitAttr, DecorationAttr>(attr))
---
+-- 
 2.34.1
+
@@ -1,58 +1,64 @@
-From 4e5105ef7e07e8ba312bcfbc7d7b7efe93be2523 Mon Sep 17 00:00:00 2001
+From e689c226f0d1cfc3353225e2c9f0c45d307fd960 Mon Sep 17 00:00:00 2001
 From: Garra1980 <[email protected]>
-Date: Tue, 22 Jul 2025 22:46:30 +0200
+Date: Tue, 5 Aug 2025 23:19:34 +0200
 Subject: [PATCH] xegpu temporary downstream defintion changes and vec
 
 ---
  mlir/include/mlir/Dialect/XeGPU/IR/XeGPUOps.td      | 6 ++++++
- mlir/lib/Conversion/VectorToXeGPU/VectorToXeGPU.cpp | 2 ++
- mlir/lib/Dialect/XeGPU/IR/XeGPUOps.cpp              | 3 ++-
- 3 files changed, 10 insertions(+), 1 deletion(-)
+ mlir/lib/Conversion/VectorToXeGPU/VectorToXeGPU.cpp | 7 ++++++-
+ mlir/lib/Dialect/XeGPU/IR/XeGPUOps.cpp              | 7 ++++---
+ 3 files changed, 16 insertions(+), 4 deletions(-)
 
 diff --git a/mlir/include/mlir/Dialect/XeGPU/IR/XeGPUOps.td b/mlir/include/mlir/Dialect/XeGPU/IR/XeGPUOps.td
-index 81e25f7537cb..a7f3367d3774 100644
+index 7f4d4f1381df..ebd4f1a3f66a 100644
 --- a/mlir/include/mlir/Dialect/XeGPU/IR/XeGPUOps.td
 +++ b/mlir/include/mlir/Dialect/XeGPU/IR/XeGPUOps.td
-@@ -345,6 +345,7 @@ def XeGPU_LoadNdOp : XeGPU_Op<"load_nd", [
-   let arguments = (ins XeGPU_TensorDesc: $TensorDesc,
+@@ -373,6 +373,7 @@ def XeGPU_LoadNdOp : XeGPU_Op<"load_nd", [
+                        OptionalAttr<DenseI64ArrayAttr>: $const_offsets,  
                         OptionalAttr<UnitAttr>: $packed,
                         OptionalAttr<DenseI64ArrayAttr>: $transpose,
 +                       OptionalAttr<I32Attr>: $transpose_bit_width,
                         OptionalAttr<XeGPU_CacheHintAttr>: $l1_hint,
                         OptionalAttr<XeGPU_CacheHintAttr>: $l2_hint,
                         OptionalAttr<XeGPU_CacheHintAttr>: $l3_hint);
-@@ -971,4 +972,9 @@ def XeGPU_ConvertLayoutOp: XeGPU_Op<"convert_layout", [Pure, AllTypesMatch<["sou
-     let hasVerifier = 1;
+@@ -1147,4 +1148,9 @@ def XeGPU_ConvertLayoutOp: XeGPU_Op<"convert_layout", [Pure, AllTypesMatch<["sou
+     let hasCanonicalizer = 1;
  }
-
+ 
 +def XeGPU_CompileHintOp : XeGPU_Op<"compile_hint", []> {
 +  let summary = "prevents the compiler from scheduling.";
 +  let assemblyFormat = [{ attr-dict }];
 +}
 +
  #endif // MLIR_DIALECT_XEGPU_IR_XEGPUOPS_TD
 diff --git a/mlir/lib/Conversion/VectorToXeGPU/VectorToXeGPU.cpp b/mlir/lib/Conversion/VectorToXeGPU/VectorToXeGPU.cpp
-index 80107554144c..b5c013dc5d2d 100644
+index 80107554144c..4050a12f2eb8 100644
 --- a/mlir/lib/Conversion/VectorToXeGPU/VectorToXeGPU.cpp
 +++ b/mlir/lib/Conversion/VectorToXeGPU/VectorToXeGPU.cpp
-@@ -202,6 +202,7 @@ struct TransferReadLowering : public OpRewritePattern<vector::TransferReadOp> {
+@@ -201,7 +201,9 @@ struct TransferReadLowering : public OpRewritePattern<vector::TransferReadOp> {
+     // By default, no specific caching policy is assigned.
      xegpu::CachePolicyAttr hint = nullptr;
      auto loadOp = xegpu::LoadNdOp::create(rewriter, loc, vecTy, ndDesc,
++                                          ValueRange(), DenseI64ArrayAttr(),
                                            /*packed=*/nullptr, transposeAttr,
 +                                          /*transpose_bit_width*/nullptr,
                                            /*l1_hint=*/hint,
                                            /*l2_hint=*/hint, /*l3_hint=*/hint);
      rewriter.replaceOp(readOp, loadOp);
-@@ -271,6 +272,7 @@ struct LoadLowering : public OpRewritePattern<vector::LoadOp> {
+@@ -270,7 +272,10 @@ struct LoadLowering : public OpRewritePattern<vector::LoadOp> {
+     // By default, no specific caching policy is assigned.
      xegpu::CachePolicyAttr hint = nullptr;
      auto loadNdOp = xegpu::LoadNdOp::create(
-         rewriter, loc, vecTy, ndDesc, /*packed=*/nullptr, /*transpose=*/nullptr,
+-        rewriter, loc, vecTy, ndDesc, /*packed=*/nullptr, /*transpose=*/nullptr,
++        rewriter, loc, vecTy, ndDesc,
++        ValueRange(), DenseI64ArrayAttr(),
++        /*packed=*/nullptr, /*transpose=*/nullptr,
 +        /*transpose_bit_width*/nullptr,
          /*l1_hint=*/hint,
          /*l2_hint=*/hint, /*l3_hint=*/hint);
      rewriter.replaceOp(loadOp, loadNdOp);
 diff --git a/mlir/lib/Dialect/XeGPU/IR/XeGPUOps.cpp b/mlir/lib/Dialect/XeGPU/IR/XeGPUOps.cpp
-index c8da5558438e..a4d1e2c344c1 100644
+index 33450f3fa229..528b9d55ee61 100644
 --- a/mlir/lib/Dialect/XeGPU/IR/XeGPUOps.cpp
 +++ b/mlir/lib/Dialect/XeGPU/IR/XeGPUOps.cpp
@@ -65,6 +65,7 @@ static bool isWriteHintOrNone(const CachePolicyAttr &attr) {
@@ -62,15 +68,27 @@ index c8da5558438e..a4d1e2c344c1 100644
 +         kind == CachePolicy::STREAMING ||
           kind == CachePolicy::WRITE_BACK || kind == CachePolicy::WRITE_THROUGH;
  }
-
-@@ -420,7 +421,7 @@ LogicalResult LoadNdOp::verify() {
+ 
+@@ -419,8 +420,8 @@ void LoadNdOp::build(OpBuilder &builder, OperationState &state, Type retType,
+                      xegpu::CachePolicyAttr l3_hint) {
+ 
+   return build(builder, state, retType, tensorDesc, ValueRange(),
+-               DenseI64ArrayAttr(), packed, transpose, l1_hint, l2_hint,
+-               l3_hint);
++               DenseI64ArrayAttr(), packed, transpose, nullptr,
++               l1_hint, l2_hint, l3_hint);
+ }
+ 
+ LogicalResult LoadNdOp::verify() {
+@@ -482,7 +483,7 @@ LogicalResult LoadNdOp::verify() {
        mlir::emitWarning(getLoc()) << "Invalid transpose attr. It is ignored.";
    }
-
+ 
 -  if (getPacked()) {
 +  if (getPacked() || getTransposeBitWidth() == 32) {
      if (tdescTy.getRank() == 2) {
        const int axis = 0;
        auto vnni_factor = valueShape.back();
---
+-- 
 2.34.1
+
@@ -41,7 +41,7 @@ def CoalesceShardOps : Pass<"coalesce-shard-ops"> {
     subview operations.
   }];
   let constructor = "imex::createCoalesceShardOpsPass()";
-  let dependentDialects = ["::mlir::mesh::MeshDialect",
+  let dependentDialects = ["::mlir::shard::ShardDialect",
                            "::mlir::arith::ArithDialect",
                            "::mlir::tensor::TensorDialect",
                            "::mlir::memref::MemRefDialect"];
 
@@ -1145,7 +1145,7 @@ class LoadGatherPattern : public OpConversionPattern<LoadGatherOp> {
     auto resultTy = cast<VectorType>(op.getType());
     auto newValue = genLoadIntrinsicCallWithC32BConversion(
         rewriter, loc, resultTy, simd_lanes, op.getMask(), l1hint, l3hint,
-        elemTy, chunkSize, tdescTy.getMemorySpace(), adaptor.getTensorDesc());
+        elemTy, chunkSize, tdescTy.getMemorySpace(), adaptor.getSource());
 
     // transpose the result because of the difference between hardware
     // implementation and the XeGPU definition.
@@ -1200,7 +1200,7 @@ class PrefetchPattern : public OpConversionPattern<PrefetchOp> {
 
     auto callOp = genPrefetchIntrinsicCall(rewriter, loc, simd_lanes, l1hint,
                                            l3hint, elemTy, chunkSize, scope,
-                                           adaptor.getTensorDesc());
+                                           adaptor.getSource());
 
     rewriter.replaceOp(op, callOp);
     return success();
@@ -1257,7 +1257,7 @@ class StoreScatterPattern : public OpConversionPattern<StoreScatterOp> {
     }
     auto callOp = genStoreIntrinsicCallWithC32BConversion(
         rewriter, loc, simd_lanes, op.getMask(), l1hint, l3hint, elemTy,
-        chunkSize, tdescTy.getMemorySpace(), adaptor.getTensorDesc(), data);
+        chunkSize, tdescTy.getMemorySpace(), adaptor.getDest(), data);
 
     rewriter.replaceOp(op, callOp);
     return success();
 
@@ -461,20 +461,24 @@ class LoadStoreToXeVMPattern : public OpConversionPattern<OpType> {
     auto tdesc = op.getTensorDescType();
     auto ptrTypeLLVM = LLVM::LLVMPointerType::get(
         ctxt, getNumericXeVMAddrSpace(tdesc.getMemorySpace()));
-    Value basePtrI64 = rewriter.create<arith::IndexCastOp>(
-        loc, rewriter.getI64Type(), adaptor.getTensorDesc());
-    Value basePtrLLVM =
-        rewriter.create<LLVM::IntToPtrOp>(loc, ptrTypeLLVM, basePtrI64);
     VectorType srcOrDstVecTy = cast<VectorType>(op.getValue().getType());
     VectorType srcOrDstFlatVecTy = VectorType::get(
         srcOrDstVecTy.getNumElements(), srcOrDstVecTy.getElementType());
     if constexpr (std::is_same_v<OpType, LoadGatherOp>) {
+      Value basePtrI64 = rewriter.create<arith::IndexCastOp>(
+          loc, rewriter.getI64Type(), adaptor.getSource());
+      Value basePtrLLVM =
+          rewriter.create<LLVM::IntToPtrOp>(loc, ptrTypeLLVM, basePtrI64);
       Value loaded =
           rewriter.create<LLVM::LoadOp>(loc, srcOrDstFlatVecTy, basePtrLLVM);
       auto newOp =
           rewriter.create<vector::ShapeCastOp>(loc, srcOrDstVecTy, loaded);
       rewriter.replaceOp(op, newOp);
     } else {
+      Value basePtrI64 = rewriter.create<arith::IndexCastOp>(
+          loc, rewriter.getI64Type(), adaptor.getDest());
+      Value basePtrLLVM =
+          rewriter.create<LLVM::IntToPtrOp>(loc, ptrTypeLLVM, basePtrI64);
       Value srcFlatVec = rewriter.create<vector::ShapeCastOp>(
           loc, srcOrDstFlatVecTy, op.getValue());
       rewriter.create<LLVM::StoreOp>(loc, srcFlatVec, basePtrLLVM);
@@ -495,7 +499,7 @@ class PrefetchToXeVMPattern : public OpConversionPattern<xegpu::PrefetchOp> {
     auto ptrTypeLLVM = LLVM::LLVMPointerType::get(
         ctxt, getNumericXeVMAddrSpace(tdescTy.getMemorySpace()));
     Value basePtrI64 = rewriter.create<arith::IndexCastOp>(
-        loc, rewriter.getI64Type(), adaptor.getTensorDesc());
+        loc, rewriter.getI64Type(), adaptor.getSource());
     Value ptrLLVM =
         rewriter.create<LLVM::IntToPtrOp>(loc, ptrTypeLLVM, basePtrI64);
     rewriter.create<xevm::PrefetchOp>(
 
@@ -492,6 +492,7 @@ class LoadOpPattern : public OpConversionPattern<xetile::LoadTileOp> {
     auto transAttr = DenseI64ArrayAttr();
     auto bitWidthAttr = IntegerAttr();
     auto ldOp = rewriter.create<xegpu::LoadNdOp>(loc, vecTy, adaptor.getTile(),
+                                                 ValueRange(), DenseI64ArrayAttr(),
                                                  packAttr, transAttr,
                                                  bitWidthAttr, L1, L2, L3);
Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-9f733f4324412ef89cc7729bf027cdcab912ceff`
	`1`	`+228e96b28a84828e1720c387a339a7e68dbdc029`