bug fixes

Jianhui-Li · Jianhui-Li · commit 9f9744cecbd3 · 2025-10-09T02:00:49.000Z
diff --git a/mlir/lib/Conversion/XeGPUToXeVM/XeGPUToXeVM.cpp b/mlir/lib/Conversion/XeGPUToXeVM/XeGPUToXeVM.cpp
@@ -33,8 +33,6 @@
 
 #include <numeric>
 
-#define DEBUG_TYPE "xegpu-to-xevm"
-
 namespace mlir {
 #define GEN_PASS_DEF_CONVERTXEGPUTOXEVMPASS
 #include "mlir/Conversion/Passes.h.inc"
@@ -519,29 +517,17 @@ class CreateMemDescOpPattern final
   LogicalResult
   matchAndRewrite(xegpu::CreateMemDescOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override {
-    // DEBUG: Print operation and types
-    LLVM_DEBUG(llvm::dbgs()
-               << "[XeGPUToXeVM] Lowering CreateMemDescOp: " << op << "\n");
     TypedValue<MemRefType> src = op.getSource();
     auto resTy = cast<xegpu::MemDescType>(op.getResult().getType());
 
     // Create the result MemRefType with the same shape, element type, and
     // memory space
     auto newResTy = getTypeConverter()->convertType<MemRefType>(resTy);
 
-    LLVM_DEBUG(llvm::dbgs()
-               << "[XeGPUToXeVM] Source MemRefType: " << src.getType() << "\n");
-    LLVM_DEBUG(llvm::dbgs()
-               << "[XeGPUToXeVM] Result MemDescType: " << resTy << "\n");
-    LLVM_DEBUG(llvm::dbgs()
-               << "[XeGPUToXeVM] Converted MemRefType: " << newResTy << "\n");
     Value zero = arith::ConstantIndexOp::create(rewriter, op.getLoc(), 0);
     auto viewOp = memref::ViewOp::create(rewriter, op.getLoc(), newResTy,
                                          Value(src), zero, ValueRange());
     rewriter.replaceOp(op, viewOp);
-    LLVM_DEBUG(
-        llvm::dbgs()
-        << "[XeGPUToXeVM] Replaced CreateMemDescOp with memref::ViewOp\n");
     return success();
   }
 };
@@ -635,16 +621,33 @@ class LoadStoreMatrixToXeVMPattern : public OpConversionPattern<OpType> {
       // if the attribute 'subgroup_block_io' is set to true, it lowers to
       // xevm.blockload
       auto subgroupBlockIoAttr = op.getSubgroupBlockIoAttr();
-      bool subgroup_block_io =
-          subgroupBlockIoAttr && cast<BoolAttr>(subgroupBlockIoAttr).getValue();
+      bool subgroup_block_io = static_cast<bool>(subgroupBlockIoAttr);
+
+      // BlockLoadOp only supports integer types, so we need to bitcast
+      // Get integer type with matching bit width
+      Type elemTy = valOrResVecTy.getElementType();
+      int64_t bitWidth = elemTy.getIntOrFloatBitWidth();
+      Type intElemTy = rewriter.getIntegerType(bitWidth);
+      VectorType intVecTy =
+          VectorType::get(valOrResVecTy.getShape(), intElemTy);
+
       if (subgroup_block_io) {
         if constexpr (std::is_same_v<OpType, xegpu::LoadMatrixOp>) {
-          Value loadOp = xevm::BlockLoadOp::create(rewriter, loc, valOrResVecTy,
-                                                   basePtrLLVM);
+          Value loadOp =
+              xevm::BlockLoadOp::create(rewriter, loc, intVecTy, basePtrLLVM);
+          if (intVecTy != valOrResVecTy) {
+            loadOp =
+                vector::BitCastOp::create(rewriter, loc, valOrResVecTy, loadOp);
+          }
           rewriter.replaceOp(op, loadOp);
         } else {
-          xevm::BlockStoreOp::create(rewriter, loc, basePtrLLVM,
-                                     adaptor.getData(), nullptr);
+          Value dataToStore = adaptor.getData();
+          if (valOrResVecTy != intVecTy) {
+            dataToStore =
+                vector::BitCastOp::create(rewriter, loc, intVecTy, dataToStore);
+          }
+          xevm::BlockStoreOp::create(rewriter, loc, basePtrLLVM, dataToStore,
+                                     nullptr);
           rewriter.eraseOp(op);
         }
       } else {
diff --git a/mlir/lib/Dialect/XeGPU/IR/XeGPUDialect.cpp b/mlir/lib/Dialect/XeGPU/IR/XeGPUDialect.cpp
@@ -37,8 +37,6 @@ void XeGPUDialect::initialize() {
       >();
 }
 
-#define DEBUG_TYPE "xegpu"
-
 /// Generates instructions to compute offsets for a subgroup identified by
 /// its multidimensional indices (sgId), using the specified subgroup layout
 /// (sgLayout), subgroup data dimensions (sizePerSg), and the overall data
@@ -788,56 +786,21 @@ SmallVector<int64_t> MemDescType::getStrides() {
     strides.push_back(cast<IntegerAttr>(attr).getInt());
   }
 
-  llvm::dbgs() << "DEBUG: matrixShape = [";
-  for (size_t i = 0; i < matrixShape.size(); ++i) {
-    llvm::dbgs() << matrixShape[i];
-    if (i < matrixShape.size() - 1)
-      llvm::dbgs() << ", ";
-  }
-  llvm::dbgs() << "]\n";
-
-  llvm::dbgs() << "DEBUG: strides = [";
-  for (size_t i = 0; i < strides.size(); ++i) {
-    llvm::dbgs() << strides[i];
-    if (i < strides.size() - 1)
-      llvm::dbgs() << ", ";
-  }
-  llvm::dbgs() << "]\n";
-
   SmallVector<int64_t> innerBlkShape = getBlockSize();
-  llvm::dbgs() << "DEBUG: innerBlkShape = [";
-  for (size_t i = 0; i < innerBlkShape.size(); ++i) {
-    llvm::dbgs() << innerBlkShape[i];
-    if (i < innerBlkShape.size() - 1)
-      llvm::dbgs() << ", ";
-  }
-  llvm::dbgs() << "]\n";
 
   // get perm from FCD to LCD
   // perm[i] = the dim with i-th smallest stride
   SmallVector<int, 4> perm =
       llvm::to_vector<4>(llvm::seq<int>(0, strides.size()));
   llvm::sort(perm, [&](int a, int b) { return strides[a] < strides[b]; });
 
-  llvm::dbgs() << "DEBUG: perm = [";
-  for (size_t i = 0; i < perm.size(); ++i) {
-    llvm::dbgs() << perm[i];
-    if (i < perm.size() - 1)
-      llvm::dbgs() << ", ";
-  }
-  llvm::dbgs() << "]\n";
-
   assert(strides[perm[0]] == 1 && "inner most dim must have stride 1");
 
-  SmallVector<int64_t> innerBlkStride = computeStrides(innerBlkShape);
-
-  llvm::dbgs() << "DEBUG: innerBlkStride = [";
-  for (size_t i = 0; i < innerBlkStride.size(); ++i) {
-    llvm::dbgs() << innerBlkStride[i];
-    if (i < innerBlkStride.size() - 1)
-      llvm::dbgs() << ", ";
-  }
-  llvm::dbgs() << "]\n";
+  SmallVector<int64_t> innerBlkStride(innerBlkShape.size());
+  innerBlkStride[perm[0]] = 1;
+  for (size_t i = 1; i < perm.size(); ++i)
+    innerBlkStride[perm[i]] =
+        innerBlkStride[perm[i - 1]] * innerBlkShape[perm[i - 1]];
 
   // compute the original matrix shape using the stride info
   // and compute the number of blocks in each dimension
@@ -850,56 +813,22 @@ SmallVector<int64_t> MemDescType::getStrides() {
     BlkShapeOrig[perm[i]] = matrixShapeOrig[perm[i]] / innerBlkShape[perm[i]];
   }
 
-  llvm::dbgs() << "DEBUG: matrixShapeOrig = [";
-  for (size_t i = 0; i < matrixShapeOrig.size(); ++i) {
-    llvm::dbgs() << matrixShapeOrig[i];
-    if (i < matrixShapeOrig.size() - 1)
-      llvm::dbgs() << ", ";
-  }
-  llvm::dbgs() << "]\n";
-
-  llvm::dbgs() << "DEBUG: BlkShapeOrig = [";
-  for (size_t i = 0; i < BlkShapeOrig.size(); ++i) {
-    llvm::dbgs() << BlkShapeOrig[i];
-    if (i < BlkShapeOrig.size() - 1)
-      llvm::dbgs() << ", ";
-  }
-  llvm::dbgs() << "]\n";
-
   int64_t innerBlkSize = 1;
   for (auto s : innerBlkShape)
     innerBlkSize *= s;
 
-  llvm::dbgs() << "DEBUG: innerBlkSize = " << innerBlkSize << "\n";
-
   SmallVector<int64_t> outerBlkStride(matrixShape.size());
   outerBlkStride[perm[0]] = innerBlkSize;
   for (size_t i = 0; i < perm.size() - 1; ++i) {
     outerBlkStride[perm[i + 1]] =
         outerBlkStride[perm[i]] * BlkShapeOrig[perm[i]];
   }
 
-  llvm::dbgs() << "DEBUG: outerBlkStride = [";
-  for (size_t i = 0; i < outerBlkStride.size(); ++i) {
-    llvm::dbgs() << outerBlkStride[i];
-    if (i < outerBlkStride.size() - 1)
-      llvm::dbgs() << ", ";
-  }
-  llvm::dbgs() << "]\n";
-
   // combine the inner and outer strides
   SmallVector<int64_t> blockedStrides;
   blockedStrides.append(outerBlkStride.begin(), outerBlkStride.end());
   blockedStrides.append(innerBlkStride.begin(), innerBlkStride.end());
 
-  llvm::dbgs() << "DEBUG: blockedStrides = [";
-  for (size_t i = 0; i < blockedStrides.size(); ++i) {
-    llvm::dbgs() << blockedStrides[i];
-    if (i < blockedStrides.size() - 1)
-      llvm::dbgs() << ", ";
-  }
-  llvm::dbgs() << "]\n";
-
   return blockedStrides;
 }
 
@@ -911,12 +840,6 @@ Value MemDescType::getLinearOffsets(OpBuilder &builder, Location loc,
   SmallVector<int64_t> blockShape = getBlockSize();
   SmallVector<int64_t> strides = getStrides();
 
-  LLVM_DEBUG(llvm::dbgs() << "getLinearOffsets: blockShape=[";
-             llvm::interleaveComma(blockShape, llvm::dbgs());
-             llvm::dbgs() << "], strides=[";
-             llvm::interleaveComma(strides, llvm::dbgs());
-             llvm::dbgs() << "]\n");
-
   // blockshape equal to matrixshape means no blocking
   if (llvm::equal(blockShape, matrixShape)) {
     // remove the outer dims from strides
@@ -937,8 +860,6 @@ Value MemDescType::getLinearOffsets(OpBuilder &builder, Location loc,
     blockedOffsets.append(rems.begin(), rems.end());
 
     offsets = blockedOffsets;
-    LLVM_DEBUG(llvm::dbgs() << "getLinearOffsets: blocked offsets size="
-                            << offsets.size() << "\n");
   }
 
   // Start with initial value as matrix descriptor's base offset.
@@ -949,9 +870,6 @@ Value MemDescType::getLinearOffsets(OpBuilder &builder, Location loc,
     linearOffset = arith::AddIOp::create(builder, loc, mulVal, linearOffset);
   }
 
-  LLVM_DEBUG(llvm::dbgs() << "getLinearOffsets: final linearOffset="
-                          << linearOffset << "\n");
-
   return linearOffset;
 }
 
diff --git a/mlir/test/Conversion/XeGPUToXeVM/loadstore_matrix.mlir b/mlir/test/Conversion/XeGPUToXeVM/loadstore_matrix.mlir
@@ -55,7 +55,7 @@ gpu.module @test_kernel [#xevm.target<chip = "pvc">] {
   //CHECK-LABEL: load_store_matrix_5
   gpu.func @load_store_matrix_5(%arg0: memref<4096xi8, 3>) -> vector<8xf16> {
     %0 = xegpu.create_mem_desc %arg0 : memref<4096xi8, 3> -> !xegpu.mem_desc<32x64xf16, #xegpu.mem_layout<block = [16, 16]>>
-    //CHECK: llvm.load {{.*}} : !llvm.ptr<3> -> vector<8xf16>
+    //CHECK: xevm.blockload {{.*}} : (!llvm.ptr<3>) -> vector<8xi16> 
     %c16 = arith.constant 16 : index
     %c48 = arith.constant 48 : index
     %1 = xegpu.load_matrix %0[%c16, %c48] {subgroup_block_io}: !xegpu.mem_desc<32x64xf16, #xegpu.mem_layout<block = [16, 16]>>, index, index -> vector<8xf16>
diff --git a/mlir/test/Dialect/XeGPU/invalid.mlir b/mlir/test/Dialect/XeGPU/invalid.mlir
@@ -858,7 +858,7 @@ func.func @load_mem_desc_mismatch_element_type(%arg0: !xegpu.mem_desc<16x64xf16>
 
 // -----
 func.func @load_mem_desc_invalid_result_size(%arg0: !xegpu.mem_desc<16x64xf16>) {
-  // expected-error@+1 {{result shape must not exceed mem_desc shape}}
+  // expected-error@+1 {{data shape must not exceed mem_desc shape}}
   %data = xegpu.load_matrix %arg0[8, 8]: !xegpu.mem_desc<16x64xf16> -> vector<32x16xf16>
   return
 }

Original file line number	Diff line number	Diff line change
`@@ -858,7 +858,7 @@ func.func @load_mem_desc_mismatch_element_type(%arg0: !xegpu.mem_desc<16x64xf16>`
`858`	`858`
`859`	`859`	`// -----`
`860`	`860`	`func.func @load_mem_desc_invalid_result_size(%arg0: !xegpu.mem_desc<16x64xf16>) {`
`861`		`- // expected-error@+1 {{result shape must not exceed mem_desc shape}}`
	`861`	`+ // expected-error@+1 {{data shape must not exceed mem_desc shape}}`
`862`	`862`	`%data = xegpu.load_matrix %arg0[8, 8]: !xegpu.mem_desc<16x64xf16> -> vector<32x16xf16>`
`863`	`863`	`return`
`864`	`864`	`}`