Merge remote-tracking branch 'upstream/main'

leshikus · leshikus · commit 255c28e55030 · 2024-04-16T21:28:43.000Z
diff --git a/lib/Conversion/GPUToSPIRV/GPUToSPIRVPass.cpp b/lib/Conversion/GPUToSPIRV/GPUToSPIRVPass.cpp
@@ -338,15 +338,6 @@ void GPUXToSPIRVPass::runOnOperation() {
         if (rank < 1 || type.getNumElements() == 1)
           return elemType;
 
-        // load2d/store2d is 3-d with vnni format, and 4d with array_length
-        // TODO: what if load without any vnni? are we going to transform all
-        // fp16/bf16
-        auto factor = 32 / elemType.getIntOrFloatBitWidth();
-        if ((rank == 3 || rank == 4) && type.getShape()[rank - 1] == factor) {
-          elemType = ::mlir::IntegerType::get(context, 32);
-          rank--;
-        }
-
         unsigned sum = 1;
         for (unsigned i = 0; i < rank; i++) {
           sum *= type.getShape()[i];
diff --git a/lib/Conversion/XeGPUToSPIRV/XeGPUToSPIRV.cpp b/lib/Conversion/XeGPUToSPIRV/XeGPUToSPIRV.cpp
@@ -102,6 +102,20 @@ encodeVectorType(ConversionPatternRewriter &rewriter, VectorType type,
   auto newType = VectorType::get(size, elemType);
   return std::make_pair(str, newType);
 }
+
+/// @brief
+/// We have to use i32 for intrinsic calls like llvm_genx_raw_send2_*, if we
+/// want to get the original element type (e.g., f16) as the result of a load,
+/// we have to encode the resulting i32 vector back to it.
+VectorType encodeVectorTypeTo(VectorType currentVecType, Type toElemType) {
+  auto elemType = currentVecType.getElementType();
+  auto currentbitWidth = elemType.getIntOrFloatBitWidth();
+  auto newBitwidth = toElemType.getIntOrFloatBitWidth();
+  const int size =
+      currentVecType.getNumElements() * currentbitWidth / newBitwidth;
+  return VectorType::get(size, toElemType);
+}
+
 unsigned encodeDataum(Type type) {
   switch (type.getIntOrFloatBitWidth()) {
   case 8:
@@ -555,7 +569,17 @@ class LoadStorePrefetchNdToLsc : public OpConversionPattern<OpType> {
       auto funcOp =
           rewriter.create<spirv::FunctionCallOp>(loc, retType, funcName, args);
       if (rank == 2) {
-        rewriter.replaceOp(op, funcOp);
+        // Intrinsic accepts and returns i32 type, but we want to return a
+        // vector of the original element type
+        auto loadResultInOrigType =
+            encodeVectorTypeTo(retType, tileType.getElementType());
+        if (loadResultInOrigType != funcOp->getResult(0).getType()) {
+          auto cast = rewriter.create<spirv::BitcastOp>(
+              loc, loadResultInOrigType, funcOp->getResult(0));
+          rewriter.replaceOp(op, cast);
+        } else {
+          rewriter.replaceOp(op, funcOp);
+        }
       } else {
         auto cast = rewriter.create<spirv::BitcastOp>(loc, op.getType(),
                                                       funcOp->getResult(0));
@@ -745,7 +769,16 @@ class LoadStorePrefetchNdToRawSend : public OpConversionPattern<OpType> {
       auto funcOp =
           rewriter.create<spirv::FunctionCallOp>(loc, retType, funcName, args);
       if (rank == 2) {
-        rewriter.replaceOp(op, funcOp);
+        // Intrinsic accepts and returns i32 type, but we want to return a
+        // vector of the original element type
+        auto loadResultInOrigType = encodeVectorTypeTo(newType, elmType);
+        if (loadResultInOrigType != funcOp->getResult(0).getType()) {
+          auto cast = rewriter.create<spirv::BitcastOp>(
+              loc, loadResultInOrigType, funcOp->getResult(0));
+          rewriter.replaceOp(op, cast);
+        } else {
+          rewriter.replaceOp(op, funcOp);
+        }
       } else {
         auto cast = rewriter.create<spirv::BitcastOp>(loc, op.getType(),
                                                       funcOp->getResult(0));
@@ -804,8 +837,24 @@ class DpasToVCPattern : public OpConversionPattern<DpasOp> {
     auto infoAttr = rewriter.getIntegerAttr(rewriter.getI32Type(), infoVal);
     auto info = rewriter.create<spirv::ConstantOp>(loc, rewriter.getI32Type(),
                                                    infoAttr);
-    auto newResultType = encodeVectorType(rewriter, resultType).second;
-    SmallVector<Value, 4> args{adaptor.getRhs(), adaptor.getLhs(), info};
+
+    auto lhs = adaptor.getLhs();
+    auto rhs = adaptor.getRhs();
+    // Intrinsic accepts i32 type, therefore the element type should be casted
+    // to i32
+    auto [lhsName, lhsNewType] = encodeVectorType(rewriter, lhsType);
+    auto [rhsName, rhsNewType] = encodeVectorType(rewriter, rhsType);
+    auto [resultName, newResultType] = encodeVectorType(rewriter, resultType);
+
+    if (lhsNewType != adaptor.getLhs().getType()) {
+      lhs =
+          rewriter.create<spirv::BitcastOp>(loc, lhsNewType, adaptor.getLhs());
+    }
+    if (rhsNewType != adaptor.getRhs().getType()) {
+      rhs =
+          rewriter.create<spirv::BitcastOp>(loc, rhsNewType, adaptor.getRhs());
+    }
+    SmallVector<Value, 4> args{rhs, lhs, info};
     std::string funcName = "llvm_genx_dpas_nosrc0_";
     if (op.getAcc()) {
       funcName = "llvm_genx_dpas2_";
@@ -819,14 +868,14 @@ class DpasToVCPattern : public OpConversionPattern<DpasOp> {
       auto sdArg = createIntConstant(i32Type, sd);
       auto rcArg = createIntConstant(i32Type, rc);
       auto signless = createIntConstant(i32Type, 0);
-      args.assign({adaptor.getAcc(), adaptor.getRhs(), adaptor.getLhs(),
-                   prec1Arg, prec2Arg, sdArg, rcArg, signless, signless});
+      args.assign({adaptor.getAcc(), rhs, lhs, prec1Arg, prec2Arg, sdArg, rcArg,
+                   signless, signless});
     }
-    funcName += encodeVectorType(rewriter, resultType).first;
+    funcName += resultName;
     funcName += "_";
-    funcName += encodeVectorType(rewriter, rhsType).first;
+    funcName += rhsName;
     funcName += "_";
-    funcName += encodeVectorType(rewriter, lhsType).first;
+    funcName += lhsName;
     auto funcType =
         rewriter.getFunctionType(ValueRange(args).getTypes(), newResultType);
     Operation *opPtr = op;
diff --git a/test/Conversion/XeGPUToSPIRV/gemm_basic_preop.vc.mlir b/test/Conversion/XeGPUToSPIRV/gemm_basic_preop.vc.mlir
@@ -0,0 +1,100 @@
+// RUN: imex-opt -imex-convert-gpu-to-spirv='enable-vc-intrinsic=true'  %s | FileCheck %s
+// RUN: IMEX_NOT_PREFER_RAWSEND=1 imex-opt -imex-convert-gpu-to-spirv='enable-vc-intrinsic=true'  %s | FileCheck %s --check-prefix=LSC
+module @gemm attributes {gpu.container_module} {
+  memref.global "private" constant @__constant_8x16xf16 : memref<8x16xf16> = dense<5.000000e-01>
+  memref.global "private" constant @__constant_16x16xf16 : memref<16x16xf16> = dense<1.099610e+00>
+  func.func @test(%arg0: memref<8x16xf16>, %arg1: memref<16x16xf16>) -> memref<8x16xf32> attributes {llvm.emit_c_interface} {
+    %c1 = arith.constant 1 : index
+    %memref = gpu.alloc  host_shared () : memref<8x16xf16>
+    memref.copy %arg0, %memref : memref<8x16xf16> to memref<8x16xf16>
+    %memref_0 = gpu.alloc  host_shared () : memref<16x16xf16>
+    memref.copy %arg1, %memref_0 : memref<16x16xf16> to memref<16x16xf16>
+    %memref_1 = gpu.alloc  host_shared () : memref<8x16xf32>
+    gpu.launch_func  @test_kernel::@test_kernel blocks in (%c1, %c1, %c1) threads in (%c1, %c1, %c1) args(%memref : memref<8x16xf16>, %memref_0 : memref<16x16xf16>, %memref_1 : memref<8x16xf32>)
+    gpu.dealloc  %memref : memref<8x16xf16>
+    gpu.dealloc  %memref_0 : memref<16x16xf16>
+    return %memref_1 : memref<8x16xf32>
+  }
+  gpu.module @test_kernel attributes {spirv.target_env = #spirv.target_env<#spirv.vce<v1.4, [Addresses, Float16Buffer, Int64, Int16, Int8, Kernel, Linkage, Vector16, GenericPointer, Groups, Float16, Float64, AtomicFloat32AddEXT, ExpectAssumeKHR, SubgroupDispatch, VectorComputeINTEL, VectorAnyINTEL], [SPV_EXT_shader_atomic_float_add, SPV_KHR_expect_assume, SPV_INTEL_vector_compute]>, api=OpenCL, #spirv.resource_limits<>>} {
+    gpu.func @test_kernel(%A: memref<8x16xf16>, %B: memref<16x16xf16>, %C: memref<8x16xf32>) kernel attributes {VectorComputeFunctionINTEL, spirv.entry_point_abi = #spirv.entry_point_abi<>} {
+      // LSC: spirv.FunctionCall @llvm_genx_lsc_prefetch2d_stateless_i1_i64
+      // LSC: spirv.FunctionCall @llvm_genx_lsc_prefetch2d_stateless_i1_i64
+      // LSC: spirv.FunctionCall @llvm_genx_lsc_load2d_stateless_v64i32_i1_i64
+      // LSC: spirv.FunctionCall @llvm_genx_lsc_load2d_stateless_v128i32_i1_i64
+      // LSC: spirv.FunctionCall @llvm_genx_dpas_nosrc0_v128f32_v128i32_v64i32
+      // LSC: spirv.FunctionCall @llvm_genx_lsc_store2d_stateless_i1_i64_v128f32
+
+      // CHECK: %[[A_tile_desc_base:.*]] = spirv.ConvertPtrToU %arg0 : !spirv.ptr<!spirv.array<128 x f16>, CrossWorkgroup> to i64
+      // CHECK: %[[A_tile_payload_idx0:.*]] = spirv.VectorInsertDynamic %[[A_tile_desc_base]]
+      // CHECK: %[[A_tile_payload_idx0_i32:.*]] = spirv.Bitcast %[[A_tile_payload_idx0]] : vector<4xi64> to vector<8xi32>
+      // CHECK: %[[A_tile_payload_idx2:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[A_tile_payload_idx3:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[A_tile_payload_idx4:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[A_tile_payload_idx5:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[A_tile_payload_idx6:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[A_tile_payload_idx7:.*]] = spirv.VectorInsertDynamic
+
+      // CHECK: %[[B_tile_desc_base:.*]] = spirv.ConvertPtrToU %arg1 : !spirv.ptr<!spirv.array<256 x f16>, CrossWorkgroup> to i64
+      // CHECK: %[[B_tile_payload_idx0:.*]] = spirv.VectorInsertDynamic %[[B_tile_desc_base]]
+      // CHECK: %[[B_tile_payload_idx0_i32:.*]] = spirv.Bitcast %[[B_tile_payload_idx0]] : vector<4xi64> to vector<8xi32>
+      // CHECK: %[[B_tile_payload_idx2:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[B_tile_payload_idx3:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[B_tile_payload_idx4:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[B_tile_payload_idx5:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[B_tile_payload_idx6:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[B_tile_payload_idx7:.*]] = spirv.VectorInsertDynamic
+
+      // CHECK: %[[C_tile_desc_base:.*]] = spirv.ConvertPtrToU %arg2 : !spirv.ptr<!spirv.array<128 x f32>, CrossWorkgroup> to i64
+      // CHECK: %[[C_tile_payload_idx0:.*]] = spirv.VectorInsertDynamic %[[C_tile_desc_base]]
+      // CHECK: %[[C_tile_payload_idx0_i32:.*]] = spirv.Bitcast %[[C_tile_payload_idx0]] : vector<4xi64> to vector<8xi32>
+      // CHECK: %[[C_tile_payload_idx2:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[C_tile_payload_idx3:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[C_tile_payload_idx4:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[C_tile_payload_idx5:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[C_tile_payload_idx6:.*]] = spirv.VectorInsertDynamic
+      // CHECK: %[[C_tile_payload_idx7:.*]] = spirv.VectorInsertDynamic
+
+      // CHECK: spirv.FunctionCall @llvm_genx_raw_send2_noresult_i1_v8i32(%{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %[[A_tile_payload_idx7]])
+
+      // CHECK: spirv.FunctionCall @llvm_genx_raw_send2_noresult_i1_v8i32(%{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %[[B_tile_payload_idx7]])
+
+      // CHECK: %[[A_increment:.*]] = spirv.Constant dense<1.000000e+00> : vector<128xf16>
+
+      // CHECK: %[[A_i32:.*]] = spirv.FunctionCall @llvm_genx_raw_send2_v64i32_i1_v8i32(%{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %[[A_tile_payload_idx7]], %{{.*}})
+      // CHECK: %[[A_f16:.*]] = spirv.Bitcast %[[A_i32]] : vector<64xi32> to vector<128xf16>
+      // CHECK: %[[A_f16_inc:.*]] = spirv.FAdd %[[A_f16]], %[[A_increment]] : vector<128xf16>
+
+      // CHECK: %[[B_i32:.*]] = spirv.FunctionCall @llvm_genx_raw_send2_v128i32_i1_v8i32(%{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %[[B_tile_payload_idx7]], %{{.*}})
+      // CHECK: %[[B_f16:.*]] = spirv.Bitcast %[[B_i32]] : vector<128xi32> to vector<256xf16>
+
+      // CHECK: %[[A_back_i32:.*]] = spirv.Bitcast %[[A_f16_inc]] : vector<128xf16> to vector<64xi32>
+      // CHECK: %[[B_back_i32:.*]] = spirv.Bitcast %[[B_f16]] : vector<256xf16> to vector<128xi32>
+      // CHECK: %[[DPAS_RES:.*]] = spirv.FunctionCall @llvm_genx_dpas_nosrc0_v128f32_v128i32_v64i32(%[[B_back_i32]], %[[A_back_i32]], %{{.*}})
+
+      // CHECK: spirv.FunctionCall @llvm_genx_raw_sends2_noresult_i1_v8i32_v128f32(%{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %{{.*}}, %[[C_tile_payload_idx7]], %[[DPAS_RES]])
+      %A_tdesc = xegpu.create_nd_tdesc %A[0, 0] {mode = vc} : memref<8x16xf16> -> !xegpu.tensor_desc<8x16xf16>
+      %B_tdesc = xegpu.create_nd_tdesc %B[0, 0] {mode = vc} : memref<16x16xf16> -> !xegpu.tensor_desc<16x16xf16>
+      %C_tdesc = xegpu.create_nd_tdesc %C[0, 0] {mode = vc} : memref<8x16xf32> -> !xegpu.tensor_desc<8x16xf32>
+      xegpu.prefetch_nd %A_tdesc {mode = vc} : !xegpu.tensor_desc<8x16xf16>
+      xegpu.prefetch_nd %B_tdesc {mode = vc} : !xegpu.tensor_desc<16x16xf16>
+      %A_increment = arith.constant dense<1.0> : vector<128xf16>
+      %A_increment_ = vector.shape_cast %A_increment : vector<128xf16> to vector<8x8x2xf16>
+
+      %A_tensor = xegpu.load_nd %A_tdesc  {mode = vc, vnni_axis = 1} : !xegpu.tensor_desc<8x16xf16> -> vector<8x8x2xf16>
+      %A_tensor_incremented = arith.addf %A_tensor, %A_increment_ : vector<8x8x2xf16>
+      %B_tensor = xegpu.load_nd %B_tdesc  {mode = vc, vnni_axis = 0} : !xegpu.tensor_desc<16x16xf16> -> vector<8x16x2xf16>
+      %dpas_result = xegpu.dpas %A_tensor_incremented, %B_tensor {mode = vc} : vector<8x8x2xf16>, vector<8x16x2xf16> -> vector<8x16xf32>
+      xegpu.store_nd %dpas_result, %C_tdesc {mode = vc} : vector<8x16xf32>, !xegpu.tensor_desc<8x16xf32>
+      gpu.return
+    }
+  }
+  func.func @main() attributes {llvm.emit_c_interface} {
+    %0 = memref.get_global @__constant_8x16xf16 : memref<8x16xf16>
+    %1 = memref.get_global @__constant_16x16xf16 : memref<16x16xf16>
+    %2 = call @test(%0, %1) : (memref<8x16xf16>, memref<16x16xf16>) -> memref<8x16xf32>
+    %cast = memref.cast %2 : memref<8x16xf32> to memref<*xf32>
+    //call @printMemrefF32(%cast) : (memref<*xf32>) -> ()
+    return
+  }
+  func.func private @printMemrefF32(memref<*xf32>) attributes {llvm.emit_c_interface}
+}
diff --git a/test/Conversion/XeGPUToSPIRV/xegpu-to-vc.mlir b/test/Conversion/XeGPUToSPIRV/xegpu-to-vc.mlir
@@ -30,9 +30,11 @@ gpu.module @test attributes {spirv.target_env = #spirv.target_env<#spirv.vce<v1.
   // CHECK: -> vector<128xf32> "None" attributes {VectorComputeFunctionINTEL, linkage_attributes =
   // CHECK:  #spirv.linkage_attributes<linkage_name = "llvm.genx.dpas.nosrc0.v128f32.v128i32.v64i32", linkage_type = <Import>>}
   // CHECK-LABEL: spirv.func @dpas
-  // CHECK: (%[[A:.*]]: vector<64xi32>, %[[B:.*]]: vector<128xi32>)
+  // CHECK: (%[[A:.*]]: vector<128xf16>, %[[B:.*]]: vector<256xf16>)
   // CHECK-NEXT: %[[cst134744586_i32:.*]] = spirv.Constant 134744586 : i32
-  // CHECK-NEXT: %{{.*}} = spirv.FunctionCall @llvm_genx_dpas_nosrc0_v128f32_v128i32_v64i32(%[[B]], %[[A]], %[[cst134744586_i32]])
+  // CHECK-NEXT: %[[A_cast:.*]] = spirv.Bitcast %[[A]] : vector<128xf16> to vector<64xi32>
+  // CHECK-NEXT: %[[B_cast:.*]] = spirv.Bitcast %[[B]] : vector<256xf16> to vector<128xi32>
+  // CHECK-NEXT: %{{.*}} = spirv.FunctionCall @llvm_genx_dpas_nosrc0_v128f32_v128i32_v64i32(%[[B_cast]], %[[A_cast]], %[[cst134744586_i32]])
   // CHECK: (vector<128xi32>, vector<64xi32>, i32) -> vector<128xf32>
   gpu.func @dpas(%A : vector<8x8x2xf16>, %B : vector<8x16x2xf16>)
     kernel attributes {VectorComputeFunctionINTEL, spirv.entry_point_abi = #spirv.entry_point_abi<>} {
diff --git a/test/Integration/Dialect/XeGPU/preop_dpas.mlir b/test/Integration/Dialect/XeGPU/preop_dpas.mlir