Support get_global_linear_id in continuous memory access analysis.

ppogotov · igcbot · commit 39c1593ede2f · 2024-12-02T20:40:47.000+01:00
Allow use of the sub instruction when analyzing continuous memory accesses.
diff --git a/IGC/Compiler/CISACodeGen/EmitVISAPass.cpp b/IGC/Compiler/CISACodeGen/EmitVISAPass.cpp
@@ -6788,9 +6788,11 @@ uint32_t EmitPass::getReqBlkBitsForBlockStLd(CallInst *call) {
     if (set.hasAttribute("alignmentrequirements")) {
         llvm::Attribute attr = set.getAttribute("alignmentrequirements");
         llvm::StringRef attrValue = attr.getValueAsString();
-        // 4-byte alignment is requied
+        // Get required alignment from metadata.
         if (attrValue == "4") {
             return 32;
+        } else if (attrValue == "8") {
+            return 64;
         }
     }
 
diff --git a/IGC/Compiler/CISACodeGen/GenerateBlockMemOpsPass.cpp b/IGC/Compiler/CISACodeGen/GenerateBlockMemOpsPass.cpp
@@ -49,7 +49,6 @@ bool GenerateBlockMemOpsPass::runOnFunction(Function &F) {
         return false;
 
     bool Changed = false;
-
     // Load / store instructions which are not in code divergence and can be optimized.
     SmallVector<Instruction*, 32> LoadStoreToProcess;
     // Load / store instructions which are inside the loop and can be optimized.
@@ -94,7 +93,6 @@ bool GenerateBlockMemOpsPass::runOnFunction(Function &F) {
             } else if (Loop *L = LI->getLoopFor(I.getParent())) {
                 // In some cases IGC can't proof that there is no code divergence in the loop.
                 // Handle these cases here.
-
                 // Check that the loop has been already analyzed.
                 if (LoadStoreInLoop.find(L) == LoadStoreInLoop.end()) {
                     if (!isLoopPattern(L))
@@ -515,12 +513,12 @@ bool GenerateBlockMemOpsPass::doesLoopHaveExternUse(Loop *L) {
     return false;
 }
 
-bool GenerateBlockMemOpsPass::isAddressAligned(Value *Ptr, const alignment_t &CurrentAlignment, Type *DataType) {
+bool GenerateBlockMemOpsPass::isDataTypeSupported(Value *Ptr, Type *DataType) {
     unsigned ScalarSize = DataType->getScalarSizeInBits();
 
     // The list of possible alignments should be expanded.
     if (CGCtx->platform.isProductChildOf(IGFX_PVC))
-        if ((ScalarSize == 32) && (CurrentAlignment == 4))
+        if (ScalarSize == 32 || ScalarSize == 64)
             return true;
 
     return false;
@@ -569,17 +567,19 @@ bool GenerateBlockMemOpsPass::isIndexContinuous(Value *Indx) {
                 }
                 VisitedPhi = Phi;
             } else if (Instruction *Inst = dyn_cast<Instruction>(NonUnifOp)) {
-                if (Inst->getOpcode() != Instruction::Add)
+                if (Inst->getOpcode() != Instruction::Add && Inst->getOpcode() != Instruction::Sub)
                     return false;
 
                 Value *Op0 = Inst->getOperand(0);
                 Value *Op1 = Inst->getOperand(1);
 
-
                 if (!WI->isUniform(Op1) && !WI->isUniform(Op0))
                     return false;
 
                 if (WI->isUniform(Op0)) {
+                    if (Inst->getOpcode() == Instruction::Sub)
+                        return false;
+
                     NonUniformInstVector.push_back(Op1);
                 } else {
                     NonUniformInstVector.push_back(Op0);
@@ -629,25 +629,22 @@ bool GenerateBlockMemOpsPass::canOptLoadStore(Instruction *I) {
     Value *Ptr = nullptr;
     Value *ValOp = nullptr;
     Type *DataType = nullptr;
-    alignment_t CurrentAlignment = 0;
 
     if (LoadInst *LI = dyn_cast<LoadInst>(I)) {
         Ptr = LI->getPointerOperand();
-        CurrentAlignment = IGCLLVM::getAlignmentValue(LI);
         DataType = cast<Value>(LI)->getType();
     } else {
         StoreInst* SI = cast<StoreInst>(I);
         Ptr = SI->getPointerOperand();
         ValOp = SI->getValueOperand();
-        CurrentAlignment = IGCLLVM::getAlignmentValue(SI);
         DataType = ValOp->getType();
     }
 
     if (DataType->isVectorTy())
         return false;
 
     // Need to check what alignment block load/store requires for the specific architecture.
-    if (!isAddressAligned(Ptr, CurrentAlignment, DataType))
+    if (!isDataTypeSupported(Ptr, DataType))
         return false;
 
     // Get the last index from the getelementptr instruction if it is not uniform in the subgroup.
diff --git a/IGC/Compiler/CISACodeGen/GenerateBlockMemOpsPass.hpp b/IGC/Compiler/CISACodeGen/GenerateBlockMemOpsPass.hpp
@@ -44,7 +44,7 @@ class GenerateBlockMemOpsPass : public llvm::FunctionPass
         llvm::Value *checkGep(llvm::Instruction *Gep);
         bool isLocalIdX(const llvm::Value *InputVal);
         bool isR0(const llvm::Value *InputVal);
-        bool isAddressAligned(llvm::Value *Ptr, const alignment_t &CurrentAlignment, llvm::Type *DataType);
+        bool isDataTypeSupported(llvm::Value *Ptr, llvm::Type *DataType);
         bool isIndexContinuous(llvm::Value *Addr);
         bool checkVectorizationAlongX(llvm::Function *F);
         bool checkLoopPhiVals(llvm::Loop *L);
diff --git a/IGC/Compiler/tests/GenerateBlockMemOpsPass/block_read_write_check-typed-pointers.ll b/IGC/Compiler/tests/GenerateBlockMemOpsPass/block_read_write_check-typed-pointers.ll
@@ -10,6 +10,9 @@
 ; RUN: igc_opt %s -S -o - -generate-block-mem-ops -platformpvc | FileCheck %s
 
 define spir_kernel void @testYZUnif(float addrspace(1)* %out, float addrspace(1)* %in, <8 x i32> %r0, <8 x i32> %payloadHeader, <3 x i32> %localSize, i16 %localIdX, i16 %localIdY, i16 %localIdZ, i32 %bufferOffset, i32 %bufferOffset1) {
+
+; CHECK-LABEL: @testYZUnif(
+
 entry:
   %0 = extractelement <3 x i32> %localSize, i64 0
   %1 = extractelement <3 x i32> %localSize, i64 1
@@ -24,12 +27,12 @@ entry:
   %arrayidx = getelementptr inbounds float, float addrspace(1)* %in, i64 %conv.i
   %2 = load float, float addrspace(1)* %arrayidx, align 4
 
-  ; CHECK: [[TMP0:%.*]] = call float @llvm.genx.GenISA.simdBlockRead.f32.p1f32(float addrspace(1)* %arrayidx) [[ATTR_NUM:#.*]]
+  ; CHECK: [[TMP0:%.*]] = call float @llvm.genx.GenISA.simdBlockRead.f32.p1f32(float addrspace(1)* %arrayidx) [[ATTR_NUM1:#.*]]
 
   %arrayidx1 = getelementptr inbounds float, float addrspace(1)* %out, i64 %conv.i
   store float %2, float addrspace(1)* %arrayidx1, align 4
 
-  ; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1f32.f32(float addrspace(1)* %arrayidx1, float [[TMP0]]) [[ATTR_NUM]]
+  ; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1f32.f32(float addrspace(1)* %arrayidx1, float [[TMP0]]) [[ATTR_NUM1]]
 
   ret void
 }
@@ -68,11 +71,41 @@ entry:
 
 }
 
+; Check that 8-byte block loads/writes are supproted by the optimization.
+
+define spir_kernel void @test8ByteBlockOps(double addrspace(1)* align 8 %0, double addrspace(1)* align 8 %1, <8 x i32> %r0, <8 x i32> %payloadHeader, <3 x i32> %enqueuedLocalSize, i16 %localIdX, i16 %localIdY, i16 %localIdZ, i32 %bufferOffset, i32 %bufferOffset1) {
+
+  ; CHECK-LABEL: @test8ByteBlockOps(
+
+entry:
+  %extr1 = extractelement <8 x i32> %payloadHeader, i64 0
+  %extr2 = extractelement <8 x i32> %r0, i64 1
+  %shl1 = shl i32 %extr2, 5
+  %localIdX2 = zext i16 %localIdX to i32
+  %add1 = add i32 %shl1, %localIdX2
+  %add2 = add i32 %add1, %extr1
+  %z1 = zext i32 %add1 to i64
+  %z2 = zext i32 %extr1 to i64
+  %sub1 = sub nsw i64 %z1, %z2
+  %gep1 = getelementptr inbounds double, double addrspace(1)* %0, i64 %sub1
+  %ld1 = load double, double addrspace(1)* %gep1, align 8
+
+  ; CHECK: [[TMP1:%.*]] = call double @llvm.genx.GenISA.simdBlockRead.f64.p1f64(double addrspace(1)* %gep1) [[ATTR_NUM2:#.*]]
+
+  %gep2 = getelementptr inbounds double, double addrspace(1)* %1, i64 %sub1
+  store double %ld1, double addrspace(1)* %gep2, align 8
+
+  ; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1f64.f64(double addrspace(1)* %gep2, double [[TMP1]]) [[ATTR_NUM2]]
+
+  ret void
+}
+
 define spir_kernel void @testYZUnifLoop(float addrspace(1)* %out, float addrspace(1)* %in, <8 x i32> %r0, <8 x i32> %payloadHeader, <3 x i32> %localSize, i16 %localIdX, i16 %localIdY, i16 %localIdZ, i32 %bufferOffset, i64 %limit) {
+; CHECK-LABEL: @testYZUnifLoop(
 ; CHECK: %{{.*}} = load
 ; CHECK: store
-; CHECK: [[TMP0:%.*]] = call float @llvm.genx.GenISA.simdBlockRead.f32.p1f32(float addrspace(1)* %{{.*}}) [[ATTR_NUM]]
-; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1f32.f32(float addrspace(1)* %{{.*}}, float [[TMP0]]) [[ATTR_NUM]]
+; CHECK: [[TMP0:%.*]] = call float @llvm.genx.GenISA.simdBlockRead.f32.p1f32(float addrspace(1)* %{{.*}}) [[ATTR_NUM1]]
+; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1f32.f32(float addrspace(1)* %{{.*}}, float [[TMP0]]) [[ATTR_NUM1]]
 entry:
   %offset = extractelement <8 x i32> %payloadHeader, i64 0
   %groupNumX = extractelement <8 x i32> %r0, i64 1
@@ -100,17 +133,20 @@ terminator:
   ret void
 }
 
-; CHECK: attributes #2 = { "alignmentrequirements"="4" }
+; CHECK: attributes [[ATTR_NUM1]] = { "alignmentrequirements"="4" }
+; CHECK: attributes [[ATTR_NUM2]] = { "alignmentrequirements"="8" }
 
-!igc.functions = !{!1, !2, !3}
+!igc.functions = !{!1, !2, !3, !4}
 !IGCMetadata = !{!19}
 
 !1 = !{void (float addrspace(1)*, float addrspace(1)*, <8 x i32>, <8 x i32>, <3 x i32>, i16, i16, i16, i32, i32)* @testYZUnif, !41}
 !2 = !{void (float addrspace(1)*, float addrspace(1)*, <8 x i32>, <8 x i32>, <3 x i32>, i16, i16, i16, i32, i32)* @testNoUnif, !42}
 !3 = !{void (float addrspace(1)*, float addrspace(1)*, <8 x i32>, <8 x i32>, <3 x i32>, i16, i16, i16, i32, i64)* @testYZUnifLoop, !43}
+!4 = !{void (double addrspace(1)*, double addrspace(1)*, <8 x i32>, <8 x i32>, <3 x i32>, i16, i16, i16, i32, i32)* @test8ByteBlockOps, !44}
 !41 = !{!5, !6, !17}
 !42 = !{!5, !6}
 !43 = !{!5, !6, !17}
+!44 = !{!5, !6, !17}
 !5 = !{!"function_type", i32 0}
 !6 = !{!"implicit_arg_desc", !7, !8, !9, !10, !11, !12, !13, !15}
 !7 = !{i32 0}
@@ -125,22 +161,24 @@ terminator:
 !16 = !{!"explicit_arg_num", i32 1}
 
 ; This metadata provides information about the size of the work group.
-; The IGC can generate block memory instructions only if data access is contiguous across the workgroup.
+; IGC can generate block memory instructions only if data access is contiguous across the workgroup.
 ; This requires that the workgroup be completely vectorized along the x-axis, in other words local_size_x % 32 == 0 (case !17).
 
 !17 = !{!"thread_group_size", i32 32, i32 32, i32 32}
 
-; IGC cannot apply the optimization in the !18 case because local_size_x % 32 != 0.
+; IGC cannot apply the optimization in the !18 case because local_size_x % 32 (simd size) != 0.
 
 !18 = !{!"thread_group_size", i32 16, i32 32, i32 32}
 !19 = !{!"ModuleMD", !112}
-!112 = !{!"FuncMD", !113, !114, !333, !334, !335, !336}
+!112 = !{!"FuncMD", !113, !114, !333, !334, !335, !336, !337, !338}
 !113 = !{!"FuncMDMap[0]", void (float addrspace(1)*, float addrspace(1)*, <8 x i32>, <8 x i32>, <3 x i32>, i16, i16, i16, i32, i32)* @testYZUnif}
 !114 = !{!"FuncMDValue[0]", !116}
 !333 = !{!"FuncMDMap[1]", void (float addrspace(1)*, float addrspace(1)*, <8 x i32>, <8 x i32>, <3 x i32>, i16, i16, i16, i32, i32)* @testNoUnif}
 !334 = !{!"FuncMDValue[1]", !116}
 !335 = !{!"FuncMDMap[2]", void (float addrspace(1)*, float addrspace(1)*, <8 x i32>, <8 x i32>, <3 x i32>, i16, i16, i16, i32, i64)* @testYZUnifLoop}
 !336 = !{!"FuncMDValue[2]", !116}
+!337 = !{!"FuncMDMap[3]", void (double addrspace(1)*, double addrspace(1)*, <8 x i32>, <8 x i32>, <3 x i32>, i16, i16, i16, i32, i32)* @test8ByteBlockOps}
+!338 = !{!"FuncMDValue[3]", !116}
 !116 = !{!"workGroupWalkOrder", !117, !118, !119}
 !117 = !{!"dim0", i32 0}
 !118 = !{!"dim1", i32 1}
diff --git a/IGC/Compiler/tests/GenerateBlockMemOpsPass/block_read_write_check.ll b/IGC/Compiler/tests/GenerateBlockMemOpsPass/block_read_write_check.ll
@@ -11,6 +11,9 @@
 ; RUN: igc_opt --opaque-pointers %s -S -o - -generate-block-mem-ops -platformpvc | FileCheck %s
 
 define spir_kernel void @testYZUnif(ptr addrspace(1) %out, ptr addrspace(1) %in, <8 x i32> %r0, <8 x i32> %payloadHeader, <3 x i32> %localSize, i16 %localIdX, i16 %localIdY, i16 %localIdZ, i32 %bufferOffset, i32 %bufferOffset1) {
+
+; CHECK-LABEL: @testYZUnif(
+
 entry:
   %0 = extractelement <3 x i32> %localSize, i64 0
   %1 = extractelement <3 x i32> %localSize, i64 1
@@ -25,12 +28,12 @@ entry:
   %arrayidx = getelementptr inbounds float, ptr addrspace(1) %in, i64 %conv.i
   %2 = load float, ptr addrspace(1) %arrayidx, align 4
 
-  ; CHECK: [[TMP0:%.*]] = call float @llvm.genx.GenISA.simdBlockRead.f32.p1(ptr addrspace(1) %arrayidx) [[ATTR_NUM:#.*]]
+  ; CHECK: [[TMP0:%.*]] = call float @llvm.genx.GenISA.simdBlockRead.f32.p1(ptr addrspace(1) %arrayidx) [[ATTR_NUM1:#.*]]
 
   %arrayidx1 = getelementptr inbounds float, ptr addrspace(1) %out, i64 %conv.i
   store float %2, ptr addrspace(1) %arrayidx1, align 4
 
-  ; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1.f32(ptr addrspace(1) %arrayidx1, float [[TMP0]]) [[ATTR_NUM]]
+  ; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1.f32(ptr addrspace(1) %arrayidx1, float [[TMP0]]) [[ATTR_NUM1]]
 
   ret void
 }
@@ -65,15 +68,47 @@ entry:
 
   ret void
 
-; CHECK: ret void
+  ; CHECK: ret void
+
+}
+
+; Check that 8-byte block loads/writes are supproted by the optimization.
+
+define spir_kernel void @test8ByteBlockOps(ptr addrspace(1) %0, ptr addrspace(1) %1, <8 x i32> %r0, <8 x i32> %payloadHeader, <3 x i32> %enqueuedLocalSize, i16 %localIdX, i16 %localIdY, i16 %localIdZ, i32 %bufferOffset, i32 %bufferOffset1) {
+
+  ; CHECK-LABEL: @test8ByteBlockOps(
+
+entry:
+  %extr1 = extractelement <8 x i32> %payloadHeader, i64 0
+  %extr2 = extractelement <8 x i32> %r0, i64 1
+  %shl1 = shl i32 %extr2, 5
+  %localIdX2 = zext i16 %localIdX to i32
+  %add1 = add i32 %shl1, %localIdX2
+  %add2 = add i32 %add1, %extr1
+  %z1 = zext i32 %add1 to i64
+  %z2 = zext i32 %extr1 to i64
+  %sub1 = sub nsw i64 %z1, %z2
+  %gep1 = getelementptr inbounds double, ptr addrspace(1) %0, i64 %sub1
+  %ld1 = load double, ptr addrspace(1) %gep1, align 8
+
+  ; CHECK: [[TMP1:%.*]] = call double @llvm.genx.GenISA.simdBlockRead.f64.p1(ptr addrspace(1) %gep1) [[ATTR_NUM2:#.*]]
+
+  %gep2 = getelementptr inbounds double, ptr addrspace(1) %1, i64 %sub1
+  store double %ld1, ptr addrspace(1) %gep2, align 8
+
+  ; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1.f64(ptr addrspace(1) %gep2, double [[TMP1]]) [[ATTR_NUM2]]
 
+  ret void
 }
 
 define spir_kernel void @testYZUnifLoop(ptr addrspace(1) %out, ptr addrspace(1) %in, <8 x i32> %r0, <8 x i32> %payloadHeader, <3 x i32> %localSize, i16 %localIdX, i16 %localIdY, i16 %localIdZ, i32 %bufferOffset, i64 %limit) {
+
+; CHECK-LABEL: @testYZUnifLoop(
 ; CHECK: %{{.*}} = load
 ; CHECK: store
-; CHECK: [[TMP0:%.*]] = call float @llvm.genx.GenISA.simdBlockRead.f32.p1(ptr addrspace(1) %{{.*}}) [[ATTR_NUM]]
-; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1.f32(ptr addrspace(1) %{{.*}}, float [[TMP0]]) [[ATTR_NUM]]
+; CHECK: [[TMP0:%.*]] = call float @llvm.genx.GenISA.simdBlockRead.f32.p1(ptr addrspace(1) %{{.*}}) [[ATTR_NUM1]]
+; CHECK: call void @llvm.genx.GenISA.simdBlockWrite.p1.f32(ptr addrspace(1) %{{.*}}, float [[TMP0]]) [[ATTR_NUM1]]
+
 entry:
   %offset = extractelement <8 x i32> %payloadHeader, i64 0
   %groupNumX = extractelement <8 x i32> %r0, i64 1
@@ -101,17 +136,21 @@ terminator:
   ret void
 }
 
-; CHECK: attributes #2 = { "alignmentrequirements"="4" }
+; CHECK: attributes [[ATTR_NUM1]] = { "alignmentrequirements"="4" }
+; CHECK: attributes [[ATTR_NUM2]] = { "alignmentrequirements"="8" }
+
 
-!igc.functions = !{!1, !2, !3}
+!igc.functions = !{!1, !2, !3, !4}
 !IGCMetadata = !{!19}
 
 !1 = !{ptr @testYZUnif, !41}
 !2 = !{ptr @testNoUnif, !42}
 !3 = !{ptr @testYZUnifLoop, !43}
+!4 = !{ptr @test8ByteBlockOps, !44}
 !41 = !{!5, !6, !17}
 !42 = !{!5, !6}
 !43 = !{!5, !6, !17}
+!44 = !{!5, !6, !17}
 !5 = !{!"function_type", i32 0}
 !6 = !{!"implicit_arg_desc", !7, !8, !9, !10, !11, !12, !13, !15}
 !7 = !{i32 0}
@@ -135,13 +174,15 @@ terminator:
 
 !18 = !{!"thread_group_size", i32 16, i32 32, i32 32}
 !19 = !{!"ModuleMD", !112}
-!112 = !{!"FuncMD", !113, !114, !333, !334, !335, !336}
+!112 = !{!"FuncMD", !113, !114, !333, !334, !335, !336, !337, !338}
 !113 = !{!"FuncMDMap[0]", ptr @testYZUnif}
 !114 = !{!"FuncMDValue[0]", !116}
 !333 = !{!"FuncMDMap[1]", ptr @testNoUnif}
 !334 = !{!"FuncMDValue[1]", !116}
 !335 = !{!"FuncMDMap[2]", ptr @testYZUnifLoop}
 !336 = !{!"FuncMDValue[2]", !116}
+!337 = !{!"FuncMDMap[3]", ptr @test8ByteBlockOps}
+!338 = !{!"FuncMDValue[3]", !116}
 !116 = !{!"workGroupWalkOrder", !117, !118, !119}
 !117 = !{!"dim0", i32 0}
 !118 = !{!"dim1", i32 1}