Also hoist permlane64 through binary ops

Pierre-vh · Pierre-vh · commit e08fba5f05b0 · 2025-04-30T10:59:32.000+02:00
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUInstCombineIntrinsic.cpp b/llvm/lib/Target/AMDGPU/AMDGPUInstCombineIntrinsic.cpp
@@ -499,7 +499,6 @@ GCNTTIImpl::hoistLaneIntrinsicThroughOperand(InstCombiner &IC,
     return nullptr;
 
   const bool IsReadLane = (IID == Intrinsic::amdgcn_readlane);
-  const bool IsPermLane = (IID == Intrinsic::amdgcn_permlane64);
 
   // If this is a readlane, check that the second operand is a constant, or is
   // defined before Op so we know it's safe to move this intrinsic higher.
@@ -545,12 +544,8 @@ GCNTTIImpl::hoistLaneIntrinsicThroughOperand(InstCombiner &IC,
     return DoIt(0, Remangled);
   }
 
-  // Don't hoist through a binary operator for permlane64. It doesn't
-  // achieve anything and we'd need to repeat the call on every operand.
-  //
-  // We can do it for read(first)lane if other operands are already scalar
-  // because then we don't need to repeat the call.
-  if (!IsPermLane && isa<BinaryOperator>(Op)) {
+  // We can also hoist through binary operators if the other operand is uniform.
+  if (isa<BinaryOperator>(Op)) {
     // FIXME: If we had access to UniformityInfo here we could just check
     // if the operand is uniform.
     if (isTriviallyUniform(Op->getOperandUse(0)))
diff --git a/llvm/test/Transforms/InstCombine/AMDGPU/llvm.amdgcn.permlane64.ll b/llvm/test/Transforms/InstCombine/AMDGPU/llvm.amdgcn.permlane64.ll
@@ -1,7 +1,7 @@
 ; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --version 5
 ; RUN: opt -mtriple=amdgcn-- -mcpu=gfx1030 -passes=instcombine -S < %s | FileCheck %s
 
-; The readfirstlane version of this test covers all the interesting cases of the
+; The permlane64 version of this test covers all the interesting cases of the
 ; shared logic. This testcase focuses on permlane64 specific pitfalls.
 
 ; test unary
@@ -10,27 +10,27 @@ define float @hoist_fneg_f32(float %arg) {
 ; CHECK-LABEL: define float @hoist_fneg_f32(
 ; CHECK-SAME: float [[ARG:%.*]]) #[[ATTR0:[0-9]+]] {
 ; CHECK-NEXT:  [[BB:.*:]]
-; CHECK-NEXT:    [[TMP0:%.*]] = call float @llvm.amdgcn.readfirstlane.f32(float [[ARG]])
+; CHECK-NEXT:    [[TMP0:%.*]] = call float @llvm.amdgcn.permlane64.f32(float [[ARG]])
 ; CHECK-NEXT:    [[RFL:%.*]] = fneg float [[TMP0]]
 ; CHECK-NEXT:    ret float [[RFL]]
 ;
 bb:
   %val = fneg float %arg
-  %pl = call float @llvm.amdgcn.readfirstlane.f32(float %val)
+  %pl = call float @llvm.amdgcn.permlane64.f32(float %val)
   ret float %pl
 }
 
 define double @hoist_fneg_f64(double %arg) {
 ; CHECK-LABEL: define double @hoist_fneg_f64(
 ; CHECK-SAME: double [[ARG:%.*]]) #[[ATTR0]] {
 ; CHECK-NEXT:  [[BB:.*:]]
-; CHECK-NEXT:    [[TMP0:%.*]] = call double @llvm.amdgcn.readfirstlane.f64(double [[ARG]])
+; CHECK-NEXT:    [[TMP0:%.*]] = call double @llvm.amdgcn.permlane64.f64(double [[ARG]])
 ; CHECK-NEXT:    [[RFL:%.*]] = fneg double [[TMP0]]
 ; CHECK-NEXT:    ret double [[RFL]]
 ;
 bb:
   %val = fneg double %arg
-  %pl = call double @llvm.amdgcn.readfirstlane.f64(double %val)
+  %pl = call double @llvm.amdgcn.permlane64.f64(double %val)
   ret double %pl
 }
 
@@ -40,27 +40,27 @@ define i32 @hoist_trunc(i64 %arg) {
 ; CHECK-LABEL: define i32 @hoist_trunc(
 ; CHECK-SAME: i64 [[ARG:%.*]]) #[[ATTR0]] {
 ; CHECK-NEXT:  [[BB:.*:]]
-; CHECK-NEXT:    [[RFL:%.*]] = call i64 @llvm.amdgcn.readfirstlane.i64(i64 [[ARG]])
+; CHECK-NEXT:    [[RFL:%.*]] = call i64 @llvm.amdgcn.permlane64.i64(i64 [[ARG]])
 ; CHECK-NEXT:    [[TMP0:%.*]] = trunc i64 [[RFL]] to i32
 ; CHECK-NEXT:    ret i32 [[TMP0]]
 ;
 bb:
   %val = trunc i64 %arg to i32
-  %pl = call i32 @llvm.amdgcn.readfirstlane.i32(i32 %val)
+  %pl = call i32 @llvm.amdgcn.permlane64.i32(i32 %val)
   ret i32 %pl
 }
 
 define i64 @hoist_zext(i32 %arg) {
 ; CHECK-LABEL: define i64 @hoist_zext(
 ; CHECK-SAME: i32 [[ARG:%.*]]) #[[ATTR0]] {
 ; CHECK-NEXT:  [[BB:.*:]]
-; CHECK-NEXT:    [[RFL:%.*]] = call i32 @llvm.amdgcn.readfirstlane.i32(i32 [[ARG]])
+; CHECK-NEXT:    [[RFL:%.*]] = call i32 @llvm.amdgcn.permlane64.i32(i32 [[ARG]])
 ; CHECK-NEXT:    [[TMP0:%.*]] = zext i32 [[RFL]] to i64
 ; CHECK-NEXT:    ret i64 [[TMP0]]
 ;
 bb:
   %val = zext i32 %arg to i64
-  %pl = call i64 @llvm.amdgcn.readfirstlane.i64(i64 %val)
+  %pl = call i64 @llvm.amdgcn.permlane64.i64(i64 %val)
   ret i64 %pl
 }
 
@@ -70,8 +70,8 @@ define i32 @hoist_add_i32(i32 %arg) {
 ; CHECK-LABEL: define i32 @hoist_add_i32(
 ; CHECK-SAME: i32 [[ARG:%.*]]) #[[ATTR0]] {
 ; CHECK-NEXT:  [[BB:.*:]]
-; CHECK-NEXT:    [[VAL:%.*]] = add i32 [[ARG]], 16777215
-; CHECK-NEXT:    [[RFL:%.*]] = call i32 @llvm.amdgcn.permlane64.i32(i32 [[VAL]])
+; CHECK-NEXT:    [[PL:%.*]] = call i32 @llvm.amdgcn.permlane64.i32(i32 [[ARG]])
+; CHECK-NEXT:    [[RFL:%.*]] = add i32 [[PL]], 16777215
 ; CHECK-NEXT:    ret i32 [[RFL]]
 ;
 bb:
@@ -84,8 +84,8 @@ define float @hoist_fadd_f32(float %arg) {
 ; CHECK-LABEL: define float @hoist_fadd_f32(
 ; CHECK-SAME: float [[ARG:%.*]]) #[[ATTR0]] {
 ; CHECK-NEXT:  [[BB:.*:]]
-; CHECK-NEXT:    [[VAL:%.*]] = fadd float [[ARG]], 1.280000e+02
-; CHECK-NEXT:    [[RFL:%.*]] = call float @llvm.amdgcn.permlane64.f32(float [[VAL]])
+; CHECK-NEXT:    [[PL:%.*]] = call float @llvm.amdgcn.permlane64.f32(float [[ARG]])
+; CHECK-NEXT:    [[RFL:%.*]] = fadd float [[PL]], 1.280000e+02
 ; CHECK-NEXT:    ret float [[RFL]]
 ;
 bb:
@@ -94,8 +94,60 @@ bb:
   ret float %pl
 }
 
+; test multiple iterations
+
+define i32 @hoist_multiple_times(i32 %arg) {
+; CHECK-LABEL: define i32 @hoist_multiple_times(
+; CHECK-SAME: i32 [[ARG:%.*]]) #[[ATTR0]] {
+; CHECK-NEXT:  [[BB:.*:]]
+; CHECK-NEXT:    [[TMP0:%.*]] = call i32 @llvm.amdgcn.permlane64.i32(i32 [[ARG]])
+; CHECK-NEXT:    [[TMP1:%.*]] = shl i32 [[TMP0]], 2
+; CHECK-NEXT:    [[TMP2:%.*]] = sub i32 16777215, [[TMP1]]
+; CHECK-NEXT:    [[TMP3:%.*]] = xor i32 [[TMP2]], 4242
+; CHECK-NEXT:    [[RFL:%.*]] = add i32 [[TMP3]], 6
+; CHECK-NEXT:    ret i32 [[RFL]]
+;
+bb:
+  %val.0 = shl i32 %arg, 2
+  %val.1 = sub i32 16777215, %val.0
+  %val.2 = xor i32 %val.1, 4242
+  %val.3 = add i32 %val.2, 6
+  %rfl = call i32 @llvm.amdgcn.permlane64.i32(i32 %val.3)
+  ret i32 %rfl
+}
+
 ; test cases where hoisting isn't possible
 
+define i32 @operand_is_instr(i32 %arg, ptr %src) {
+; CHECK-LABEL: define i32 @operand_is_instr(
+; CHECK-SAME: i32 [[ARG:%.*]], ptr [[SRC:%.*]]) #[[ATTR0]] {
+; CHECK-NEXT:  [[BB:.*:]]
+; CHECK-NEXT:    [[OTHER:%.*]] = load i32, ptr [[SRC]], align 4
+; CHECK-NEXT:    [[VAL:%.*]] = add i32 [[ARG]], [[OTHER]]
+; CHECK-NEXT:    [[RFL:%.*]] = call i32 @llvm.amdgcn.permlane64.i32(i32 [[VAL]])
+; CHECK-NEXT:    ret i32 [[RFL]]
+;
+bb:
+  %other = load i32, ptr %src
+  %val = add i32 %arg, %other
+  %rfl = call i32 @llvm.amdgcn.permlane64.i32(i32 %val)
+  ret i32 %rfl
+}
+
+define i32 @operand_is_arg(i32 %arg, i32 %other) {
+; CHECK-LABEL: define i32 @operand_is_arg(
+; CHECK-SAME: i32 [[ARG:%.*]], i32 [[OTHER:%.*]]) #[[ATTR0]] {
+; CHECK-NEXT:  [[BB:.*:]]
+; CHECK-NEXT:    [[VAL:%.*]] = add i32 [[ARG]], [[OTHER]]
+; CHECK-NEXT:    [[RFL:%.*]] = call i32 @llvm.amdgcn.permlane64.i32(i32 [[VAL]])
+; CHECK-NEXT:    ret i32 [[RFL]]
+;
+bb:
+  %val = add i32 %arg, %other
+  %rfl = call i32 @llvm.amdgcn.permlane64.i32(i32 %val)
+  ret i32 %rfl
+}
+
 define float @cross_block_hoisting(i1 %cond, float %arg) {
 ; CHECK-LABEL: define float @cross_block_hoisting(
 ; CHECK-SAME: i1 [[COND:%.*]], float [[ARG:%.*]]) #[[ATTR0]] {