Fix 64-bit ashr scalarisation of and for fold int 32-bit shift

chrisjbris · chrisjbris · commit 7e9d17a70fbc · 2025-07-21T10:51:26.000-05:00
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp b/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
@@ -4222,6 +4222,49 @@ SDValue AMDGPUTargetLowering::performSraCombine(SDNode *N,
   SelectionDAG &DAG = DCI.DAG;
   SDLoc SL(N);
 
+  if (RHS->getOpcode() == ISD::EXTRACT_VECTOR_ELT) {
+    SDValue VAND = RHS.getOperand(0);
+    if (ConstantSDNode *CRRHS = dyn_cast<ConstantSDNode>(RHS->getOperand(1))) {
+      uint64_t AndIndex = RHS->getConstantOperandVal(1);
+      if (VAND->getOpcode() == ISD::AND && CRRHS) {
+        SDValue LHSAND = VAND.getOperand(0);
+        SDValue RHSAND = VAND.getOperand(1);
+        if (RHSAND->getOpcode() == ISD::BUILD_VECTOR) {
+          // Part of sracombine is to optimise for the case where its possible
+          // to reduce shl64 to shl32 if shift range is [63-32]. This
+          // transforms: DST = shl i64 X, Y to [0, srl i32 X, (Y & 31) ]. The
+          // '&' is then elided by ISel. The vector code for this was being
+          // completely scalarised by the vector legalizer, but now v2i32 is
+          // made legal the vector legaliser only partially scalarises the
+          // vector operations and the and was not elided. This check enables us
+          // to locate and scalarise the v2i32 and and re-enable ISel to elide
+          // the and instruction.
+          ConstantSDNode *CANDL =
+              dyn_cast<ConstantSDNode>(RHSAND->getOperand(0));
+          ConstantSDNode *CANDR =
+              dyn_cast<ConstantSDNode>(RHSAND->getOperand(1));
+          if (CANDL && CANDR && RHSAND->getConstantOperandVal(0) == 0x1f &&
+              RHSAND->getConstantOperandVal(1) == 0x1f) {
+            // Get the non-const AND operands and produce scalar AND
+            const SDValue Zero = DAG.getConstant(0, SL, MVT::i32);
+            const SDValue One = DAG.getConstant(1, SL, MVT::i32);
+            SDValue Lo = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32,
+                                     LHSAND, Zero);
+            SDValue Hi =
+                DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32, LHSAND, One);
+            SDValue AndMask = DAG.getConstant(0x1f, SL, MVT::i32);
+            SDValue LoAnd = DAG.getNode(ISD::AND, SL, MVT::i32, Lo, AndMask);
+            SDValue HiAnd = DAG.getNode(ISD::AND, SL, MVT::i32, Hi, AndMask);
+            SDValue Trunc = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, LHS);
+            if (AndIndex == 0 || AndIndex == 1)
+              return DAG.getNode(ISD::SRA, SL, MVT::i32, Trunc,
+                                 AndIndex == 0 ? LoAnd : HiAnd, N->getFlags());
+          }
+        }
+      }
+    }
+  }
+
   if (VT.getScalarType() != MVT::i64)
     return SDValue();
 
@@ -4314,8 +4357,63 @@ SDValue AMDGPUTargetLowering::performSraCombine(SDNode *N,
   return DAG.getNode(ISD::BITCAST, SL, VT, Vec);
 }
 
-static SDValue getScalarisedShift(SDValue LHS, SDValue RHS, SelectionDAG &DAG) {
-  SDLoc SL = SDLoc(RHS);
+// static SDValue getScalarisedShift(SDValue LHS, SDValue RHS, SelectionDAG &DAG) {
+//   SDLoc SL = SDLoc(RHS);
+//   if (RHS->getOpcode() == ISD::EXTRACT_VECTOR_ELT) {
+//     SDValue VAND = RHS.getOperand(0);
+//     if (ConstantSDNode *CRRHS = dyn_cast<ConstantSDNode>(RHS->getOperand(1))) {
+//       uint64_t AndIndex = RHS->getConstantOperandVal(1);
+//       if (VAND->getOpcode() == ISD::AND && CRRHS) {
+//         SDValue LHSAND = VAND.getOperand(0);
+//         SDValue RHSAND = VAND.getOperand(1);
+//         if (RHSAND->getOpcode() == ISD::BUILD_VECTOR) {
+//           // Part of srlcombine is to optimise for the case where its possible
+//           // to reduce shl64 to shl32 if shift range is [63-32]. This
+//           // transforms: DST = shl i64 X, Y to [0, srl i32 X, (Y & 31) ]. The
+//           // '&' is then elided by ISel. The vector code for this was being
+//           // completely scalarised by the vector legalizer, but now v2i32 is
+//           // made legal the vector legaliser only partially scalarises the
+//           // vector operations and the and was not elided. This check enables us
+//           // to locate and scalarise the v2i32 and and re-enable ISel to elide
+//           // the and instruction.
+//           ConstantSDNode *CANDL =
+//               dyn_cast<ConstantSDNode>(RHSAND->getOperand(0));
+//           ConstantSDNode *CANDR =
+//               dyn_cast<ConstantSDNode>(RHSAND->getOperand(1));
+//           if (CANDL && CANDR && RHSAND->getConstantOperandVal(0) == 0x1f &&
+//               RHSAND->getConstantOperandVal(1) == 0x1f) {
+//             // Get the non-const AND operands and produce scalar AND
+//             const SDValue Zero = DAG.getConstant(0, SL, MVT::i32);
+//             const SDValue One = DAG.getConstant(1, SL, MVT::i32);
+//             SDValue Lo = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32,
+//                                      LHSAND, Zero);
+//             SDValue Hi =
+//                 DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32, LHSAND, One);
+//             SDValue AndMask = DAG.getConstant(0x1f, SL, MVT::i32);
+//             SDValue LoAnd = DAG.getNode(ISD::AND, SL, MVT::i32, Lo, AndMask);
+//             SDValue HiAnd = DAG.getNode(ISD::AND, SL, MVT::i32, Hi, AndMask);
+//             SDValue Trunc = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, LHS);
+//             if (AndIndex == 0 || AndIndex == 1)
+//               return DAG.getNode(ISD::SRL, SL, MVT::i32, Trunc,
+//                                  AndIndex == 0 ? LoAnd : HiAnd, RHS->getFlags());
+//           }
+//         }
+//       }
+//     }
+//   }
+//   return SDValue();
+// }
+
+SDValue AMDGPUTargetLowering::performSrlCombine(SDNode *N,
+                                                DAGCombinerInfo &DCI) const {
+  SDValue RHS = N->getOperand(1);
+  ConstantSDNode *CRHS = dyn_cast<ConstantSDNode>(RHS);
+  EVT VT = N->getValueType(0);
+  SDValue LHS = N->getOperand(0);
+  SelectionDAG &DAG = DCI.DAG;
+  SDLoc SL(N);
+  unsigned RHSVal;
+
   if (RHS->getOpcode() == ISD::EXTRACT_VECTOR_ELT) {
     SDValue VAND = RHS.getOperand(0);
     if (ConstantSDNode *CRRHS = dyn_cast<ConstantSDNode>(RHS->getOperand(1))) {
@@ -4352,25 +4450,12 @@ static SDValue getScalarisedShift(SDValue LHS, SDValue RHS, SelectionDAG &DAG) {
             SDValue Trunc = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, LHS);
             if (AndIndex == 0 || AndIndex == 1)
               return DAG.getNode(ISD::SRL, SL, MVT::i32, Trunc,
-                                 AndIndex == 0 ? LoAnd : HiAnd, RHS->getFlags());
+                                 AndIndex == 0 ? LoAnd : HiAnd, N->getFlags());
           }
         }
       }
     }
   }
-  return SDValue();
-}
-
-SDValue AMDGPUTargetLowering::performSrlCombine(SDNode *N,
-                                                DAGCombinerInfo &DCI) const {
-  SDValue RHS = N->getOperand(1);
-  ConstantSDNode *CRHS = dyn_cast<ConstantSDNode>(RHS);
-  EVT VT = N->getValueType(0);
-  SDValue LHS = N->getOperand(0);
-  SelectionDAG &DAG = DCI.DAG;
-  SDLoc SL(N);
-  unsigned RHSVal;
-
 
 
   if (CRHS) {
diff --git a/llvm/test/CodeGen/AMDGPU/ashr64_reduce.ll b/llvm/test/CodeGen/AMDGPU/ashr64_reduce.ll
@@ -112,10 +112,8 @@ define <2 x i64> @ashr_v2_metadata(<2 x i64> %arg0, ptr %arg1.ptr) {
 ; CHECK-NEXT:    v_ashrrev_i32_e32 v5, 31, v1
 ; CHECK-NEXT:    v_ashrrev_i32_e32 v4, 31, v3
 ; CHECK-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; CHECK-NEXT:    v_and_b32_e32 v2, 31, v8
-; CHECK-NEXT:    v_and_b32_e32 v0, 31, v6
-; CHECK-NEXT:    v_ashrrev_i32_e32 v0, v0, v1
-; CHECK-NEXT:    v_ashrrev_i32_e32 v2, v2, v3
+; CHECK-NEXT:    v_ashrrev_i32_e32 v0, v6, v1
+; CHECK-NEXT:    v_ashrrev_i32_e32 v2, v8, v3
 ; CHECK-NEXT:    v_mov_b32_e32 v1, v5
 ; CHECK-NEXT:    v_mov_b32_e32 v3, v4
 ; CHECK-NEXT:    s_setpc_b64 s[30:31]
@@ -147,10 +145,8 @@ define <2 x i64> @ashr_exact_v2_metadata(<2 x i64> %arg0, ptr %arg1.ptr) {
 ; CHECK-NEXT:    v_ashrrev_i32_e32 v5, 31, v1
 ; CHECK-NEXT:    v_ashrrev_i32_e32 v4, 31, v3
 ; CHECK-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; CHECK-NEXT:    v_and_b32_e32 v2, 31, v8
-; CHECK-NEXT:    v_and_b32_e32 v0, 31, v6
-; CHECK-NEXT:    v_ashrrev_i32_e32 v0, v0, v1
-; CHECK-NEXT:    v_ashrrev_i32_e32 v2, v2, v3
+; CHECK-NEXT:    v_ashrrev_i32_e32 v0, v6, v1
+; CHECK-NEXT:    v_ashrrev_i32_e32 v2, v8, v3
 ; CHECK-NEXT:    v_mov_b32_e32 v1, v5
 ; CHECK-NEXT:    v_mov_b32_e32 v3, v4
 ; CHECK-NEXT:    s_setpc_b64 s[30:31]
@@ -394,11 +390,9 @@ define <2 x i64> @ashr_v2_or32(<2 x i64> %arg0, <2 x i64> %shift_amt) {
 ; CHECK-LABEL: ashr_v2_or32:
 ; CHECK:       ; %bb.0:
 ; CHECK-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; CHECK-NEXT:    v_and_b32_e32 v2, 31, v6
-; CHECK-NEXT:    v_and_b32_e32 v0, 31, v4
-; CHECK-NEXT:    v_ashrrev_i32_e32 v0, v0, v1
-; CHECK-NEXT:    v_ashrrev_i32_e32 v2, v2, v3
+; CHECK-NEXT:    v_ashrrev_i32_e32 v0, v4, v1
 ; CHECK-NEXT:    v_ashrrev_i32_e32 v1, 31, v1
+; CHECK-NEXT:    v_ashrrev_i32_e32 v2, v6, v3
 ; CHECK-NEXT:    v_ashrrev_i32_e32 v3, 31, v3
 ; CHECK-NEXT:    s_setpc_b64 s[30:31]
   %or = or <2 x i64> %shift_amt, splat (i64 32)
@@ -471,17 +465,13 @@ define <2 x i64> @ashr_v2_or32_sgpr(<2 x i64> inreg %arg0, <2 x i64> inreg %shif
 ; CHECK-LABEL: ashr_v2_or32_sgpr:
 ; CHECK:       ; %bb.0:
 ; CHECK-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; CHECK-NEXT:    s_mov_b32 s4, 31
-; CHECK-NEXT:    s_mov_b32 s21, s22
-; CHECK-NEXT:    s_mov_b32 s5, s4
-; CHECK-NEXT:    s_and_b64 s[4:5], s[20:21], s[4:5]
-; CHECK-NEXT:    s_ashr_i32 s6, s17, 31
+; CHECK-NEXT:    s_ashr_i32 s4, s17, s20
+; CHECK-NEXT:    s_ashr_i32 s5, s17, 31
+; CHECK-NEXT:    s_ashr_i32 s6, s19, s22
 ; CHECK-NEXT:    s_ashr_i32 s7, s19, 31
-; CHECK-NEXT:    s_ashr_i32 s4, s17, s4
-; CHECK-NEXT:    s_ashr_i32 s5, s19, s5
 ; CHECK-NEXT:    v_mov_b32_e32 v0, s4
-; CHECK-NEXT:    v_mov_b32_e32 v1, s6
-; CHECK-NEXT:    v_mov_b32_e32 v2, s5
+; CHECK-NEXT:    v_mov_b32_e32 v1, s5
+; CHECK-NEXT:    v_mov_b32_e32 v2, s6
 ; CHECK-NEXT:    v_mov_b32_e32 v3, s7
 ; CHECK-NEXT:    s_setpc_b64 s[30:31]
   %or = or <2 x i64> %shift_amt, splat (i64 32)