Add functional implementation for i64

chrisjbris · chrisjbris · commit e543e45bad25 · 2025-07-11T09:53:48.000-05:00
While this is functional it can be refactored and simplified, working on
this now.
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp b/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
@@ -4919,23 +4919,112 @@ SDValue AMDGPUTargetLowering::performSelectCombine(SDNode *N,
       return MinMax;
     }
 
-    // Support source modifiers on integer types.
-    if (VT == MVT::i32 || VT == MVT::v2i32 || VT == MVT::i64) {
-      SDValue SrcModTrue = getBitwiseToSrcModifierOp(True, DCI);
-      SDValue SrcModFalse = getBitwiseToSrcModifierOp(False, DCI);
+    auto FoldSrcMods = [&](SDValue LHS, SDValue RHS, EVT VT) -> SDValue {
+      SDValue SrcModTrue = getBitwiseToSrcModifierOp(LHS, DCI);
+      SDValue SrcModFalse = getBitwiseToSrcModifierOp(RHS, DCI);
       if (SrcModTrue || SrcModFalse) {
         SDLoc SL(N);
         EVT FVT =
             SrcModTrue ? SrcModTrue.getValueType() : SrcModFalse.getValueType();
         SDValue FLHS =
-            SrcModTrue ? SrcModTrue : DAG.getNode(ISD::BITCAST, SL, FVT, True);
+            SrcModTrue ? SrcModTrue : DAG.getNode(ISD::BITCAST, SL, FVT, LHS);
         SDValue FRHS = SrcModFalse ? SrcModFalse
-                                   : DAG.getNode(ISD::BITCAST, SL, FVT, False);
+                                   : DAG.getNode(ISD::BITCAST, SL, FVT, RHS);
         SDValue FSelect = DAG.getNode(ISD::SELECT, SL, FVT, Cond, FLHS, FRHS);
         return DAG.getNode(ISD::BITCAST, SL, VT, FSelect);
+    }
+    return SDValue();
+  };
+
+    // Support source modifiers on integer operands.
+    if (VT == MVT::i32 || VT == MVT::v2i32)
+      if (SDValue F = FoldSrcMods(True, False, VT))
+        return F;
+
+    // For i64 if a source modifier is to be folded in we split into two i32
+    // select of high and low values. The Operator need only be applied to the
+    // high values in order to change the sign bit.
+    if (VT == MVT::i64) {
+      bool TrueHasModifierOp =
+          (True.getOpcode() == ISD::AND || True.getOpcode() == ISD::OR ||
+           True.getOpcode() == ISD::XOR);
+
+      bool FalseHasModifierOp =
+          (False.getOpcode() == ISD::AND || False.getOpcode() == ISD::OR ||
+           False.getOpcode() == ISD::XOR);
+
+      ConstantSDNode *CTrueRHS = nullptr;
+      if (TrueHasModifierOp) {
+        SDValue TrueRHS = True->getOperand(1);
+        CTrueRHS = dyn_cast<ConstantSDNode>(TrueRHS);
+      }
+
+      ConstantSDNode *CFalseRHS = nullptr;
+      if (FalseHasModifierOp) {
+        SDValue FalseRHS = False->getOperand(1);
+        CFalseRHS = dyn_cast<ConstantSDNode>(FalseRHS);
+      }
+
+      // If True or False is a candidate for source modifier folding, extract
+      // the high value using APInt and reconstruct a ConstantSDNode.
+      SDValue TrueHiOp;
+      SDValue BCTrue = DAG.getNode(ISD::BITCAST, SDLoc(N), MVT::i64, True);
+      SDValue TrueLo;
+      SDValue TrueHi;
+      if (CTrueRHS) {
+        SDValue TrueLHS = True->getOperand(0);
+        SDValue TrueLHSHiVal = getHiHalf64(BCTrue, DAG);
+        TrueLo = getLoHalf64(TrueLHS, DAG);
+        APInt CTrueRHSHiBits =
+            CTrueRHS->getAPIntValue().getHiBits(32).trunc(32);
+        SDValue CTrueRHSHiVal =
+            DAG.getConstant(CTrueRHSHiBits, SDLoc(N), MVT::i32);
+        unsigned OpcTrue = True.getOpcode();
+        TrueHiOp = DAG.getNode(OpcTrue, SDLoc(N), MVT::i32, TrueLHSHiVal,
+                               CTrueRHSHiVal);
+      } else {
+        TrueLo = getLoHalf64(BCTrue, DAG);
+        TrueHi = getHiHalf64(BCTrue, DAG);
+      }
+
+      SDValue FalseHiOp;
+      SDValue BCFalse = DAG.getNode(ISD::BITCAST, SDLoc(N), MVT::i64, False);
+      SDValue FalseLo;
+      SDValue FalseHi;
+      if (CFalseRHS) {
+        SDValue FalseLHS = False->getOperand(0);
+        FalseLo = getLoHalf64(FalseLHS, DAG);
+        SDValue FalseLHSHiVal = getHiHalf64(BCFalse, DAG);
+        APInt CFalseRHSHiBits =
+            CFalseRHS->getAPIntValue().getHiBits(32).trunc(32);
+        SDValue CFalseRHSHiVal =
+            DAG.getConstant(CFalseRHSHiBits, SDLoc(N), MVT::i32);
+        unsigned OpcFalse = False.getOpcode();
+        FalseHiOp = DAG.getNode(OpcFalse, SDLoc(N), MVT::i32, FalseLHSHiVal,
+                                CFalseRHSHiVal);
+      } else {
+        FalseLo = getLoHalf64(BCFalse, DAG);
+        FalseHi = getHiHalf64(BCFalse, DAG);
+      }
+
+      if (CTrueRHS || CFalseRHS) {
+        // Place the low bits directly into the select. The operator is unneeded
+        // for these.
+        SDValue LoSelect =
+            DAG.getNode(ISD::SELECT, SDLoc(N), MVT::i32, Cond, TrueLo, FalseLo);
+        // If a source modifier may be folded use the bitwise-op of the high
+        // values, otherwise just pass the high part of the value.
+        SDValue FoldedHi =
+            FoldSrcMods(CTrueRHS ? TrueHiOp : TrueHi,
+                        CFalseRHS ? FalseHiOp : FalseHi, MVT::i32);
+
+        SDValue ResV =
+            DAG.getBuildVector(MVT::v2i32, SDLoc(N), {FoldedHi, LoSelect});
+        SDValue Res = DAG.getNode(ISD::BITCAST, SDLoc(N), MVT::i64, ResV);
+        return Res;
       }
     }
-  }
+}
 
   // There's no reason to not do this if the condition has other uses.
   return performCtlz_CttzCombine(SDLoc(N), Cond, True, False, DCI);
diff --git a/llvm/test/CodeGen/AMDGPU/integer-select-source-modifiers.ll b/llvm/test/CodeGen/AMDGPU/integer-select-source-modifiers.ll
@@ -340,18 +340,15 @@ define i64 @fneg_select_i64_1(i64 %cond, i64 %a, i64 %b) {
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GCN-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GCN-NEXT:    v_xor_b32_e32 v3, 0x80000000, v3
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v4, v2, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v1, v5, v3, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v0, v5, v3, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v1, v4, v2, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: fneg_select_i64_1:
 ; GFX11:       ; %bb.0:
 ; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-NEXT:    v_cmp_eq_u64_e32 vcc_lo, 0, v[0:1]
-; GFX11-NEXT:    v_xor_b32_e32 v1, 0x80000000, v3
-; GFX11-NEXT:    s_delay_alu instid0(VALU_DEP_1)
-; GFX11-NEXT:    v_dual_cndmask_b32 v0, v4, v2 :: v_dual_cndmask_b32 v1, v5, v1
+; GFX11-NEXT:    v_dual_cndmask_b32 v0, v5, v3 :: v_dual_cndmask_b32 v1, v4, v2
 ; GFX11-NEXT:    s_setpc_b64 s[30:31]
   %neg.a = xor i64 %a, u0x8000000000000000
   %cmp = icmp eq i64 %cond, zeroinitializer
@@ -364,18 +361,15 @@ define i64 @fneg_select_i64_2(i64 %cond, i64 %a, i64 %b) {
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GCN-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GCN-NEXT:    v_xor_b32_e32 v3, 0x80000000, v3
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v2, v4, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v1, v3, v5, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v0, v3, v5, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v1, v2, v4, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: fneg_select_i64_2:
 ; GFX11:       ; %bb.0:
 ; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-NEXT:    v_cmp_eq_u64_e32 vcc_lo, 0, v[0:1]
-; GFX11-NEXT:    v_xor_b32_e32 v1, 0x80000000, v3
-; GFX11-NEXT:    s_delay_alu instid0(VALU_DEP_1)
-; GFX11-NEXT:    v_dual_cndmask_b32 v0, v2, v4 :: v_dual_cndmask_b32 v1, v1, v5
+; GFX11-NEXT:    v_dual_cndmask_b32 v0, v3, v5 :: v_dual_cndmask_b32 v1, v2, v4
 ; GFX11-NEXT:    s_setpc_b64 s[30:31]
   %neg.a = xor i64 %a, u0x8000000000000000
   %cmp = icmp eq i64 %cond, zeroinitializer
@@ -388,20 +382,16 @@ define i64 @fneg_1_fabs_2_select_i64(i64 %cond, i64 %a, i64 %b) {
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GCN-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GCN-NEXT:    v_xor_b32_e32 v3, 0x80000000, v3
-; GCN-NEXT:    v_and_b32_e32 v5, 0x7fffffff, v5
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v4, v2, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v1, v5, v3, vcc
+; GCN-NEXT:    v_cndmask_b32_e64 v0, |v5|, v3, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v1, v4, v2, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: fneg_1_fabs_2_select_i64:
 ; GFX11:       ; %bb.0:
 ; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-NEXT:    v_cmp_eq_u64_e32 vcc_lo, 0, v[0:1]
-; GFX11-NEXT:    v_xor_b32_e32 v3, 0x80000000, v3
-; GFX11-NEXT:    v_dual_cndmask_b32 v0, v4, v2 :: v_dual_and_b32 v1, 0x7fffffff, v5
-; GFX11-NEXT:    s_delay_alu instid0(VALU_DEP_1)
-; GFX11-NEXT:    v_cndmask_b32_e32 v1, v1, v3, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e64 v0, |v5|, v3, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e32 v1, v4, v2, vcc_lo
 ; GFX11-NEXT:    s_setpc_b64 s[30:31]
   %neg.a = xor i64 %a, u0x8000000000000000
   %abs.b = and i64 %b, u0x7fffffffffffffff
@@ -415,18 +405,16 @@ define i64 @fabs_select_i64_1(i64 %cond, i64 %a, i64 %b) {
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GCN-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GCN-NEXT:    v_and_b32_e32 v3, 0x7fffffff, v3
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v4, v2, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v1, v5, v3, vcc
+; GCN-NEXT:    v_cndmask_b32_e64 v0, v5, |v3|, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v1, v4, v2, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: fabs_select_i64_1:
 ; GFX11:       ; %bb.0:
 ; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-NEXT:    v_cmp_eq_u64_e32 vcc_lo, 0, v[0:1]
-; GFX11-NEXT:    v_dual_cndmask_b32 v0, v4, v2 :: v_dual_and_b32 v1, 0x7fffffff, v3
-; GFX11-NEXT:    s_delay_alu instid0(VALU_DEP_1)
-; GFX11-NEXT:    v_cndmask_b32_e32 v1, v5, v1, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e64 v0, v5, |v3|, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e32 v1, v4, v2, vcc_lo
 ; GFX11-NEXT:    s_setpc_b64 s[30:31]
   %neg.a = and i64 %a, u0x7fffffffffffffff
   %cmp = icmp eq i64 %cond, zeroinitializer
@@ -439,18 +427,16 @@ define i64 @fabs_select_i64_2(i64 %cond, i64 %a, i64 %b) {
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GCN-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GCN-NEXT:    v_and_b32_e32 v3, 0x7fffffff, v3
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v2, v4, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v1, v3, v5, vcc
+; GCN-NEXT:    v_cndmask_b32_e64 v0, |v3|, v5, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v1, v2, v4, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: fabs_select_i64_2:
 ; GFX11:       ; %bb.0:
 ; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-NEXT:    v_cmp_eq_u64_e32 vcc_lo, 0, v[0:1]
-; GFX11-NEXT:    v_dual_cndmask_b32 v0, v2, v4 :: v_dual_and_b32 v1, 0x7fffffff, v3
-; GFX11-NEXT:    s_delay_alu instid0(VALU_DEP_1)
-; GFX11-NEXT:    v_cndmask_b32_e32 v1, v1, v5, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e64 v0, |v3|, v5, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e32 v1, v2, v4, vcc_lo
 ; GFX11-NEXT:    s_setpc_b64 s[30:31]
   %neg.a = and i64 %a, u0x7fffffffffffffff
   %cmp = icmp eq i64 %cond, zeroinitializer
@@ -463,18 +449,16 @@ define i64 @fneg_fabs_select_i64_1(i64 %cond, i64 %a, i64 %b) {
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GCN-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GCN-NEXT:    v_or_b32_e32 v3, 0x80000000, v3
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v4, v2, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v1, v5, v3, vcc
+; GCN-NEXT:    v_cndmask_b32_e64 v0, v5, -|v3|, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v1, v4, v2, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: fneg_fabs_select_i64_1:
 ; GFX11:       ; %bb.0:
 ; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-NEXT:    v_cmp_eq_u64_e32 vcc_lo, 0, v[0:1]
-; GFX11-NEXT:    v_or_b32_e32 v1, 0x80000000, v3
-; GFX11-NEXT:    s_delay_alu instid0(VALU_DEP_1)
-; GFX11-NEXT:    v_dual_cndmask_b32 v0, v4, v2 :: v_dual_cndmask_b32 v1, v5, v1
+; GFX11-NEXT:    v_cndmask_b32_e64 v0, v5, -|v3|, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e32 v1, v4, v2, vcc_lo
 ; GFX11-NEXT:    s_setpc_b64 s[30:31]
   %neg.a = or i64 %a, u0x8000000000000000
   %cmp = icmp eq i64 %cond, zeroinitializer
@@ -487,18 +471,16 @@ define i64 @fneg_fabs_select_i64_2(i64 %cond, i64 %a, i64 %b) {
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GCN-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GCN-NEXT:    v_or_b32_e32 v3, 0x80000000, v3
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v2, v4, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v1, v3, v5, vcc
+; GCN-NEXT:    v_cndmask_b32_e64 v0, -|v3|, v5, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v1, v2, v4, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: fneg_fabs_select_i64_2:
 ; GFX11:       ; %bb.0:
 ; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX11-NEXT:    v_cmp_eq_u64_e32 vcc_lo, 0, v[0:1]
-; GFX11-NEXT:    v_or_b32_e32 v1, 0x80000000, v3
-; GFX11-NEXT:    s_delay_alu instid0(VALU_DEP_1)
-; GFX11-NEXT:    v_dual_cndmask_b32 v0, v2, v4 :: v_dual_cndmask_b32 v1, v1, v5
+; GFX11-NEXT:    v_cndmask_b32_e64 v0, -|v3|, v5, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e32 v1, v2, v4, vcc_lo
 ; GFX11-NEXT:    s_setpc_b64 s[30:31]
   %neg.a = or i64 %a, u0x8000000000000000
   %cmp = icmp eq i64 %cond, zeroinitializer