llvm
diff --git a/‎llvm/lib/Target/AMDGPU/SIFoldOperands.cpp‎
Lines changed: 24 additions & 18 deletions b/‎llvm/lib/Target/AMDGPU/SIFoldOperands.cpp‎
Lines changed: 24 additions & 18 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/GlobalISel/fpow.ll‎
Lines changed: 135 additions & 135 deletions b/‎llvm/test/CodeGen/AMDGPU/GlobalISel/fpow.ll‎
Lines changed: 135 additions & 135 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.powi.ll‎
Lines changed: 9 additions & 9 deletions b/‎llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.powi.ll‎
Lines changed: 9 additions & 9 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/GlobalISel/select-to-fmin-fmax.ll‎
Lines changed: 14 additions & 14 deletions b/‎llvm/test/CodeGen/AMDGPU/GlobalISel/select-to-fmin-fmax.ll‎
Lines changed: 14 additions & 14 deletions
@@ -107,6 +107,7 @@ class SIFoldOperandsImpl {
 
   unsigned getInverseCompareOpcode(MachineInstr &MI) const {
     switch (MI.getOpcode()) {
+    // unsigned 32
     case AMDGPU::V_CMP_EQ_U32_e64:
       return AMDGPU::V_CMP_NE_U32_e64;
     case AMDGPU::V_CMP_NE_U32_e64:
@@ -119,27 +120,26 @@ class SIFoldOperandsImpl {
       return AMDGPU::V_CMP_LE_U32_e64;
     case AMDGPU::V_CMP_LT_U32_e64:
       return AMDGPU::V_CMP_GE_U32_e64;
-
-    //   case AMDGPU::V_CMP_EQ_U32_e64:
-    //   return AMDGPU::V_CMP_NE_U32_e64;
-    // case AMDGPU::V_CMP_NE_U32_e64:
-    //   return AMDGPU::V_CMP_EQ_U32_e64;
-    // case AMDGPU::V_CMP_GE_U32_e64:
-    //   return AMDGPU::V_CMP_LT_U32_e64;
-    // case AMDGPU::V_CMP_LE_U32_e64:
-    //   return AMDGPU::V_CMP_GT_U32_e64;
-    // case AMDGPU::V_CMP_GT_U32_e64:
-    //   return AMDGPU::V_CMP_LE_U32_e64;
-    // case AMDGPU::V_CMP_LT_U32_e64:
-    //   return AMDGPU::V_CMP_GE_U32_e64;
+      // float 32
+    case AMDGPU::V_CMP_EQ_F32_e64:
+      return AMDGPU::V_CMP_NEQ_F32_e64;
+    case AMDGPU::V_CMP_NEQ_F32_e64:
+      return AMDGPU::V_CMP_EQ_F32_e64;
+    case AMDGPU::V_CMP_GE_F32_e64:
+      return AMDGPU::V_CMP_LT_F32_e64;
+    case AMDGPU::V_CMP_LE_F32_e64:
+      return AMDGPU::V_CMP_GT_F32_e64;
+    case AMDGPU::V_CMP_GT_F32_e64:
+      return AMDGPU::V_CMP_LE_F32_e64;
+    case AMDGPU::V_CMP_LT_F32_e64:
+      return AMDGPU::V_CMP_GE_F32_e64;
     default:
       return 0;
     }
   }
 
   bool foldCopyToVGPROfScalarAddOfFrameIndex(Register DstReg, Register SrcReg,
                                              MachineInstr &MI) const;
-
   bool updateOperand(FoldCandidate &Fold) const;
 
   bool canUseImmWithOpSel(FoldCandidate &Fold) const;
@@ -1541,11 +1541,17 @@ bool SIFoldOperandsImpl::tryFoldCndMask(MachineInstr &MI, Register *RegVCC,
           auto cmpDL = DefMI->getDebugLoc();
           *NewVCC = MRI->createVirtualRegister(MRI->getRegClass(Reg));
           *RegVCC = Reg;
-          MachineInstrBuilder inverseCompare = BuildMI(
+          MachineInstrBuilder InverseCompare = BuildMI(
               *DefMI->getParent(), DefMI, cmpDL, TII->get(Opcode), *NewVCC);
-
-          inverseCompare.add(DefMI->getOperand(1));
-          inverseCompare.add(DefMI->getOperand(2));
+          InverseCompare->setFlags(DefMI->getFlags());
+
+          unsigned OpNum = DefMI->getNumExplicitOperands();
+          for (unsigned i = 1; i < OpNum; i++) {
+            MachineOperand Op = DefMI->getOperand(i);
+            InverseCompare.add(Op);
+            if (Op.isReg() && Op.isKill())
+              InverseCompare->getOperand(i).setIsKill(false);
+          }
         }
       }
     }
 
@@ -79,14 +79,14 @@ define float @v_powi_f32(float %l, i32 %r) {
 ; GFX7:       ; %bb.0:
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX7-NEXT:    v_mov_b32_e32 v2, 0x800000
-; GFX7-NEXT:    v_cmp_lt_f32_e32 vcc, v0, v2
-; GFX7-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
+; GFX7-NEXT:    v_cmp_ge_f32_e32 vcc, v0, v2
+; GFX7-NEXT:    v_cndmask_b32_e64 v2, 1, 0, vcc
 ; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 5, v2
 ; GFX7-NEXT:    v_ldexp_f32_e32 v0, v0, v2
 ; GFX7-NEXT:    v_log_f32_e32 v0, v0
 ; GFX7-NEXT:    v_cvt_f32_i32_e32 v1, v1
 ; GFX7-NEXT:    v_mov_b32_e32 v2, 0x42000000
-; GFX7-NEXT:    v_cndmask_b32_e32 v2, 0, v2, vcc
+; GFX7-NEXT:    v_cndmask_b32_e64 v2, v2, 0, vcc
 ; GFX7-NEXT:    v_sub_f32_e32 v0, v0, v2
 ; GFX7-NEXT:    v_mul_legacy_f32_e32 v0, v0, v1
 ; GFX7-NEXT:    v_mov_b32_e32 v1, 0xc2fc0000
@@ -104,14 +104,14 @@ define float @v_powi_f32(float %l, i32 %r) {
 ; GFX8:       ; %bb.0:
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v2, 0x800000
-; GFX8-NEXT:    v_cmp_lt_f32_e32 vcc, v0, v2
-; GFX8-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
+; GFX8-NEXT:    v_cmp_ge_f32_e32 vcc, v0, v2
+; GFX8-NEXT:    v_cndmask_b32_e64 v2, 1, 0, vcc
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 5, v2
 ; GFX8-NEXT:    v_ldexp_f32 v0, v0, v2
 ; GFX8-NEXT:    v_log_f32_e32 v0, v0
 ; GFX8-NEXT:    v_cvt_f32_i32_e32 v1, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v2, 0x42000000
-; GFX8-NEXT:    v_cndmask_b32_e32 v2, 0, v2, vcc
+; GFX8-NEXT:    v_cndmask_b32_e64 v2, v2, 0, vcc
 ; GFX8-NEXT:    v_sub_f32_e32 v0, v0, v2
 ; GFX8-NEXT:    v_mul_legacy_f32_e32 v0, v0, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v1, 0xc2fc0000
@@ -128,13 +128,13 @@ define float @v_powi_f32(float %l, i32 %r) {
 ; GFX11-LABEL: v_powi_f32:
 ; GFX11:       ; %bb.0:
 ; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX11-NEXT:    v_cmp_gt_f32_e32 vcc_lo, 0x800000, v0
+; GFX11-NEXT:    v_cmp_le_f32_e32 vcc_lo, 0x800000, v0
 ; GFX11-NEXT:    v_cvt_f32_i32_e32 v1, v1
-; GFX11-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e64 v2, 1, 0, vcc_lo
 ; GFX11-NEXT:    s_delay_alu instid0(VALU_DEP_1) | instskip(NEXT) | instid1(VALU_DEP_1)
 ; GFX11-NEXT:    v_lshlrev_b32_e32 v2, 5, v2
 ; GFX11-NEXT:    v_ldexp_f32 v0, v0, v2
-; GFX11-NEXT:    v_cndmask_b32_e64 v2, 0, 0x42000000, vcc_lo
+; GFX11-NEXT:    v_cndmask_b32_e64 v2, 0x42000000, 0, vcc_lo
 ; GFX11-NEXT:    s_delay_alu instid0(VALU_DEP_2) | instskip(SKIP_2) | instid1(VALU_DEP_1)
 ; GFX11-NEXT:    v_log_f32_e32 v0, v0
 ; GFX11-NEXT:    s_waitcnt_depctr 0xfff
 
@@ -18,8 +18,8 @@ define float @test_s32(float %a) #0 {
 ; GCN-LABEL: test_s32:
 ; GCN:       ; %bb.0: ; %entry
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GCN-NEXT:    v_cmp_gt_f32_e32 vcc, 0, v0
-; GCN-NEXT:    v_cndmask_b32_e64 v0, v0, 0, vcc
+; GCN-NEXT:    v_cmp_le_f32_e32 vcc, 0, v0
+; GCN-NEXT:    v_cndmask_b32_e32 v0, 0, v0, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 entry:
   %fcmp = fcmp olt float %a, 0.0
@@ -111,10 +111,10 @@ define <2 x float> @test_v2s32(<2 x float> %a) #0 {
 ; GCN-LABEL: test_v2s32:
 ; GCN:       ; %bb.0: ; %entry
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GCN-NEXT:    v_cmp_gt_f32_e32 vcc, 0, v0
-; GCN-NEXT:    v_cndmask_b32_e64 v0, v0, 0, vcc
-; GCN-NEXT:    v_cmp_gt_f32_e32 vcc, 0, v1
-; GCN-NEXT:    v_cndmask_b32_e64 v1, v1, 0, vcc
+; GCN-NEXT:    v_cmp_le_f32_e32 vcc, 0, v0
+; GCN-NEXT:    v_cndmask_b32_e32 v0, 0, v0, vcc
+; GCN-NEXT:    v_cmp_le_f32_e32 vcc, 0, v1
+; GCN-NEXT:    v_cndmask_b32_e32 v1, 0, v1, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 entry:
   %fcmp = fcmp olt <2 x float> %a, zeroinitializer
@@ -126,14 +126,14 @@ define <4 x float> @test_v4s32(<4 x float> %a) #0 {
 ; GCN-LABEL: test_v4s32:
 ; GCN:       ; %bb.0: ; %entry
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GCN-NEXT:    v_cmp_gt_f32_e32 vcc, 0, v0
-; GCN-NEXT:    v_cndmask_b32_e64 v0, v0, 0, vcc
-; GCN-NEXT:    v_cmp_gt_f32_e32 vcc, 0, v1
-; GCN-NEXT:    v_cndmask_b32_e64 v1, v1, 0, vcc
-; GCN-NEXT:    v_cmp_gt_f32_e32 vcc, 0, v2
-; GCN-NEXT:    v_cndmask_b32_e64 v2, v2, 0, vcc
-; GCN-NEXT:    v_cmp_gt_f32_e32 vcc, 0, v3
-; GCN-NEXT:    v_cndmask_b32_e64 v3, v3, 0, vcc
+; GCN-NEXT:    v_cmp_le_f32_e32 vcc, 0, v0
+; GCN-NEXT:    v_cndmask_b32_e32 v0, 0, v0, vcc
+; GCN-NEXT:    v_cmp_le_f32_e32 vcc, 0, v1
+; GCN-NEXT:    v_cndmask_b32_e32 v1, 0, v1, vcc
+; GCN-NEXT:    v_cmp_le_f32_e32 vcc, 0, v2
+; GCN-NEXT:    v_cndmask_b32_e32 v2, 0, v2, vcc
+; GCN-NEXT:    v_cmp_le_f32_e32 vcc, 0, v3
+; GCN-NEXT:    v_cndmask_b32_e32 v3, 0, v3, vcc
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 entry:
   %fcmp = fcmp olt <4 x float> %a, zeroinitializer