llvm
diff --git a/‎llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp‎
Lines changed: 3 additions & 0 deletions b/‎llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp‎
Lines changed: 5 additions & 1 deletion b/‎llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎llvm/lib/Target/AMDGPU/SIInstrInfo.cpp‎
Lines changed: 5 additions & 1 deletion b/‎llvm/lib/Target/AMDGPU/SIInstrInfo.cpp‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎llvm/test/CodeGen/AMDGPU/atomic_optimizations_global_pointer.ll‎
Lines changed: 700 additions & 680 deletions b/‎llvm/test/CodeGen/AMDGPU/atomic_optimizations_global_pointer.ll‎
Lines changed: 700 additions & 680 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll‎
Lines changed: 3067 additions & 2967 deletions b/‎llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll‎
Lines changed: 3067 additions & 2967 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/cse-convergent.ll‎
Lines changed: 11 additions & 9 deletions b/‎llvm/test/CodeGen/AMDGPU/cse-convergent.ll‎
Lines changed: 11 additions & 9 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fadd.ll‎
Lines changed: 1138 additions & 1077 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fadd.ll‎
Lines changed: 1138 additions & 1077 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmax.ll‎
Lines changed: 792 additions & 745 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmax.ll‎
Lines changed: 792 additions & 745 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmin.ll‎
Lines changed: 792 additions & 745 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fmin.ll‎
Lines changed: 792 additions & 745 deletions
diff --git a/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fsub.ll‎
Lines changed: 1179 additions & 1110 deletions b/‎llvm/test/CodeGen/AMDGPU/global_atomics_scan_fsub.ll‎
Lines changed: 1179 additions & 1110 deletions
@@ -2773,6 +2773,9 @@ void AMDGPUDAGToDAGISel::SelectINTRINSIC_WO_CHAIN(SDNode *N) {
   case Intrinsic::amdgcn_wwm:
   case Intrinsic::amdgcn_strict_wwm:
     Opcode = AMDGPU::STRICT_WWM;
+    CurDAG->getMachineFunction()
+        .getInfo<SIMachineFunctionInfo>()
+        ->setInitWholeWave();
     break;
   case Intrinsic::amdgcn_strict_wqm:
     Opcode = AMDGPU::STRICT_WQM;
 
@@ -1055,8 +1055,12 @@ bool AMDGPUInstructionSelector::selectG_INTRINSIC(MachineInstr &I) const {
   case Intrinsic::amdgcn_softwqm:
     return constrainCopyLikeIntrin(I, AMDGPU::SOFT_WQM);
   case Intrinsic::amdgcn_strict_wwm:
-  case Intrinsic::amdgcn_wwm:
+  case Intrinsic::amdgcn_wwm: {
+    MachineFunction *MF = I.getParent()->getParent();
+    SIMachineFunctionInfo *MFInfo = MF->getInfo<SIMachineFunctionInfo>();
+    MFInfo->setInitWholeWave();
     return constrainCopyLikeIntrin(I, AMDGPU::STRICT_WWM);
+  }
   case Intrinsic::amdgcn_strict_wqm:
     return constrainCopyLikeIntrin(I, AMDGPU::STRICT_WQM);
   case Intrinsic::amdgcn_writelane:
 
@@ -184,7 +184,11 @@ static bool resultDependsOnExec(const MachineInstr &MI) {
 bool SIInstrInfo::isIgnorableUse(const MachineOperand &MO) const {
   // Any implicit use of exec by VALU is not a real register read.
   return MO.getReg() == AMDGPU::EXEC && MO.isImplicit() &&
-         isVALU(*MO.getParent()) && !resultDependsOnExec(*MO.getParent());
+         isVALU(*MO.getParent()) && !resultDependsOnExec(*MO.getParent()) &&
+         !MO.getParent()
+              ->getMF()
+              ->getInfo<SIMachineFunctionInfo>()
+              ->hasInitWholeWave();
 }
 
 bool SIInstrInfo::isSafeToSink(MachineInstr &MI,
 
@@ -8,31 +8,33 @@ define i32 @test(i32 %val, i32 %cond) {
 ; GCN-NEXT:    s_xor_saveexec_b32 s4, -1
 ; GCN-NEXT:    buffer_store_dword v2, off, s[0:3], s32 ; 4-byte Folded Spill
 ; GCN-NEXT:    buffer_store_dword v3, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
+; GCN-NEXT:    buffer_store_dword v4, off, s[0:3], s32 offset:8 ; 4-byte Folded Spill
 ; GCN-NEXT:    s_waitcnt_depctr 0xffe3
 ; GCN-NEXT:    s_mov_b32 exec_lo, s4
 ; GCN-NEXT:    s_or_saveexec_b32 s4, -1
 ; GCN-NEXT:    v_mov_b32_e32 v2, 0
 ; GCN-NEXT:    v_cndmask_b32_e64 v3, 0, v0, s4
-; GCN-NEXT:    v_mov_b32_dpp v2, v3 row_xmask:1 row_mask:0xf bank_mask:0xf
-; GCN-NEXT:    s_mov_b32 exec_lo, s4
-; GCN-NEXT:    v_mov_b32_e32 v5, 0
 ; GCN-NEXT:    v_mov_b32_e32 v4, v2
+; GCN-NEXT:    v_mov_b32_dpp v4, v3 row_xmask:1 row_mask:0xf bank_mask:0xf
+; GCN-NEXT:    s_mov_b32 exec_lo, s4
+; GCN-NEXT:    v_mov_b32_e32 v5, v4
 ; GCN-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 0, v1
 ; GCN-NEXT:    s_and_saveexec_b32 s4, vcc_lo
 ; GCN-NEXT:  ; %bb.1: ; %if
 ; GCN-NEXT:    s_or_saveexec_b32 s5, -1
-; GCN-NEXT:    v_mov_b32_e32 v2, 0
-; GCN-NEXT:    v_cndmask_b32_e64 v3, 0, v0, s5
-; GCN-NEXT:    v_mov_b32_dpp v2, v3 row_xmask:1 row_mask:0xf bank_mask:0xf
+; GCN-NEXT:    v_mov_b32_e32 v3, 0
+; GCN-NEXT:    v_cndmask_b32_e64 v2, 0, v0, s5
+; GCN-NEXT:    v_mov_b32_dpp v3, v2 row_xmask:1 row_mask:0xf bank_mask:0xf
 ; GCN-NEXT:    s_mov_b32 exec_lo, s5
-; GCN-NEXT:    v_mov_b32_e32 v5, v2
+; GCN-NEXT:    v_mov_b32_e32 v2, v3
 ; GCN-NEXT:  ; %bb.2: ; %end
 ; GCN-NEXT:    s_or_b32 exec_lo, exec_lo, s4
-; GCN-NEXT:    v_add_nc_u32_e32 v0, v4, v5
+; GCN-NEXT:    v_add_nc_u32_e32 v0, v5, v2
 ; GCN-NEXT:    s_xor_saveexec_b32 s4, -1
-; GCN-NEXT:    s_clause 0x1
+; GCN-NEXT:    s_clause 0x2
 ; GCN-NEXT:    buffer_load_dword v2, off, s[0:3], s32
 ; GCN-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:4
+; GCN-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:8
 ; GCN-NEXT:    s_waitcnt_depctr 0xffe3
 ; GCN-NEXT:    s_mov_b32 exec_lo, s4
 ; GCN-NEXT:    s_waitcnt vmcnt(0)