Merge amd-gfx13 and amd-gfx into amd-gfx-gfx13

piotrAMD · piotrAMD · commit a6d2d4c9d67f · 2025-08-07T19:29:13.000+02:00
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp b/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
@@ -2143,6 +2143,21 @@ bool AMDGPUDAGToDAGISel::SelectGlobalSAddrNoIOffsetM0(SDNode *N, SDValue Addr,
   return true;
 }
 
+bool AMDGPUDAGToDAGISel::SelectGlobalSAddrNoScaleOffsetM0(
+    SDNode *N, SDValue Addr, SDValue &SAddr, SDValue &VOffset, SDValue &Offset,
+    SDValue &CPol) const {
+  bool ScaleOffset;
+  if (!SelectGlobalSAddr(N, Addr, SAddr, VOffset, Offset, ScaleOffset, true,
+                         false))
+    return false;
+
+  // We are assuming CPol is second from last operand of the intrinsic.
+  auto PassedCPol =
+      N->getConstantOperandVal(N->getNumOperands() - 2) & ~AMDGPU::CPol::SCAL;
+  CPol = CurDAG->getTargetConstant(PassedCPol, SDLoc(), MVT::i32);
+  return true;
+}
+
 bool AMDGPUDAGToDAGISel::SelectGlobalSAddrNoIOffsetScaleOffsetM0(
     SDNode *N, SDValue Addr, SDValue &SAddr, SDValue &VOffset,
     SDValue &CPol) const {
@@ -3182,8 +3197,9 @@ void AMDGPUDAGToDAGISel::SelectLOAD_MCAST(MemIntrinsicSDNode *N,
   }
   case AMDGPUAS::DISTRIBUTED: {
     // Choose best addressing mode
-    if (SelectGlobalSAddrCPolM0(N, N->getOperand(3) /*Addr*/, V0 /*SAddr*/,
-                                V1 /*VOffset*/, V2 /*Offset*/, V3 /*CPol*/)) {
+    if (SelectGlobalSAddrNoScaleOffsetM0(N, N->getOperand(3) /*Addr*/,
+                                         V0 /*SAddr*/, V1 /*VOffset*/,
+                                         V2 /*Offset*/, V3 /*CPol*/)) {
       MCastOps.push_back(V0);
       MCastOps.push_back(V1);
       MCastOps.push_back(V2);
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.h b/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.h
@@ -182,6 +182,9 @@ class AMDGPUDAGToDAGISel : public SelectionDAGISel {
                                   SDValue &VOffset, SDValue &CPol) const;
   bool SelectGlobalSAddrNoIOffsetM0(SDNode *N, SDValue Addr, SDValue &SAddr,
                                     SDValue &VOffset, SDValue &CPol) const;
+  bool SelectGlobalSAddrNoScaleOffsetM0(SDNode *N, SDValue Addr, SDValue &SAddr,
+                                        SDValue &VOffset, SDValue &Offset,
+                                        SDValue &CPol) const;
   bool SelectGlobalSAddrNoScaleOffset(SDNode *N, SDValue Addr, SDValue &SAddr,
                                       SDValue &VOffset, SDValue &Offset,
                                       SDValue &CPol) const;
diff --git a/llvm/lib/Target/AMDGPU/AMDGPULowerModuleLDSPass.cpp b/llvm/lib/Target/AMDGPU/AMDGPULowerModuleLDSPass.cpp
@@ -953,43 +953,65 @@ class AMDGPULowerModuleLDS {
     return NewGV;
   }
 
+  /// Assigns an absolute address for special kinds of GVs like semaphores and
+  /// barriers. Does this in two rounds: first by assigning a module-absolute
+  /// address for any GV that is indirectly used by more than one kernel, and
+  /// second by computing a kernel relative assignment for any GVs remaining.
   bool lowerSpecialLDSVariables(
       Module &M, LDSUsesInfoTy &LDSUsesInfo,
       VariableFunctionMap &LDSToKernelsThatNeedToAccessItIndirectly) {
     bool Changed = false;
-    constexpr unsigned NumScopes =
-        static_cast<unsigned>(Barrier::Scope::NUM_SCOPES);
     const DataLayout &DL = M.getDataLayout();
+
+    unsigned NumSemAbsolutes[MAX_WAVES_PER_WAVEGROUP] = {0};
+    constexpr unsigned NumBarScopes =
+        static_cast<unsigned>(Barrier::Scope::NUM_SCOPES);
+    unsigned NumBarAbsolutes[NumBarScopes] = {0};
+
     // The 1st round: give module-absolute assignments
-    unsigned NumAbsolutes[NumScopes] = {0};
     std::vector<GlobalVariable *> OrderedGVs;
     for (auto &K : LDSToKernelsThatNeedToAccessItIndirectly) {
       GlobalVariable *GV = K.first;
-      if (!isNamedBarrier(*GV))
+      if (!(isNamedBarrier(*GV) || isLDSSemaphore(*GV)))
         continue;
-      // give a module-absolute assignment if it is indirectly accessed by
+
+      // Give a module-absolute assignment if it is indirectly accessed by
       // multiple kernels. This is not precise, but we don't want to duplicate
       // a function when it is called by multiple kernels.
       if (LDSToKernelsThatNeedToAccessItIndirectly[GV].size() > 1) {
         OrderedGVs.push_back(GV);
       } else {
-        // leave it to the 2nd round, which will give a kernel-relative
-        // assignment if it is only indirectly accessed by one kernel
+        // Leave it to the 2nd round, which will give a kernel-relative
+        // assignment if it is only indirectly accessed by one kernel.
         LDSUsesInfo.direct_access[*K.second.begin()].insert(GV);
       }
       LDSToKernelsThatNeedToAccessItIndirectly.erase(GV);
     }
     OrderedGVs = sortByName(std::move(OrderedGVs));
     for (GlobalVariable *GV : OrderedGVs) {
-      TargetExtType *ExtTy = isNamedBarrier(*GV);
-      unsigned BarrierScope = ExtTy->getIntParameter(0);
-      unsigned BarId = NumAbsolutes[BarrierScope] + 1;
-      unsigned BarCnt = DL.getTypeAllocSize(GV->getValueType()) / 16;
-      NumAbsolutes[BarrierScope] += BarCnt;
-
-      // 4 bits for alignment, 5 bits for the barrier num,
-      // 3 bits for the barrier scope
-      unsigned Offset = 0x802000u | BarrierScope << 9 | BarId << 4;
+      unsigned Offset;
+      if (TargetExtType *ExtTy = isNamedBarrier(*GV)) {
+        unsigned BarrierScope = ExtTy->getIntParameter(0);
+        unsigned BarId = NumBarAbsolutes[BarrierScope] + 1;
+        unsigned BarCnt = DL.getTypeAllocSize(GV->getValueType()) / 16;
+        NumBarAbsolutes[BarrierScope] += BarCnt;
+
+        // 4 bits for alignment, 5 bits for the barrier num,
+        // 3 bits for the barrier scope
+        Offset = 0x802000u | BarrierScope << 9 | BarId << 4;
+
+      } else if (TargetExtType *ExtTy = isLDSSemaphore(*GV)) {
+        unsigned OwningRank = ExtTy->getIntParameter(0);
+        assert(OwningRank < MAX_WAVES_PER_WAVEGROUP); 
+        unsigned Num = ++NumSemAbsolutes[OwningRank];
+
+        // 4 bits for alignment, 4 bits for the semaphore num,
+        // 4 bits for the owning rank
+        Offset = 0x801000u | OwningRank << 8 | Num << 4;
+
+      } else
+        llvm_unreachable("Unhandled special variable type.");
+
       recordLDSAbsoluteAddress(&M, GV, Offset);
     }
     OrderedGVs.clear();
@@ -1005,32 +1027,52 @@ class AMDGPULowerModuleLDS {
     }
     OrderedKernels = sortByName(std::move(OrderedKernels));
 
-    DenseMap<Function *, unsigned> Kernel2BarId[NumScopes];
+    DenseMap<Function *, unsigned> Kernel2BarId[NumBarScopes];
+    DenseMap<Function *, unsigned> Kernel2SemRelative[MAX_WAVES_PER_WAVEGROUP];
     for (Function *F : OrderedKernels) {
+
+      // Collect all globals for each kernel.
       for (GlobalVariable *GV : LDSUsesInfo.direct_access[F]) {
-        if (!isNamedBarrier(*GV))
+        if (!(isNamedBarrier(*GV) || isLDSSemaphore(*GV)))
           continue;
 
         LDSUsesInfo.direct_access[F].erase(GV);
         if (GV->isAbsoluteSymbolRef()) {
-          // already assigned
+          // Already assigned.
           continue;
         }
         OrderedGVs.push_back(GV);
       }
+
       OrderedGVs = sortByName(std::move(OrderedGVs));
       for (GlobalVariable *GV : OrderedGVs) {
         // GV could also be used directly by other kernels. If so, we need to
         // create a new GV used only by this kernel and its function.
         auto NewGV = uniquifyGVPerKernel(M, GV, F);
         Changed |= (NewGV != GV);
-        TargetExtType *ExtTy = isNamedBarrier(*GV);
-        unsigned BarrierScope = ExtTy->getIntParameter(0);
-        unsigned BarId = Kernel2BarId[BarrierScope][F];
-        BarId += NumAbsolutes[BarrierScope] + 1;
-        unsigned BarCnt = DL.getTypeAllocSize(GV->getValueType()) / 16;
-        Kernel2BarId[BarrierScope][F] += BarCnt;
-        unsigned Offset = 0x802000u | BarrierScope << 9 | BarId << 4;
+        unsigned Offset;
+        if (TargetExtType *ExtTy = isNamedBarrier(*GV)) {
+          // Place each barrier in the next open slot above the module-relative
+          // and already assigned kernel-relative barriers.
+          unsigned BarrierScope = ExtTy->getIntParameter(0);
+          unsigned BarId = Kernel2BarId[BarrierScope][F];
+          BarId += NumBarAbsolutes[BarrierScope] + 1;
+          unsigned BarCnt = DL.getTypeAllocSize(GV->getValueType()) / 16;
+          Kernel2BarId[BarrierScope][F] += BarCnt;
+          Offset = 0x802000u | BarrierScope << 9 | BarId << 4;
+
+        } else if (TargetExtType *ExtTy = isLDSSemaphore(*GV)) {
+          // Determine which semaphore GVs were already assigned, and for the
+          // remaining ones assign the semaphore nums above.
+          unsigned OwningRank =
+              ExtTy->getIntParameter(0) % MAX_WAVES_PER_WAVEGROUP;
+          unsigned Num = NumSemAbsolutes[OwningRank];
+          Kernel2SemRelative[OwningRank][F]++;
+          Num += Kernel2SemRelative[OwningRank][F];
+          Offset = 0x801000u | OwningRank << 8 | Num << 4;
+
+        } else
+          llvm_unreachable("Unhandled special variable type.");
         recordLDSAbsoluteAddress(&M, NewGV, Offset);
       }
       OrderedGVs.clear();
@@ -1039,7 +1081,7 @@ class AMDGPULowerModuleLDS {
     for (auto &K : LDSUsesInfo.indirect_access) {
       assert(isKernelLDS(K.first));
       for (GlobalVariable *GV : K.second) {
-        if (isNamedBarrier(*GV))
+        if (isNamedBarrier(*GV) || isLDSSemaphore(*GV))
           K.second.erase(GV);
       }
     }
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUMachineFunction.cpp b/llvm/lib/Target/AMDGPU/AMDGPUMachineFunction.cpp
@@ -116,13 +116,15 @@ unsigned AMDGPUMachineFunction::allocateLDSGlobal(const DataLayout &DL,
     }
 
     if (TargetExtType *TTy = AMDGPU::isLDSSemaphore(GV)) {
-      unsigned OwningRank = TTy->getIntParameter(0) % MAX_WAVES_PER_WAVEGROUP;
-      unsigned Num = ++NumSemaphores[OwningRank];
-      Offset = 0x801000u | OwningRank << 8 | Num << 4;
       // TODO-GFX13: Diagnose trying to allocate more than the 5 semaphores
       // supported by hardware.
-      Entry.first->second = Offset;
-      return Offset;
+      std::optional<unsigned> SemAddr =
+          getAbsoluteAddress(GV, AMDGPUAS::LOCAL_ADDRESS);
+      if (!SemAddr)
+        llvm_unreachable("Semaphore should have an assigned address");
+      Entry.first->second = SemAddr.value();
+      recordNumSemaphores(SemAddr.value());
+      return SemAddr.value();
     }
 
     std::optional<uint32_t> MaybeAbs =
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUMachineFunction.h b/llvm/lib/Target/AMDGPU/AMDGPUMachineFunction.h
@@ -114,6 +114,12 @@ class AMDGPUMachineFunction : public MachineFunctionInfo {
     LaneSharedVGPRSize = std::max(LaneSharedVGPRSize, VGPRSize);
   }
 
+  void recordNumSemaphores(uint32_t GVAddr) {
+    unsigned OwningRank = ((GVAddr & 0xfff) >> 8);
+    unsigned NumSems = ((GVAddr & 0xff) >> 4);
+    NumSemaphores[OwningRank] = std::max(NumSemaphores[OwningRank], NumSems);
+  }
+
   void recordNumNamedBarriers(uint32_t GVAddr, unsigned BarCnt) {
     NumNamedBarriers =
         std::max(NumNamedBarriers, ((GVAddr & 0x1ff) >> 4) + BarCnt - 1);
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUMemoryUtils.cpp b/llvm/lib/Target/AMDGPU/AMDGPUMemoryUtils.cpp
@@ -87,8 +87,6 @@ bool isLDSVariableToLower(const GlobalVariable &GV) {
   if (GV.getType()->getPointerAddressSpace() != AMDGPUAS::LOCAL_ADDRESS) {
     return false;
   }
-  if (isLDSSemaphore(GV))
-    return false;
   if (isDynamicLDS(GV)) {
     return true;
   }
@@ -295,7 +293,7 @@ LDSUsesInfoTy getTransitiveUsesOfLDS(const CallGraph &CG, Module &M) {
             AMDGPU::isDynamicLDS(*GV) && DirectMapKernel.contains(Fn);
         if (IsDirectMapDynLDSGV)
           continue;
-        if (isNamedBarrier(*GV)) {
+        if (isNamedBarrier(*GV) || isLDSSemaphore(*GV)) {
           HasSpecialGVs = true;
           continue;
         }
diff --git a/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp b/llvm/lib/Target/AMDGPU/SIInstrInfo.cpp
@@ -7373,6 +7373,17 @@ SIInstrInfo::legalizeOperands(MachineInstr &MI,
     return CreatedBB;
   }
 
+  bool isSoffsetLegal = true;
+  int SoffsetIdx =
+      AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::soffset);
+  if (SoffsetIdx != -1) {
+    MachineOperand *Soffset = &MI.getOperand(SoffsetIdx);
+    if (Soffset->isReg() && Soffset->getReg().isVirtual() &&
+        !RI.isSGPRClass(MRI.getRegClass(Soffset->getReg()))) {
+      isSoffsetLegal = false;
+    }
+  }
+
   // Legalize MIMG/VIMAGE/VSAMPLE and MUBUF/MTBUF for shaders.
   //
   // Shaders only generate MUBUF/MTBUF instructions via intrinsics or via
@@ -7384,8 +7395,15 @@ SIInstrInfo::legalizeOperands(MachineInstr &MI,
                                     ? AMDGPU::OpName::rsrc
                                     : AMDGPU::OpName::srsrc;
     MachineOperand *SRsrc = getNamedOperand(MI, RSrcOpName);
-    if (SRsrc && !RI.isSGPRClass(MRI.getRegClass(SRsrc->getReg())))
-      CreatedBB = loadMBUFScalarOperandsFromVGPR(*this, MI, {SRsrc}, MDT);
+    if (SRsrc && !RI.isSGPRClass(MRI.getRegClass(SRsrc->getReg()))) {
+      if (isSoffsetLegal) {
+        CreatedBB = loadMBUFScalarOperandsFromVGPR(*this, MI, {SRsrc}, MDT);
+      } else {
+        MachineOperand *Soffset = getNamedOperand(MI, AMDGPU::OpName::soffset);
+        CreatedBB =
+            loadMBUFScalarOperandsFromVGPR(*this, MI, {SRsrc, Soffset}, MDT);
+      }
+    }
 
     AMDGPU::OpName SampOpName =
         isMIMG(MI) ? AMDGPU::OpName::ssamp : AMDGPU::OpName::samp;
@@ -7593,17 +7611,6 @@ SIInstrInfo::legalizeOperands(MachineInstr &MI,
   }
 
   // Legalize MUBUF instructions.
-  bool isSoffsetLegal = true;
-  int SoffsetIdx =
-      AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::soffset);
-  if (SoffsetIdx != -1) {
-    MachineOperand *Soffset = &MI.getOperand(SoffsetIdx);
-    if (Soffset->isReg() && Soffset->getReg().isVirtual() &&
-        !RI.isSGPRClass(MRI.getRegClass(Soffset->getReg()))) {
-      isSoffsetLegal = false;
-    }
-  }
-
   bool isRsrcLegal = true;
   int RsrcIdx =
       AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::srsrc);
diff --git a/llvm/test/CodeGen/AMDGPU/legalize-operands-store-idx.ll b/llvm/test/CodeGen/AMDGPU/legalize-operands-store-idx.ll
@@ -75,25 +75,19 @@ main_body:
   ret void
 }
 
-define void @vnbr(ptr addrspace(10) %itp, ptr addrspace(10) %itp_refl) {
+define amdgpu_kernel void @vnbr(ptr addrspace(10) %itp, ptr addrspace(10) %itp_refl) {
 ; GFX13-LABEL: vnbr:
 ; GFX13:       ; %bb.0: ; %main_body
-; GFX13-NEXT:    s_wait_loadcnt_dscnt 0x0
-; GFX13-NEXT:    s_wait_expcnt 0x0
-; GFX13-NEXT:    s_wait_samplecnt 0x0
-; GFX13-NEXT:    s_wait_rtscnt 0x0
-; GFX13-NEXT:    s_wait_kmcnt 0x0
-; GFX13-NEXT:    v_dual_lshrrev_b32 v1, 2, v1 :: v_dual_lshrrev_b32 v0, 2, v0
-; GFX13-NEXT:    s_delay_alu instid0(VALU_DEP_1) | instskip(NEXT) | instid1(VALU_DEP_2)
-; GFX13-NEXT:    v_readfirstlane_b32 s0, v1
-; GFX13-NEXT:    v_readfirstlane_b32 s1, v0
+; GFX13-NEXT:    s_load_b64 s[0:1], s[4:5], 0x24
 ; GFX13-NEXT:    v_mov_b32_e32 v0, 0
-; GFX13-NEXT:    s_set_gpr_idx_u32 idx2, s0
-; GFX13-NEXT:    s_set_gpr_idx_u32 idx1, s1
+; GFX13-NEXT:    s_wait_kmcnt 0x0
+; GFX13-NEXT:    s_lshr_b32 s1, s1, 2
+; GFX13-NEXT:    s_lshr_b32 s0, s0, 2
+; GFX13-NEXT:    s_set_gpr_idx_u32 idx2, s1
+; GFX13-NEXT:    s_set_gpr_idx_u32 idx1, s0
 ; GFX13-NEXT:    s_set_vgpr_frames 0x48 ; vsrc0_idx=0 vsrc1_idx=2 vsrc2_idx=0 vdst_idx=1 vsrc0_msb=0 vsrc1_msb=0 vsrc2_msb=0 vdst_msb=0
-; GFX13-NEXT:    v_send_vgpr_next_b32 g1[0], g2[0], v0 sema_id:2 sema_wave_id:1 sema_id_refl:1 sema_wave_id_refl:1 wait_va_vdst:0
-; GFX13-NEXT:    s_set_vgpr_frames 0 ; vsrc0_idx=0 vsrc1_idx=0 vsrc2_idx=0 vdst_idx=0 vsrc0_msb=0 vsrc1_msb=0 vsrc2_msb=0 vdst_msb=0
-; GFX13-NEXT:    s_set_pc_i64 s[30:31]
+; GFX13-NEXT:    v_send_vgpr_next_b32 g1[0], g2[0], v0 sema_id:1 sema_wave_id:1 sema_id_refl:2 sema_wave_id_refl:1 wait_va_vdst:0
+; GFX13-NEXT:    s_endpgm
 main_body:
   call void @llvm.amdgcn.spatial.cluster.send.next(i32 0, ptr addrspace(10) %itp, ptr addrspace(3) @sem,
                                                 ptr addrspace(10) %itp_refl, ptr addrspace(3) @sem2, i32 0);
diff --git a/llvm/test/CodeGen/AMDGPU/llvm.amdgcn.load.mcast.ll b/llvm/test/CodeGen/AMDGPU/llvm.amdgcn.load.mcast.ll
@@ -943,10 +943,11 @@ define void @load_mcast_monitor_b32_saddr_scale_offset_distributed(ptr addrspace
 ; CHECK-NEXT:    s_wait_kmcnt 0x0
 ; CHECK-NEXT:    s_mov_b32 s2, s33
 ; CHECK-NEXT:    s_mov_b32 s33, s32
+; CHECK-NEXT:    v_lshlrev_b32_e32 v2, 2, v2
 ; CHECK-NEXT:    s_mov_b32 m0, s1
 ; CHECK-NEXT:    s_set_gpr_idx_u32 idx1, 0
 ; CHECK-NEXT:    s_set_vgpr_frames 0x44 ; vsrc0_idx=0 vsrc1_idx=1 vsrc2_idx=0 vdst_idx=1 vsrc0_msb=0 vsrc1_msb=0 vsrc2_msb=0 vdst_msb=0
-; CHECK-NEXT:    dds_load_mcast_b32 g1[0], v2, s0 scale_offset th:TH_LOAD_BYPASS scope:SCOPE_SYS
+; CHECK-NEXT:    dds_load_mcast_b32 g1[0], v2, s0 th:TH_LOAD_BYPASS scope:SCOPE_SYS
 ; CHECK-NEXT:    s_wait_loadcnt 0x0
 ; CHECK-NEXT:    global_store_b32 v[0:1], g1[0], off
 ; CHECK-NEXT:    s_mov_b32 s33, s2
@@ -1054,10 +1055,11 @@ define void @load_mcast_monitor_b64_saddr_scale_offset_distributed(ptr addrspace
 ; CHECK-NEXT:    s_wait_kmcnt 0x0
 ; CHECK-NEXT:    s_mov_b32 s2, s33
 ; CHECK-NEXT:    s_mov_b32 s33, s32
+; CHECK-NEXT:    v_lshlrev_b32_e32 v2, 3, v2
 ; CHECK-NEXT:    s_mov_b32 m0, s1
 ; CHECK-NEXT:    s_set_gpr_idx_u32 idx1, 0
 ; CHECK-NEXT:    s_set_vgpr_frames 0x44 ; vsrc0_idx=0 vsrc1_idx=1 vsrc2_idx=0 vdst_idx=1 vsrc0_msb=0 vsrc1_msb=0 vsrc2_msb=0 vdst_msb=0
-; CHECK-NEXT:    dds_load_mcast_b64 g1[0:1], v2, s0 scale_offset th:TH_LOAD_BYPASS scope:SCOPE_SYS
+; CHECK-NEXT:    dds_load_mcast_b64 g1[0:1], v2, s0 th:TH_LOAD_BYPASS scope:SCOPE_SYS
 ; CHECK-NEXT:    s_wait_loadcnt 0x0
 ; CHECK-NEXT:    global_store_b64 v[0:1], g1[0:1], off
 ; CHECK-NEXT:    s_mov_b32 s33, s2
diff --git a/llvm/test/CodeGen/AMDGPU/llvm.amdgcn.struct.buffer.load.format.ll b/llvm/test/CodeGen/AMDGPU/llvm.amdgcn.struct.buffer.load.format.ll
diff --git a/llvm/test/CodeGen/AMDGPU/rank-specialization-lower-module-lds.ll b/llvm/test/CodeGen/AMDGPU/rank-specialization-lower-module-lds.ll
diff --git a/llvm/test/CodeGen/AMDGPU/semaphore.ll b/llvm/test/CodeGen/AMDGPU/semaphore.ll
diff --git a/llvm/test/CodeGen/AMDGPU/spatial-cluster.ll b/llvm/test/CodeGen/AMDGPU/spatial-cluster.ll

Original file line number	Diff line number	Diff line change
`@@ -87,8 +87,6 @@ bool isLDSVariableToLower(const GlobalVariable &GV) {`
`87`	`87`	`if (GV.getType()->getPointerAddressSpace() != AMDGPUAS::LOCAL_ADDRESS) {`
`88`	`88`	`return false;`
`89`	`89`	`}`
`90`		`- if (isLDSSemaphore(GV))`
`91`		`- return false;`
`92`	`90`	`if (isDynamicLDS(GV)) {`
`93`	`91`	`return true;`
`94`	`92`	`}`
`@@ -295,7 +293,7 @@ LDSUsesInfoTy getTransitiveUsesOfLDS(const CallGraph &CG, Module &M) {`
`295`	`293`	`AMDGPU::isDynamicLDS(*GV) && DirectMapKernel.contains(Fn);`
`296`	`294`	`if (IsDirectMapDynLDSGV)`
`297`	`295`	`continue;`
`298`		`- if (isNamedBarrier(*GV)) {`
	`296`	`+ if (isNamedBarrier(GV) \|\| isLDSSemaphore(GV)) {`
`299`	`297`	`HasSpecialGVs = true;`
`300`	`298`	`continue;`
`301`	`299`	`}`