FPInfo: AMDGPURegBankLegalize

tgymnich · tgymnich · commit e01ddfab3276 · 2025-03-07T14:02:38.000+01:00
diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalize.cpp b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalize.cpp
@@ -21,6 +21,7 @@
 #include "AMDGPUGlobalISelUtils.h"
 #include "AMDGPURegBankLegalizeHelper.h"
 #include "GCNSubtarget.h"
+#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
 #include "llvm/CodeGen/GlobalISel/CSEInfo.h"
 #include "llvm/CodeGen/GlobalISel/CSEMIRBuilder.h"
 #include "llvm/CodeGen/MachineFunctionPass.h"
@@ -106,10 +107,10 @@ class AMDGPURegBankLegalizeCombiner {
   const RegisterBank *VgprRB;
   const RegisterBank *VccRB;
 
-  static constexpr LLT S1 = LLT::scalar(1);
-  static constexpr LLT S16 = LLT::scalar(16);
-  static constexpr LLT S32 = LLT::scalar(32);
-  static constexpr LLT S64 = LLT::scalar(64);
+  static constexpr LLT I1 = LLT::integer(1);
+  static constexpr LLT I16 = LLT::integer(16);
+  static constexpr LLT I32 = LLT::integer(32);
+  static constexpr LLT I64 = LLT::integer(64);
 
 public:
   AMDGPURegBankLegalizeCombiner(MachineIRBuilder &B, const SIRegisterInfo &TRI,
@@ -156,13 +157,13 @@ class AMDGPURegBankLegalizeCombiner {
     // %Dst:lane-mask(s1) = G_AMDGPU_COPY_VCC_SCC %TruncS32Src:sgpr(s32)
     if (isLaneMask(Dst) && MRI.getRegBankOrNull(Src) == SgprRB) {
       auto [Trunc, TruncS32Src] = tryMatch(Src, AMDGPU::G_TRUNC);
-      assert(Trunc && MRI.getType(TruncS32Src) == S32 &&
+      assert(Trunc && MRI.getType(TruncS32Src) == I32 &&
              "sgpr S1 must be result of G_TRUNC of sgpr S32");
 
       B.setInstr(MI);
       // Ensure that truncated bits in BoolSrc are 0.
-      auto One = B.buildConstant({SgprRB, S32}, 1);
-      auto BoolSrc = B.buildAnd({SgprRB, S32}, TruncS32Src, One);
+      auto One = B.buildConstant({SgprRB, I32}, 1);
+      auto BoolSrc = B.buildAnd({SgprRB, I32}, TruncS32Src, One);
       B.buildInstr(AMDGPU::G_AMDGPU_COPY_VCC_SCC, {Dst}, {BoolSrc});
       cleanUpAfterCombine(MI, Trunc);
       return;
@@ -192,7 +193,7 @@ class AMDGPURegBankLegalizeCombiner {
     // %Dst = G_... %TruncSrc
     Register Dst = MI.getOperand(0).getReg();
     Register Src = MI.getOperand(1).getReg();
-    if (MRI.getType(Src) != S1)
+    if (MRI.getType(Src) != I1)
       return;
 
     auto [Trunc, TruncSrc] = tryMatch(Src, AMDGPU::G_TRUNC);
@@ -210,20 +211,20 @@ class AMDGPURegBankLegalizeCombiner {
 
     B.setInstr(MI);
 
-    if (DstTy == S32 && TruncSrcTy == S64) {
-      auto Unmerge = B.buildUnmerge({SgprRB, S32}, TruncSrc);
+    if (DstTy == I32 && TruncSrcTy == I64) {
+      auto Unmerge = B.buildUnmerge({SgprRB, I32}, TruncSrc);
       MRI.replaceRegWith(Dst, Unmerge.getReg(0));
       cleanUpAfterCombine(MI, Trunc);
       return;
     }
 
-    if (DstTy == S32 && TruncSrcTy == S16) {
+    if (DstTy == I32 && TruncSrcTy == I16) {
       B.buildAnyExt(Dst, TruncSrc);
       cleanUpAfterCombine(MI, Trunc);
       return;
     }
 
-    if (DstTy == S16 && TruncSrcTy == S32) {
+    if (DstTy == I16 && TruncSrcTy == I32) {
       B.buildTrunc(Dst, TruncSrc);
       cleanUpAfterCombine(MI, Trunc);
       return;
@@ -305,7 +306,7 @@ bool AMDGPURegBankLegalize::runOnMachineFunction(MachineFunction &MF) {
     // Opcodes that support pretty much all combinations of reg banks and LLTs
     // (except S1). There is no point in writing rules for them.
     if (Opc == AMDGPU::G_BUILD_VECTOR || Opc == AMDGPU::G_UNMERGE_VALUES ||
-        Opc == AMDGPU::G_MERGE_VALUES) {
+        Opc == AMDGPU::G_MERGE_VALUES || Opc == AMDGPU::G_BITCAST) {
       RBLHelper.applyMappingTrivial(*MI);
       continue;
     }
diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeHelper.cpp b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeHelper.cpp
@@ -215,7 +215,7 @@ void RegBankLegalizeHelper::lower(MachineInstr &MI,
         LLT EltTy = DstTy.getElementType();
         B128 = LLT::fixed_vector(128 / EltTy.getSizeInBits(), EltTy);
       } else {
-        B128 = LLT::scalar(128);
+        B128 = LLT::integer(128);
       }
       if (Size / 128 == 2)
         splitLoad(MI, {B128, B128});
diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp b/llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
@@ -1969,7 +1969,7 @@ bool AMDGPURegisterBankInfo::foldExtractEltToCmpSelect(
                                                   IsDivergentIdx, &Subtarget))
     return false;
 
-  LLT S32 = LLT::scalar(32);
+  LLT I32 = LLT::integer(32);
 
   const RegisterBank &DstBank =
     *OpdMapper.getInstrMapping().getOperandMapping(0).BreakDown[0].RegBank;
@@ -1981,10 +1981,10 @@ bool AMDGPURegisterBankInfo::foldExtractEltToCmpSelect(
      SrcBank == AMDGPU::SGPRRegBank &&
      IdxBank == AMDGPU::SGPRRegBank) ? AMDGPU::SGPRRegBank
                                      : AMDGPU::VCCRegBank;
-  LLT CCTy = (CCBank == AMDGPU::SGPRRegBank) ? S32 : LLT::scalar(1);
+  LLT CCTy = (CCBank == AMDGPU::SGPRRegBank) ? I32 : LLT::integer(1);
 
   if (CCBank == AMDGPU::VCCRegBank && IdxBank == AMDGPU::SGPRRegBank) {
-    Idx = B.buildCopy(S32, Idx)->getOperand(0).getReg();
+    Idx = B.buildCopy(I32, Idx)->getOperand(0).getReg();
     MRI.setRegBank(Idx, AMDGPU::VGPRRegBank);
   }
 
@@ -1996,13 +1996,19 @@ bool AMDGPURegisterBankInfo::foldExtractEltToCmpSelect(
   else
     EltTy = MRI.getType(DstRegs[0]);
 
+  if (VecTy.isFloatVector()) {
+    auto ClassOrBank = MRI.getRegClassOrRegBank(VecReg);
+    VecReg = B.buildBitcast({ClassOrBank, VecTy.changeToInteger()}, VecReg).getReg(0);
+  }
+
   auto UnmergeToEltTy = B.buildUnmerge(EltTy, VecReg);
   SmallVector<Register, 2> Res(NumLanes);
-  for (unsigned L = 0; L < NumLanes; ++L)
+  for (unsigned L = 0; L < NumLanes; ++L) {
     Res[L] = UnmergeToEltTy.getReg(L);
+  }
 
   for (unsigned I = 1; I < NumElem; ++I) {
-    auto IC = B.buildConstant(S32, I);
+    auto IC = B.buildConstant(I32, I);
     MRI.setRegBank(IC->getOperand(0).getReg(), AMDGPU::SGPRRegBank);
     auto Cmp = B.buildICmp(CmpInst::ICMP_EQ, CCTy, Idx, IC);
     MRI.setRegBank(Cmp->getOperand(0).getReg(), CCBank);
@@ -2067,7 +2073,7 @@ bool AMDGPURegisterBankInfo::foldInsertEltToCmpSelect(
                                                   IsDivergentIdx, &Subtarget))
     return false;
 
-  LLT S32 = LLT::scalar(32);
+  LLT I32 = LLT::integer(32);
 
   const RegisterBank &DstBank =
     *OpdMapper.getInstrMapping().getOperandMapping(0).BreakDown[0].RegBank;
@@ -2082,10 +2088,10 @@ bool AMDGPURegisterBankInfo::foldInsertEltToCmpSelect(
      InsBank == AMDGPU::SGPRRegBank &&
      IdxBank == AMDGPU::SGPRRegBank) ? AMDGPU::SGPRRegBank
                                      : AMDGPU::VCCRegBank;
-  LLT CCTy = (CCBank == AMDGPU::SGPRRegBank) ? S32 : LLT::scalar(1);
+  LLT CCTy = (CCBank == AMDGPU::SGPRRegBank) ? I32 : LLT::integer(1);
 
   if (CCBank == AMDGPU::VCCRegBank && IdxBank == AMDGPU::SGPRRegBank) {
-    Idx = B.buildCopy(S32, Idx)->getOperand(0).getReg();
+    Idx = B.buildCopy(I32, Idx)->getOperand(0).getReg();
     MRI.setRegBank(Idx, AMDGPU::VGPRRegBank);
   }
 
@@ -2099,11 +2105,17 @@ bool AMDGPURegisterBankInfo::foldInsertEltToCmpSelect(
     EltTy = MRI.getType(InsRegs[0]);
   }
 
+  if (VecTy.getScalarType().isFloat() && !EltTy.isFloat()) {
+    auto RegBankOrClass = MRI.getRegClassOrRegBank(VecReg);
+    auto CastTy = VecTy.changeToInteger();
+    VecReg = B.buildBitcast({RegBankOrClass, CastTy}, VecReg).getReg(0);
+  }
+
   auto UnmergeToEltTy = B.buildUnmerge(EltTy, VecReg);
   SmallVector<Register, 16> Ops(NumElem * NumLanes);
 
   for (unsigned I = 0; I < NumElem; ++I) {
-    auto IC = B.buildConstant(S32, I);
+    auto IC = B.buildConstant(I32, I);
     MRI.setRegBank(IC->getOperand(0).getReg(), AMDGPU::SGPRRegBank);
     auto Cmp = B.buildICmp(CmpInst::ICMP_EQ, CCTy, Idx, IC);
     MRI.setRegBank(Cmp->getOperand(0).getReg(), CCBank);
@@ -2156,7 +2168,7 @@ void AMDGPURegisterBankInfo::applyMappingSMULU64(
   MachineRegisterInfo &MRI = OpdMapper.getMRI();
   MachineInstr &MI = OpdMapper.getMI();
   Register DstReg = MI.getOperand(0).getReg();
-  LLT HalfTy = LLT::scalar(32);
+  LLT HalfTy = LLT::integer(32);
 
   // Depending on where the source registers came from, the generic code may
   // have decided to split the inputs already or not. If not, we still need to
@@ -2828,7 +2840,7 @@ void AMDGPURegisterBankInfo::applyMappingImpl(
     Register DstReg = MI.getOperand(0).getReg();
     Register SrcReg = MI.getOperand(1).getReg();
 
-    const LLT S32 = LLT::scalar(32);
+    const LLT I32 = LLT::integer(32);
     LLT DstTy = MRI.getType(DstReg);
     LLT SrcTy = MRI.getType(SrcReg);
 
@@ -2891,10 +2903,10 @@ void AMDGPURegisterBankInfo::applyMappingImpl(
 
     assert(DstTy.getSizeInBits() == 64);
 
-    LLT Vec32 = LLT::fixed_vector(2 * SrcTy.getNumElements(), 32);
+    LLT Vec32 = LLT::fixed_vector(2 * SrcTy.getNumElements(), I32);
 
     auto CastSrc = B.buildBitcast(Vec32, SrcReg);
-    auto One = B.buildConstant(S32, 1);
+    auto One = B.buildConstant(I32, 1);
 
     MachineBasicBlock::iterator MII = MI.getIterator();
 
@@ -2905,8 +2917,8 @@ void AMDGPURegisterBankInfo::applyMappingImpl(
     MachineInstrSpan Span(MII, &B.getMBB());
 
     // Compute 32-bit element indices, (2 * OrigIdx, 2 * OrigIdx + 1).
-    auto IdxLo = B.buildShl(S32, BaseIdxReg, One);
-    auto IdxHi = B.buildAdd(S32, IdxLo, One);
+    auto IdxLo = B.buildShl(I32, BaseIdxReg, One);
+    auto IdxHi = B.buildAdd(I32, IdxLo, One);
 
     auto Extract0 = B.buildExtractVectorElement(DstRegs[0], CastSrc, IdxLo);
     auto Extract1 = B.buildExtractVectorElement(DstRegs[1], CastSrc, IdxHi);
@@ -2932,8 +2944,8 @@ void AMDGPURegisterBankInfo::applyMappingImpl(
 
     if (NeedCopyToVGPR) {
       MachineBasicBlock *LoopBB = Extract1->getParent();
-      Register TmpReg0 = MRI.createGenericVirtualRegister(S32);
-      Register TmpReg1 = MRI.createGenericVirtualRegister(S32);
+      Register TmpReg0 = MRI.createGenericVirtualRegister(I32);
+      Register TmpReg1 = MRI.createGenericVirtualRegister(I32);
       MRI.setRegBank(TmpReg0, AMDGPU::SGPRRegBank);
       MRI.setRegBank(TmpReg1, AMDGPU::SGPRRegBank);
 

Original file line number	Diff line number	Diff line change
`@@ -215,7 +215,7 @@ void RegBankLegalizeHelper::lower(MachineInstr &MI,`
`215`	`215`	`LLT EltTy = DstTy.getElementType();`
`216`	`216`	`B128 = LLT::fixed_vector(128 / EltTy.getSizeInBits(), EltTy);`
`217`	`217`	`} else {`
`218`		`- B128 = LLT::scalar(128);`
	`218`	`+ B128 = LLT::integer(128);`
`219`	`219`	`}`
`220`	`220`	`if (Size / 128 == 2)`
`221`	`221`	`splitLoad(MI, {B128, B128});`