llvm · thetheodor · Aug 12, 2025 · Aug 21, 2025 · Aug 22, 2025 · Aug 22, 2025
diff --git a/clang/lib/CodeGen/BackendUtil.cpp b/clang/lib/CodeGen/BackendUtil.cpp
@@ -1444,15 +1444,16 @@ void clang::emitBackendOutput(CompilerInstance &CI, CodeGenOptions &CGOpts,
 
   // Verify clang's TargetInfo DataLayout against the LLVM TargetMachine's
   // DataLayout.
-  if (AsmHelper.TM) {
-    std::string DLDesc = M->getDataLayout().getStringRepresentation();
-    if (DLDesc != TDesc) {
+  if (AsmHelper.TM)
+    if (!AsmHelper.TM->isCompatibleDataLayout(M->getDataLayout()) ||
+        !AsmHelper.TM->isCompatibleDataLayout(DataLayout(TDesc))) {
+      std::string DLDesc = M->getDataLayout().getStringRepresentation();
       unsigned DiagID = Diags.getCustomDiagID(
-          DiagnosticsEngine::Error, "backend data layout '%0' does not match "
-                                    "expected target description '%1'");
+          DiagnosticsEngine::Error,
+          "backend data layout '%0' is not compatible with "
+          "expected target description '%1'");
       Diags.Report(DiagID) << DLDesc << TDesc;
     }
-  }
 }
 
 // With -fembed-bitcode, save a copy of the llvm IR as data in the

diff --git a/llvm/include/llvm/Target/TargetMachine.h b/llvm/include/llvm/Target/TargetMachine.h
@@ -208,7 +208,7 @@ class LLVM_ABI TargetMachine {
   /// The LLVM Module owns a DataLayout that is used for the target independent
   /// optimizations and code generation. This hook provides a target specific
   /// check on the validity of this DataLayout.
-  bool isCompatibleDataLayout(const DataLayout &Candidate) const {
+  virtual bool isCompatibleDataLayout(const DataLayout &Candidate) const {
     return DL == Candidate;
   }
 

diff --git a/llvm/lib/IR/Verifier.cpp b/llvm/lib/IR/Verifier.cpp
@@ -120,6 +120,7 @@
 #include "llvm/Support/ErrorHandling.h"
 #include "llvm/Support/MathExtras.h"
 #include "llvm/Support/ModRef.h"
+#include "llvm/Support/NVPTXAddrSpace.h"
 #include "llvm/Support/raw_ostream.h"
 #include <algorithm>
 #include <cassert>
@@ -4498,6 +4499,13 @@ void Verifier::visitAllocaInst(AllocaInst &AI) {
           "alloca on amdgpu must be in addrspace(5)", &AI);
   }
 
+  if (TT.isNVPTX()) {
+    Check(AI.getAddressSpace() == NVPTXAS::ADDRESS_SPACE_LOCAL ||
+              AI.getAddressSpace() == NVPTXAS::ADDRESS_SPACE_GENERIC,
+          "AllocaInst can only be in Generic or Local address space for NVPTX.",
+          &AI);
+  }
+
   visitInstruction(AI);
 }
 

diff --git a/llvm/lib/Target/NVPTX/NVPTX.h b/llvm/lib/Target/NVPTX/NVPTX.h
@@ -48,7 +48,7 @@ MachineFunctionPass *createNVPTXPrologEpilogPass();
 MachineFunctionPass *createNVPTXReplaceImageHandlesPass();
 FunctionPass *createNVPTXImageOptimizerPass();
 FunctionPass *createNVPTXLowerArgsPass();
-FunctionPass *createNVPTXLowerAllocaPass();
+ModulePass *createNVPTXLowerAllocaPass();
 FunctionPass *createNVPTXLowerUnreachablePass(bool TrapUnreachable,
                                               bool NoTrapAfterNoreturn);
 FunctionPass *createNVPTXTagInvariantLoadsPass();

diff --git a/llvm/lib/Target/NVPTX/NVPTXAsmPrinter.cpp b/llvm/lib/Target/NVPTX/NVPTXAsmPrinter.cpp
@@ -80,6 +80,7 @@
 #include "llvm/Support/Compiler.h"
 #include "llvm/Support/Endian.h"
 #include "llvm/Support/ErrorHandling.h"
+#include "llvm/Support/NVPTXAddrSpace.h"
 #include "llvm/Support/NativeFormatting.h"
 #include "llvm/Support/raw_ostream.h"
 #include "llvm/Target/TargetLoweringObjectFile.h"
@@ -1483,14 +1484,12 @@ void NVPTXAsmPrinter::setAndEmitFunctionVirtualRegisters(
   int64_t NumBytes = MFI.getStackSize();
   if (NumBytes) {
     O << "\t.local .align " << MFI.getMaxAlign().value() << " .b8 \t"
-      << DEPOTNAME << getFunctionNumber() << "[" << NumBytes << "];\n";
-    if (static_cast<const NVPTXTargetMachine &>(MF.getTarget()).is64Bit()) {
-      O << "\t.reg .b64 \t%SP;\n"
-        << "\t.reg .b64 \t%SPL;\n";
-    } else {
-      O << "\t.reg .b32 \t%SP;\n"
-        << "\t.reg .b32 \t%SPL;\n";
-    }
+      << DEPOTNAME << getFunctionNumber() << "[" << NumBytes << "];\n"
+      << "\t.reg .b"
+      << MF.getTarget().getPointerSizeInBits(ADDRESS_SPACE_GENERIC)
+      << " \t%SP;\n"
+      << "\t.reg .b" << MF.getTarget().getPointerSizeInBits(ADDRESS_SPACE_LOCAL)
+      << " \t%SPL;\n";
   }
 
   // Go through all virtual registers to establish the mapping between the

diff --git a/llvm/lib/Target/NVPTX/NVPTXFrameLowering.cpp b/llvm/lib/Target/NVPTX/NVPTXFrameLowering.cpp
@@ -48,25 +48,45 @@ void NVPTXFrameLowering::emitPrologue(MachineFunction &MF,
     //   mov %SPL, %depot;
     //   cvta.local %SP, %SPL;
     // for local address accesses in MF.
-    bool Is64Bit =
-        static_cast<const NVPTXTargetMachine &>(MF.getTarget()).is64Bit();
+    // if the generic and local address spaces are different,
+    // it emits:
+    //   mov %SPL, %depot;
+    //   cvt.u64.u32 %SP, %SPL;
+    //   cvta.local %SP, %SP;
+
+    if (MR.use_empty(NRI->getFrameLocalRegister(MF)))
+      // If %SPL is not used, do not bother emitting anything
+      return;
+    bool IsLocal64Bit =
+        MF.getTarget().getPointerSize(NVPTXAS::ADDRESS_SPACE_LOCAL) == 8;
+    bool IsGeneric64Bit =
+        MF.getTarget().getPointerSize(NVPTXAS::ADDRESS_SPACE_GENERIC) == 8;
+    bool NeedsCast = IsGeneric64Bit != IsLocal64Bit;
+    Register SourceReg = NRI->getFrameLocalRegister(MF);
+    if (NeedsCast)
+      SourceReg = NRI->getFrameRegister(MF);
+
     unsigned CvtaLocalOpcode =
-        (Is64Bit ? NVPTX::cvta_local_64 : NVPTX::cvta_local);
-    unsigned MovDepotOpcode =
-        (Is64Bit ? NVPTX::MOV_DEPOT_ADDR_64 : NVPTX::MOV_DEPOT_ADDR);
-    if (!MR.use_empty(NRI->getFrameRegister(MF))) {
-      // If %SP is not used, do not bother emitting "cvta.local %SP, %SPL".
+        (IsGeneric64Bit ? NVPTX::cvta_local_64 : NVPTX::cvta_local);
+
+    MBBI = BuildMI(MBB, MBBI, dl,
+                   MF.getSubtarget().getInstrInfo()->get(CvtaLocalOpcode),
+                   NRI->getFrameRegister(MF))
+               .addReg(SourceReg);
+
+    if (NeedsCast)
       MBBI = BuildMI(MBB, MBBI, dl,
-                     MF.getSubtarget().getInstrInfo()->get(CvtaLocalOpcode),
+                     MF.getSubtarget().getInstrInfo()->get(NVPTX::CVT_u64_u32),
                      NRI->getFrameRegister(MF))
-                 .addReg(NRI->getFrameLocalRegister(MF));
-    }
-    if (!MR.use_empty(NRI->getFrameLocalRegister(MF))) {
-      BuildMI(MBB, MBBI, dl,
-              MF.getSubtarget().getInstrInfo()->get(MovDepotOpcode),
-              NRI->getFrameLocalRegister(MF))
-          .addImm(MF.getFunctionNumber());
-    }
+                 .addReg(NRI->getFrameLocalRegister(MF))
+                 .addImm(NVPTX::PTXCvtMode::NONE);
+
+    unsigned MovDepotOpcode =
+        (IsLocal64Bit ? NVPTX::MOV_DEPOT_ADDR_64 : NVPTX::MOV_DEPOT_ADDR);
+    BuildMI(MBB, MBBI, dl,
+            MF.getSubtarget().getInstrInfo()->get(MovDepotOpcode),
+            NRI->getFrameLocalRegister(MF))
+        .addImm(MF.getFunctionNumber());
   }
 }
 

diff --git a/llvm/lib/Target/NVPTX/NVPTXISelLowering.cpp b/llvm/lib/Target/NVPTX/NVPTXISelLowering.cpp
@@ -1106,7 +1106,6 @@ const char *NVPTXTargetLowering::getTargetNodeName(unsigned Opcode) const {
     MAKE_CASE(NVPTXISD::FMINNUM3)
     MAKE_CASE(NVPTXISD::FMAXIMUM3)
     MAKE_CASE(NVPTXISD::FMINIMUM3)
-    MAKE_CASE(NVPTXISD::DYNAMIC_STACKALLOC)
     MAKE_CASE(NVPTXISD::STACKRESTORE)
     MAKE_CASE(NVPTXISD::STACKSAVE)
     MAKE_CASE(NVPTXISD::SETP_F16X2)
@@ -1771,10 +1770,8 @@ SDValue NVPTXTargetLowering::LowerCall(TargetLowering::CallLoweringInfo &CLI,
 
 SDValue NVPTXTargetLowering::LowerDYNAMIC_STACKALLOC(SDValue Op,
                                                      SelectionDAG &DAG) const {
-
   if (STI.getPTXVersion() < 73 || STI.getSmVersion() < 52) {
     const Function &Fn = DAG.getMachineFunction().getFunction();
-
     DAG.getContext()->diagnose(DiagnosticInfoUnsupported(
         Fn,
         "Support for dynamic alloca introduced in PTX ISA version 7.3 and "
@@ -1785,28 +1782,7 @@ SDValue NVPTXTargetLowering::LowerDYNAMIC_STACKALLOC(SDValue Op,
     return DAG.getMergeValues(Ops, SDLoc());
   }
 
-  SDLoc DL(Op.getNode());
-  SDValue Chain = Op.getOperand(0);
-  SDValue Size = Op.getOperand(1);
-  uint64_t Align = Op.getConstantOperandVal(2);
-
-  // The alignment on a ISD::DYNAMIC_STACKALLOC node may be 0 to indicate that
-  // the default stack alignment should be used.
-  if (Align == 0)
-    Align = DAG.getSubtarget().getFrameLowering()->getStackAlign().value();
-
-  // The size for ptx alloca instruction is 64-bit for m64 and 32-bit for m32.
-  const MVT LocalVT = getPointerTy(DAG.getDataLayout(), ADDRESS_SPACE_LOCAL);
-
-  SDValue Alloc =
-      DAG.getNode(NVPTXISD::DYNAMIC_STACKALLOC, DL, {LocalVT, MVT::Other},
-                  {Chain, DAG.getZExtOrTrunc(Size, DL, LocalVT),
-                   DAG.getTargetConstant(Align, DL, MVT::i32)});
-
-  SDValue ASC = DAG.getAddrSpaceCast(
-      DL, Op.getValueType(), Alloc, ADDRESS_SPACE_LOCAL, ADDRESS_SPACE_GENERIC);
-
-  return DAG.getMergeValues({ASC, SDValue(Alloc.getNode(), 1)}, DL);
+  return Op;
 }
 
 SDValue NVPTXTargetLowering::LowerSTACKRESTORE(SDValue Op,

diff --git a/llvm/lib/Target/NVPTX/NVPTXISelLowering.h b/llvm/lib/Target/NVPTX/NVPTXISelLowering.h
@@ -69,7 +69,6 @@ enum NodeType : unsigned {
   FMAXIMUM3,
   FMINIMUM3,
 
-  DYNAMIC_STACKALLOC,
   STACKRESTORE,
   STACKSAVE,
   BrxStart,

diff --git a/llvm/lib/Target/NVPTX/NVPTXInstrInfo.td b/llvm/lib/Target/NVPTX/NVPTXInstrInfo.td
@@ -2253,22 +2253,31 @@ def trapexitinst : NVPTXInst<(outs), (ins), "trap; exit;", [(trap)]>, Requires<[
 // brkpt instruction
 def debugtrapinst : BasicNVPTXInst<(outs), (ins), "brkpt", [(debugtrap)]>;
 
-def SDTDynAllocaOp :
-  SDTypeProfile<1, 2, [SDTCisSameAs<0, 1>, SDTCisInt<1>, SDTCisVT<2, i32>]>;
+def SDTDynAllocaOp
+    : SDTypeProfile<1, 2, [SDTCisSameAs<0, 1>, SDTCisInt<1>, SDTCisVT<2, i32>]>;
 
-def dyn_alloca :
-  SDNode<"NVPTXISD::DYNAMIC_STACKALLOC", SDTDynAllocaOp,
-         [SDNPHasChain, SDNPSideEffect]>;
+def getAllocaAlign : SDNodeXForm<imm, [{
+  if (N->getZExtValue() != 0)
+    return CurDAG->getTargetConstant(N->getZExtValue(), SDLoc(N), N->getValueType(0));
+  return CurDAG->getTargetConstant(CurDAG->getSubtarget().getFrameLowering()->getStackAlign().value(), SDLoc(N), N->getValueType(0));
+}]>;
 
-foreach t = [I32RT, I64RT] in {
-  def DYNAMIC_STACKALLOC # t.Size :
-    BasicNVPTXInst<(outs t.RC:$ptr),
-              (ins t.RC:$size, i32imm:$align),
-              "alloca.u" # t.Size,
-              [(set t.Ty:$ptr, (dyn_alloca t.Ty:$size, timm:$align))]>,
-              Requires<[hasPTX<73>, hasSM<52>]>;
+def dyn_alloca : SDNode<"ISD::DYNAMIC_STACKALLOC",
+                        SDTDynAllocaOp, [SDNPHasChain, SDNPSideEffect]>;
+
+let Predicates = [hasPTX<73>, hasSM<52>] in {
+  foreach t = [I32RT, I64RT] in {
+    def DYNAMIC_STACKALLOC_#t.Size
+        : BasicNVPTXInst<(outs t.RC:$ptr), (ins t.RC:$size, i32imm:$align),
+                         "alloca.u"#t.Size>;
+  }
 }
 
+def : Pat<(i32(dyn_alloca i32:$size, imm:$align)),
+          (DYNAMIC_STACKALLOC_32 $size, (getAllocaAlign imm:$align))>;
+def : Pat<(i64(dyn_alloca i64:$size, imm:$align)),
+          (DYNAMIC_STACKALLOC_64 $size, (getAllocaAlign imm:$align))>;
+
 //
 // BRX
 //