[Backend] Bump to llvm/llvm-project@49d5bb0ad0cb (#8766)

antiagainst · ravil-mobile · enjustli · web-flow · commit acd81049917c · 2025-11-22T01:29:27.000Z
This updates LLVM to pick up fixes * llvm/llvm-project#165692 To unblock ASAN breakages. --------- Co-authored-by: ravil-mobile <ravil.aviva.com@gmail.com> Co-authored-by: enjustli <798634436@qq.com> Co-authored-by: Thomas Raoux <thomas.raoux@openai.com>
diff --git a/cmake/llvm-hash.txt b/cmake/llvm-hash.txt
@@ -1 +1 @@
-f6ded0be897e2878612dd903f7e8bb85448269e5
+49d5bb0ad0cb31410184c462801c5049ad671517
diff --git a/lib/Dialect/TritonGPU/IR/Ops.cpp b/lib/Dialect/TritonGPU/IR/Ops.cpp
@@ -929,8 +929,9 @@ void WarpSpecializeOp::getSuccessorRegions(
     return;
   }
   // And the default region branches transparently back to the parent.
-  assert(src.getRegionOrNull() == &getDefaultRegion());
-  successors.push_back(RegionSuccessor(getResults()));
+  assert(src.getTerminatorPredecessorOrNull()->getParentRegion() ==
+         &getDefaultRegion());
+  successors.push_back(RegionSuccessor(getOperation(), getResults()));
 }
 
 LogicalResult WarpSpecializeOp::verify() {
diff --git a/lib/Dialect/TritonGPU/Transforms/WarpSpecialization/PartitionLoops.cpp b/lib/Dialect/TritonGPU/Transforms/WarpSpecialization/PartitionLoops.cpp
@@ -338,7 +338,7 @@ void cloneOpsInBlock(Block *block, SmallVector<WarpGroupBuilder> &builders,
               builder.mapping.lookupOrDefault(yieldOp.getOperand(i)));
         }
 
-        builder.create<scf::YieldOp>(op->getLoc(), newYieldOperands);
+        scf::YieldOp::create(builder, op->getLoc(), newYieldOperands);
       }
     } else {
       assert(hasPartition(op));
@@ -449,7 +449,7 @@ LogicalResult triton::gpu::partitionLoop(scf::ForOp loop) {
   for (auto [b, region, partition] : llvm::zip(
            builders, wgOp.getPartitionRegions(), partitions.getPartitions())) {
     if (!llvm::is_contained(getPartitionIds(loop), b.partitionId)) {
-      b.create<nvws::WarpGroupYieldOp>(wgOp.getLoc(), SmallVector<Value>{});
+      nvws::WarpGroupYieldOp::create(b, wgOp.getLoc(), SmallVector<Value>{});
       continue;
     }
     auto newForOp = *region.front().getOps<scf::ForOp>().begin();
diff --git a/python/src/llvm.cc b/python/src/llvm.cc
@@ -57,7 +57,6 @@ createTargetMachine(llvm::Module *module, std::string proc,
   bool disableLLVMOpt = mlir::triton::tools::getBoolEnv("DISABLE_LLVM_OPT");
   if (enable_fp_fusion)
     opt.AllowFPOpFusion = llvm::FPOpFusion::Fast;
-  opt.UnsafeFPMath = false;
   opt.NoInfsFPMath = false;
   opt.NoNaNsFPMath = true;
   opt.TrapUnreachable = true;
diff --git a/test/Conversion/tritonnvidiagpu_to_llvm.mlir b/test/Conversion/tritonnvidiagpu_to_llvm.mlir
@@ -215,9 +215,9 @@ module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.targ
 // CHECK-LABEL: async_copy_mbarrier_arrive
 module attributes {"ttg.num-ctas" = 1 : i32, "ttg.num-warps" = 4 : i32, ttg.target = "cuda:90", "ttg.threads-per-warp" = 32 : i32} {
   tt.func public @async_copy_mbarrier_arrive(%arg0: !ttg.memdesc<1xi64, #shared, #ttg.shared_memory>)  attributes { noinline = false } {
-    // CHECK: nvvm.cp.async.mbarrier.arrive.shared %{{.*}} : !llvm.ptr<3>
+    // CHECK: nvvm.cp.async.mbarrier.arrive %{{.*}} : !llvm.ptr<3>
     ttng.async_copy_mbarrier_arrive %arg0 : !ttg.memdesc<1xi64, #shared, #ttg.shared_memory>
-    // CHECK: nvvm.cp.async.mbarrier.arrive.shared %{{.*}} {noinc = true} : !llvm.ptr<3>
+    // CHECK: nvvm.cp.async.mbarrier.arrive %{{.*}} {noinc = true} : !llvm.ptr<3>
     ttng.async_copy_mbarrier_arrive %arg0 { noIncrement } : !ttg.memdesc<1xi64, #shared, #ttg.shared_memory>
     tt.return
   }
diff --git a/third_party/amd/include/Analysis/RangeAnalysis.h b/third_party/amd/include/Analysis/RangeAnalysis.h
@@ -84,7 +84,7 @@ struct TritonIntegerRangeAnalysis : dataflow::IntegerRangeAnalysis {
   /// the loop operands and all users and all users of the results of the loop.
   void visitRegionSuccessors(
       ProgramPoint *point, RegionBranchOpInterface branch,
-      RegionBranchPoint successor,
+      RegionSuccessor successor,
       ArrayRef<dataflow::AbstractSparseLattice *> abstractLattices) override;
 
   /// Collect all operands that participate in assumptions (see description of
diff --git a/third_party/amd/lib/Analysis/RangeAnalysis.cpp b/third_party/amd/lib/Analysis/RangeAnalysis.cpp
@@ -630,7 +630,7 @@ void TritonIntegerRangeAnalysis::initializeFuncOp(tt::FuncOp op) {
 
 void TritonIntegerRangeAnalysis::visitRegionSuccessors(
     ProgramPoint *point, RegionBranchOpInterface branch,
-    RegionBranchPoint successor,
+    RegionSuccessor successor,
     ArrayRef<dataflow::AbstractSparseLattice *> abstractLattices) {
   LLVM_DEBUG({
     DBGS() << "Visit Region Succesors of ";
@@ -715,10 +715,11 @@ void TritonIntegerRangeAnalysis::visitRegionSuccessors(
         if (!inputs.empty()) {
           firstIndex = cast<OpResult>(inputs.front()).getResultNumber();
         }
-        visitNonControlFlowArguments(branch,
-                                     RegionSuccessor(branch->getResults().slice(
-                                         firstIndex, inputs.size())),
-                                     lattices, firstIndex);
+        visitNonControlFlowArguments(
+            branch,
+            RegionSuccessor(
+                branch, branch->getResults().slice(firstIndex, inputs.size())),
+            lattices, firstIndex);
       } else {
         if (!inputs.empty()) {
           firstIndex = cast<BlockArgument>(inputs.front()).getArgNumber();
diff --git a/third_party/amd/lib/TritonAMDGPUToLLVM/MemoryOpToLLVM.cpp b/third_party/amd/lib/TritonAMDGPUToLLVM/MemoryOpToLLVM.cpp
@@ -481,8 +481,8 @@ class LocalBarrierOpConversion
     //   amdgpu::MemoryCounterWaitOp will lower s_waitcnt
     // - s_barrier syncronizes the execution for the CTA
     auto dsAttr = rewriter.getI32IntegerAttr(0);
-    rewriter.create<amdgpu::MemoryCounterWaitOp>(
-        op->getLoc(), /* load= */ nullptr, /* store= */ nullptr,
+    amdgpu::MemoryCounterWaitOp::create(
+        rewriter, op->getLoc(), /* load= */ nullptr, /* store= */ nullptr,
         /* ds= */ dsAttr);
     rewriter.replaceOpWithNewOp<ROCDL::SBarrierOp>(op);
 
diff --git a/third_party/nvidia/lib/Dialect/NVWS/Transforms/LowerAref.cpp b/third_party/nvidia/lib/Dialect/NVWS/Transforms/LowerAref.cpp
@@ -305,10 +305,9 @@ void createTMALoad(triton::nvws::DescriptorLoadOp op, PatternRewriter &rewriter,
       }
     }
   }
-  auto newLoadOp =
-      rewriter.create<triton::nvidia_gpu::AsyncTMACopyGlobalToLocalOp>(
-          op.getLoc(), op.getDesc(), indices, barrierAlloc, op.getResult(),
-          pred);
+  auto newLoadOp = triton::nvidia_gpu::AsyncTMACopyGlobalToLocalOp::create(
+      rewriter, op.getLoc(), op.getDesc(), indices, barrierAlloc,
+      op.getResult(), pred);
   assignStageCluster(newLoadOp, getPartitionWsTagIds(op), getStageCluster(op),
                      rewriter);
 };
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ConvertWarpSpecializeToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ConvertWarpSpecializeToLLVM.cpp
@@ -91,8 +91,8 @@ static void createBarrier(TritonLLVMIRRewriter &b, unsigned barIdx,
   if (numThreads == 32)
     LLVM::NVIDIA::createSyncWarp(b.getLoc(), b);
   else
-    NVVM::BarrierOp::create(b, b.getLoc(), b.i32_val(barIdx),
-                            b.i32_val(numThreads));
+    NVVM::BarrierOp::create(b, b.getLoc(), TypeRange{}, b.i32_val(barIdx),
+                            b.i32_val(numThreads), {}, Value{});
 }
 
 static void createAllBarrier(TritonLLVMIRRewriter &b, unsigned barIdx) {
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ElementwiseOpToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/ElementwiseOpToLLVM.cpp
@@ -650,7 +650,7 @@ struct ExpOpConversionApprox
     Value prod = b.fmul(f32_ty, operands[0][0], b.f32_val(log2e));
 
     Type resultTy = operands[0][0].getType();
-    StringRef name = "llvm.nvvm.ex2.approx.f";
+    StringRef name = "llvm.nvvm.ex2.approx.f32";
     auto callOp =
         LLVM::createLLVMIntrinsicCallOp(rewriter, loc, name, resultTy, {prod});
     return {callOp.getResult(0)};
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/LoadStoreOpToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/LoadStoreOpToLLVM.cpp
@@ -1803,8 +1803,8 @@ struct AsyncCopyMbarrierArriveOpConversion
         typeConverter->convertType(op.getBarrier().getType().getElementType()),
         rewriter);
     TritonLLVMOpBuilder b(loc, rewriter);
-    NVVM::CpAsyncMBarrierArriveSharedOp::create(rewriter, loc,
-                                                barrierMemObj.getBase(), noinc);
+    NVVM::CpAsyncMBarrierArriveOp::create(rewriter, loc,
+                                          barrierMemObj.getBase(), noinc);
     op->erase();
     return success();
   }

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-f6ded0be897e2878612dd903f7e8bb85448269e5`
	`1`	`+49d5bb0ad0cb31410184c462801c5049ad671517`
Original file line number	Diff line number	Diff line change
`@@ -929,8 +929,9 @@ void WarpSpecializeOp::getSuccessorRegions(`
`929`	`929`	`return;`
`930`	`930`	`}`
`931`	`931`	`// And the default region branches transparently back to the parent.`
`932`		`- assert(src.getRegionOrNull() == &getDefaultRegion());`
`933`		`- successors.push_back(RegionSuccessor(getResults()));`
	`932`	`+ assert(src.getTerminatorPredecessorOrNull()->getParentRegion() ==`
	`933`	`+ &getDefaultRegion());`
	`934`	`+ successors.push_back(RegionSuccessor(getOperation(), getResults()));`
`934`	`935`	`}`
`935`	`936`
`936`	`937`	`LogicalResult WarpSpecializeOp::verify() {`
Original file line number	Diff line number	Diff line change
`@@ -338,7 +338,7 @@ void cloneOpsInBlock(Block *block, SmallVector<WarpGroupBuilder> &builders,`
`338`	`338`	`builder.mapping.lookupOrDefault(yieldOp.getOperand(i)));`
`339`	`339`	`}`
`340`	`340`
`341`		`- builder.create<scf::YieldOp>(op->getLoc(), newYieldOperands);`
	`341`	`+ scf::YieldOp::create(builder, op->getLoc(), newYieldOperands);`
`342`	`342`	`}`
`343`	`343`	`} else {`
`344`	`344`	`assert(hasPartition(op));`
`@@ -449,7 +449,7 @@ LogicalResult triton::gpu::partitionLoop(scf::ForOp loop) {`
`449`	`449`	`for (auto [b, region, partition] : llvm::zip(`
`450`	`450`	`builders, wgOp.getPartitionRegions(), partitions.getPartitions())) {`
`451`	`451`	`if (!llvm::is_contained(getPartitionIds(loop), b.partitionId)) {`
`452`		`- b.create<nvws::WarpGroupYieldOp>(wgOp.getLoc(), SmallVector<Value>{});`
	`452`	`+ nvws::WarpGroupYieldOp::create(b, wgOp.getLoc(), SmallVector<Value>{});`
`453`	`453`	`continue;`
`454`	`454`	`}`
`455`	`455`	`auto newForOp = *region.front().getOps<scf::ForOp>().begin();`
Original file line number	Diff line number	Diff line change
`@@ -305,10 +305,9 @@ void createTMALoad(triton::nvws::DescriptorLoadOp op, PatternRewriter &rewriter,`
`305`	`305`	`}`
`306`	`306`	`}`
`307`	`307`	`}`
`308`		`- auto newLoadOp =`
`309`		`- rewriter.create<triton::nvidia_gpu::AsyncTMACopyGlobalToLocalOp>(`
`310`		`- op.getLoc(), op.getDesc(), indices, barrierAlloc, op.getResult(),`
`311`		`- pred);`
	`308`	`+ auto newLoadOp = triton::nvidia_gpu::AsyncTMACopyGlobalToLocalOp::create(`
	`309`	`+ rewriter, op.getLoc(), op.getDesc(), indices, barrierAlloc,`
	`310`	`+ op.getResult(), pred);`
`312`	`311`	`assignStageCluster(newLoadOp, getPartitionWsTagIds(op), getStageCluster(op),`
`313`	`312`	`rewriter);`
`314`	`313`	`};`