[DIALECT] s/TMAStoreWait/TMAStoreWaitOp/g (NFC) (#5687)

Mogball · web-flow · commit 4616092da491 · 2025-01-23T20:06:18.000-05:00
All other ops are named with the *Op suffix. Fix the name of this op to
align with the rest.
diff --git a/include/triton/Dialect/TritonNvidiaGPU/IR/TritonNvidiaGPUOps.td b/include/triton/Dialect/TritonNvidiaGPU/IR/TritonNvidiaGPUOps.td
@@ -258,7 +258,7 @@ def TTNG_AsyncTMACopyLocalToGlobalOp : TTNG_Op<"async_tma_copy_local_to_global",
   }];
 }
 
-def TTNG_TMAStoreWait : TTNG_Op<"async_tma_store_wait"> {
+def TTNG_TMAStoreWaitOp : TTNG_Op<"async_tma_store_wait"> {
   let summary = "wait until all the inputs are read.";
   let arguments = (ins I32Attr:$pendings);
   let description = [{
diff --git a/lib/Dialect/TritonGPU/Transforms/Pipeliner/TMAStoresPipeline.cpp b/lib/Dialect/TritonGPU/Transforms/Pipeliner/TMAStoresPipeline.cpp
@@ -60,7 +60,7 @@ static void createTMAAsyncCopy(scf::ForOp &forOp,
 
   // Put wait before the local_store make the store truly async. We know
   // that we are the only user of the CopyLocalToGlobal.
-  builder.create<ttng::TMAStoreWait>(loc, 0);
+  builder.create<ttng::TMAStoreWaitOp>(loc, 0);
   builder.create<ttg::LocalStoreOp>(loc, storeOp.getSrc(), alloc);
   builder.create<ttng::FenceAsyncSharedOp>(loc, false);
   Value tmaPtr = builder.create<triton::nvidia_gpu::TensorDescToTMAPtrOp>(
@@ -102,7 +102,7 @@ bool mlir::triton::pipelineTMAStores(scf::ForOp forOp) {
   // Deallocate shared memory buffers.
   OpBuilder builder(forOp);
   builder.setInsertionPointAfter(forOp);
-  builder.create<ttng::TMAStoreWait>(forOp->getLoc(), 0);
+  builder.create<ttng::TMAStoreWaitOp>(forOp->getLoc(), 0);
   for (auto it : storeToAlloc) {
     builder.create<ttg::LocalDeallocOp>(forOp->getLoc(), it.second);
   }
diff --git a/lib/Dialect/TritonNvidiaGPU/Transforms/TMALowering.cpp b/lib/Dialect/TritonNvidiaGPU/Transforms/TMALowering.cpp
@@ -101,7 +101,7 @@ class TMAStoreLowering
         loc, op.getDesc());
     rewriter.create<triton::nvidia_gpu::AsyncTMACopyLocalToGlobalOp>(
         loc, tmaPtr, op.getIndices(), alloc);
-    rewriter.create<triton::nvidia_gpu::TMAStoreWait>(loc, 0);
+    rewriter.create<triton::nvidia_gpu::TMAStoreWaitOp>(loc, 0);
     rewriter.eraseOp(op);
     return success();
   }
diff --git a/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/LoadStoreOpToLLVM.cpp b/third_party/nvidia/lib/TritonNVIDIAGPUToLLVM/LoadStoreOpToLLVM.cpp
@@ -1310,12 +1310,12 @@ struct AsyncCommitGroupOpConversion
   }
 };
 
-struct TMAStoreWaitConversion
-    : public ConvertOpToLLVMPattern<triton::nvidia_gpu::TMAStoreWait> {
+struct TMAStoreWaitOpConversion
+    : public ConvertOpToLLVMPattern<triton::nvidia_gpu::TMAStoreWaitOp> {
   using ConvertOpToLLVMPattern::ConvertOpToLLVMPattern;
 
   LogicalResult
-  matchAndRewrite(triton::nvidia_gpu::TMAStoreWait op, OpAdaptor adaptor,
+  matchAndRewrite(triton::nvidia_gpu::TMAStoreWaitOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override {
     PTXBuilder ptxBuilder;
     auto &asyncWaitOp = *ptxBuilder.create<>("cp.async.bulk.wait_group.read");
@@ -1343,6 +1343,6 @@ void mlir::triton::NVIDIA::populateLoadStoreOpToLLVMPatterns(
   patterns.add<AsyncCommitGroupOpConversion>(typeConverter, benefit);
   patterns.add<AsyncWaitOpConversion>(typeConverter, benefit);
   patterns.add<AsyncTMACopyGlobalToLocalOpConversion,
-               AsyncTMACopyLocalToGlobalOpConversion, TMAStoreWaitConversion>(
+               AsyncTMACopyLocalToGlobalOpConversion, TMAStoreWaitOpConversion>(
       typeConverter, benefit);
 }

Original file line number	Diff line number	Diff line change
`@@ -258,7 +258,7 @@ def TTNG_AsyncTMACopyLocalToGlobalOp : TTNG_Op<"async_tma_copy_local_to_global",`
`258`	`258`	`}];`
`259`	`259`	`}`
`260`	`260`
`261`		`-def TTNG_TMAStoreWait : TTNG_Op<"async_tma_store_wait"> {`
	`261`	`+def TTNG_TMAStoreWaitOp : TTNG_Op<"async_tma_store_wait"> {`
`262`	`262`	`let summary = "wait until all the inputs are read.";`
`263`	`263`	`let arguments = (ins I32Attr:$pendings);`
`264`	`264`	`let description = [{`
Original file line number	Diff line number	Diff line change
`@@ -101,7 +101,7 @@ class TMAStoreLowering`
`101`	`101`	`loc, op.getDesc());`
`102`	`102`	`rewriter.create<triton::nvidia_gpu::AsyncTMACopyLocalToGlobalOp>(`
`103`	`103`	`loc, tmaPtr, op.getIndices(), alloc);`
`104`		`- rewriter.create<triton::nvidia_gpu::TMAStoreWait>(loc, 0);`
	`104`	`+ rewriter.create<triton::nvidia_gpu::TMAStoreWaitOp>(loc, 0);`
`105`	`105`	`rewriter.eraseOp(op);`
`106`	`106`	`return success();`
`107`	`107`	`}`