@@ -55,11 +55,11 @@ define void @cp_async_bulk_tensor_g2s_tile_1d(ptr addrspace(7) %d, ptr addrspace
5555; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.1d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3}], [%r2], %rs1;
5656; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.1d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3}], [%r2], %rs1, %rd2;
5757; CHECK-PTX-SHARED32-NEXT: ret;
58- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 undef , i64 undef , i1 0 , i1 0 )
58+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 %ch , i1 0 , i1 0 )
5959
60- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 undef , i64 %ch , i1 0 , i1 1 )
60+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 %ch , i1 0 , i1 1 )
6161
62- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 undef , i1 1 , i1 0 )
62+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 %ch , i1 1 , i1 0 )
6363
6464 tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 %ch , i1 1 , i1 1 )
6565 ret void
@@ -106,11 +106,11 @@ define void @cp_async_bulk_tensor_g2s_tile_2d(ptr addrspace(7) %d, ptr addrspace
106106; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.2d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4}], [%r2], %rs1;
107107; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.2d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4}], [%r2], %rs1, %rd2;
108108; CHECK-PTX-SHARED32-NEXT: ret;
109- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 undef , i64 undef , i1 0 , i1 0 )
109+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 %ch , i1 0 , i1 0 )
110110
111- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 undef , i64 %ch , i1 0 , i1 1 )
111+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 %ch , i1 0 , i1 1 )
112112
113- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 undef , i1 1 , i1 0 )
113+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 %ch , i1 1 , i1 0 )
114114
115115 tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 %ch , i1 1 , i1 1 )
116116 ret void
@@ -159,9 +159,9 @@ define void @cp_async_bulk_tensor_g2s_tile_3d(ptr addrspace(7) %d, ptr addrspace
159159; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.3d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5}], [%r2], %rs1;
160160; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.3d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5}], [%r2], %rs1, %rd2;
161161; CHECK-PTX-SHARED32-NEXT: ret;
162- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 undef , i64 undef , i1 0 , i1 0 )
162+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %mc , i64 %ch , i1 0 , i1 0 )
163163
164- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 undef , i64 %ch , i1 0 , i1 1 )
164+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %mc , i64 %ch , i1 0 , i1 1 )
165165
166166 tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %mc , i64 %ch , i1 1 , i1 0 )
167167
@@ -214,9 +214,9 @@ define void @cp_async_bulk_tensor_g2s_tile_4d(ptr addrspace(7) %d, ptr addrspace
214214; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.4d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5, %r6}], [%r2], %rs1;
215215; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.4d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5, %r6}], [%r2], %rs1, %rd2;
216216; CHECK-PTX-SHARED32-NEXT: ret;
217- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 undef , i64 undef , i1 0 , i1 0 )
217+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %mc , i64 %ch , i1 0 , i1 0 )
218218
219- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 undef , i64 %ch , i1 0 , i1 1 )
219+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %mc , i64 %ch , i1 0 , i1 1 )
220220
221221 tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %mc , i64 %ch , i1 1 , i1 0 )
222222
@@ -271,9 +271,9 @@ define void @cp_async_bulk_tensor_g2s_tile_5d(ptr addrspace(7) %d, ptr addrspace
271271; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.5d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5, %r6, %r7}], [%r2], %rs1;
272272; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.5d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5, %r6, %r7}], [%r2], %rs1, %rd2;
273273; CHECK-PTX-SHARED32-NEXT: ret;
274- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 undef , i64 undef , i1 0 , i1 0 )
274+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %mc , i64 %ch , i1 0 , i1 0 )
275275
276- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 undef , i64 %ch , i1 0 , i1 1 )
276+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %mc , i64 %ch , i1 0 , i1 1 )
277277
278278 tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %mc , i64 %ch , i1 1 , i1 0 )
279279
@@ -326,9 +326,9 @@ define void @cp_async_bulk_tensor_g2s_im2col_3d(ptr addrspace(7) %d, ptr addrspa
326326; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.3d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5}], [%r2], {%rs1}, %rs2;
327327; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.3d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5}], [%r2], {%rs1}, %rs2, %rd2;
328328; CHECK-PTX-SHARED32-NEXT: ret;
329- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 undef , i64 undef , i1 0 , i1 0 )
329+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 %mc , i64 %ch , i1 0 , i1 0 )
330330
331- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 undef , i64 %ch , i1 0 , i1 1 )
331+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 %mc , i64 %ch , i1 0 , i1 1 )
332332
333333 tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 %mc , i64 %ch , i1 1 , i1 0 )
334334
@@ -385,9 +385,9 @@ define void @cp_async_bulk_tensor_g2s_im2col_4d(ptr addrspace(7) %d, ptr addrspa
385385; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.4d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5, %r6}], [%r2], {%rs1, %rs2}, %rs3;
386386; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.4d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5, %r6}], [%r2], {%rs1, %rs2}, %rs3, %rd2;
387387; CHECK-PTX-SHARED32-NEXT: ret;
388- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 undef , i64 undef , i1 0 , i1 0 )
388+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 %mc , i64 %ch , i1 0 , i1 0 )
389389
390- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 undef , i64 %ch , i1 0 , i1 1 )
390+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 %mc , i64 %ch , i1 0 , i1 1 )
391391
392392 tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 %mc , i64 %ch , i1 1 , i1 0 )
393393
@@ -448,9 +448,9 @@ define void @cp_async_bulk_tensor_g2s_im2col_5d(ptr addrspace(7) %d, ptr addrspa
448448; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.5d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5, %r6, %r7}], [%r2], {%rs1, %rs2, %rs3}, %rs4;
449449; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.5d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5, %r6, %r7}], [%r2], {%rs1, %rs2, %rs3}, %rs4, %rd2;
450450; CHECK-PTX-SHARED32-NEXT: ret;
451- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 undef , i64 undef , i1 0 , i1 0 )
451+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 %mc , i64 %ch , i1 0 , i1 0 )
452452
453- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 undef , i64 %ch , i1 0 , i1 1 )
453+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 %mc , i64 %ch , i1 0 , i1 1 )
454454
455455 tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 %mc , i64 %ch , i1 1 , i1 0 )
456456
0 commit comments