@@ -8,7 +8,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
8
8
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
9
9
%0 = tt.get_program_id x : i32
10
10
%M_i64 = arith.constant 16 : i64
11
- %N_i64 = arith.constant 16 : i64
11
+ %N_i64 = arith.constant 64 : i64
12
12
%c1_i64 = arith.constant 1 : i64
13
13
%c0_i32 = arith.constant 0 : i32
14
14
@@ -29,7 +29,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
29
29
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
30
30
%0 = tt.get_program_id x : i32
31
31
%M_i64 = arith.constant 16 : i64
32
- %N_i64 = arith.constant 16 : i64
32
+ %N_i64 = arith.constant 64 : i64
33
33
%c1_i64 = arith.constant 1 : i64
34
34
%c0_i32 = arith.constant 0 : i32
35
35
@@ -50,7 +50,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
50
50
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
51
51
%0 = tt.get_program_id x : i32
52
52
%M_i64 = arith.constant 16 : i64
53
- %N_i64 = arith.constant 16 : i64
53
+ %N_i64 = arith.constant 64 : i64
54
54
%c1_i64 = arith.constant 1 : i64
55
55
%c0_i32 = arith.constant 0 : i32
56
56
@@ -71,7 +71,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
71
71
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
72
72
%0 = tt.get_program_id x : i32
73
73
%M_i64 = arith.constant 16 : i64
74
- %N_i64 = arith.constant 16 : i64
74
+ %N_i64 = arith.constant 64 : i64
75
75
%c1_i64 = arith.constant 1 : i64
76
76
%c0_i32 = arith.constant 0 : i32
77
77
@@ -92,7 +92,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
92
92
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
93
93
%0 = tt.get_program_id x : i32
94
94
%M_i64 = arith.constant 32 : i64
95
- %N_i64 = arith.constant 16 : i64
95
+ %N_i64 = arith.constant 64 : i64
96
96
%c1_i64 = arith.constant 1 : i64
97
97
%c0_i32 = arith.constant 0 : i32
98
98
@@ -113,7 +113,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
113
113
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
114
114
%0 = tt.get_program_id x : i32
115
115
%M_i64 = arith.constant 32 : i64
116
- %N_i64 = arith.constant 16 : i64
116
+ %N_i64 = arith.constant 64 : i64
117
117
%c1_i64 = arith.constant 1 : i64
118
118
%c0_i32 = arith.constant 0 : i32
119
119
@@ -134,7 +134,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
134
134
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
135
135
%0 = tt.get_program_id x : i32
136
136
%M_i64 = arith.constant 32 : i64
137
- %N_i64 = arith.constant 16 : i64
137
+ %N_i64 = arith.constant 64 : i64
138
138
%c1_i64 = arith.constant 1 : i64
139
139
%c0_i32 = arith.constant 0 : i32
140
140
@@ -155,7 +155,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
155
155
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
156
156
%0 = tt.get_program_id x : i32
157
157
%M_i64 = arith.constant 32 : i64
158
- %N_i64 = arith.constant 16 : i64
158
+ %N_i64 = arith.constant 64 : i64
159
159
%c1_i64 = arith.constant 1 : i64
160
160
%c0_i32 = arith.constant 0 : i32
161
161
@@ -176,7 +176,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
176
176
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
177
177
%0 = tt.get_program_id x : i32
178
178
%M_i64 = arith.constant 64 : i64
179
- %N_i64 = arith.constant 16 : i64
179
+ %N_i64 = arith.constant 64 : i64
180
180
%c1_i64 = arith.constant 1 : i64
181
181
%c0_i32 = arith.constant 0 : i32
182
182
@@ -197,7 +197,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
197
197
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
198
198
%0 = tt.get_program_id x : i32
199
199
%M_i64 = arith.constant 64 : i64
200
- %N_i64 = arith.constant 16 : i64
200
+ %N_i64 = arith.constant 64 : i64
201
201
%c1_i64 = arith.constant 1 : i64
202
202
%c0_i32 = arith.constant 0 : i32
203
203
@@ -218,7 +218,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
218
218
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
219
219
%0 = tt.get_program_id x : i32
220
220
%M_i64 = arith.constant 64 : i64
221
- %N_i64 = arith.constant 16 : i64
221
+ %N_i64 = arith.constant 64 : i64
222
222
%c1_i64 = arith.constant 1 : i64
223
223
%c0_i32 = arith.constant 0 : i32
224
224
@@ -239,7 +239,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
239
239
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
240
240
%0 = tt.get_program_id x : i32
241
241
%M_i64 = arith.constant 64 : i64
242
- %N_i64 = arith.constant 32 : i64
242
+ %N_i64 = arith.constant 64 : i64
243
243
%c1_i64 = arith.constant 1 : i64
244
244
%c0_i32 = arith.constant 0 : i32
245
245
@@ -260,7 +260,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
260
260
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
261
261
%0 = tt.get_program_id x : i32
262
262
%M_i64 = arith.constant 64 : i64
263
- %N_i64 = arith.constant 32 : i64
263
+ %N_i64 = arith.constant 64 : i64
264
264
%c1_i64 = arith.constant 1 : i64
265
265
%c0_i32 = arith.constant 0 : i32
266
266
@@ -281,7 +281,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
281
281
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
282
282
%0 = tt.get_program_id x : i32
283
283
%M_i64 = arith.constant 64 : i64
284
- %N_i64 = arith.constant 32 : i64
284
+ %N_i64 = arith.constant 64 : i64
285
285
%c1_i64 = arith.constant 1 : i64
286
286
%c0_i32 = arith.constant 0 : i32
287
287
@@ -302,7 +302,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
302
302
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
303
303
%0 = tt.get_program_id x : i32
304
304
%M_i64 = arith.constant 128 : i64
305
- %N_i64 = arith.constant 32 : i64
305
+ %N_i64 = arith.constant 64 : i64
306
306
%c1_i64 = arith.constant 1 : i64
307
307
%c0_i32 = arith.constant 0 : i32
308
308
@@ -323,7 +323,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
323
323
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
324
324
%0 = tt.get_program_id x : i32
325
325
%M_i64 = arith.constant 256 : i64
326
- %N_i64 = arith.constant 32 : i64
326
+ %N_i64 = arith.constant 64 : i64
327
327
%c1_i64 = arith.constant 1 : i64
328
328
%c0_i32 = arith.constant 0 : i32
329
329
@@ -344,7 +344,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
344
344
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
345
345
%0 = tt.get_program_id x : i32
346
346
%M_i64 = arith.constant 256 : i64
347
- %N_i64 = arith.constant 32 : i64
347
+ %N_i64 = arith.constant 64 : i64
348
348
%c1_i64 = arith.constant 1 : i64
349
349
%c0_i32 = arith.constant 0 : i32
350
350
@@ -365,7 +365,7 @@ module attributes {ttig.min_sg_size = 16 : i32, ttig.support_bf16_conversion, tt
365
365
tt.func public @subgroup_2d_block_load (%arg0: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg1: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg2: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }, %arg3: !tt.ptr <f16 > {tt.divisibility = 16 : i32 }) attributes {noinline = false } {
366
366
%0 = tt.get_program_id x : i32
367
367
%M_i64 = arith.constant 256 : i64
368
- %N_i64 = arith.constant 32 : i64
368
+ %N_i64 = arith.constant 64 : i64
369
369
%c1_i64 = arith.constant 1 : i64
370
370
%c0_i32 = arith.constant 0 : i32
371
371
0 commit comments