iree-org
diff --git a/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_distribute.mlir‎
Lines changed: 1 addition & 1 deletion b/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_distribute.mlir‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_distribute_shared_memory.mlir‎
Lines changed: 2 additions & 2 deletions b/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_distribute_shared_memory.mlir‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_nested_layout_vector_distribution.mlir‎
Lines changed: 14 additions & 14 deletions b/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_nested_layout_vector_distribution.mlir‎
Lines changed: 14 additions & 14 deletions
diff --git a/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_nested_layout_vector_distribution_multi_reduce.mlir‎
Lines changed: 4 additions & 4 deletions b/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_nested_layout_vector_distribution_multi_reduce.mlir‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_pipeline.mlir‎
Lines changed: 9 additions & 9 deletions b/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/gpu_pipeline.mlir‎
Lines changed: 9 additions & 9 deletions
diff --git a/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/vector_reduction_to_gpu.mlir‎
Lines changed: 10 additions & 10 deletions b/‎compiler/src/iree/compiler/Codegen/Common/GPU/test/vector_reduction_to_gpu.mlir‎
Lines changed: 10 additions & 10 deletions
diff --git a/‎compiler/src/iree/compiler/Codegen/Common/test/convert_unsupported_float_to_int_buffers.mlir‎
Lines changed: 2 additions & 2 deletions b/‎compiler/src/iree/compiler/Codegen/Common/test/convert_unsupported_float_to_int_buffers.mlir‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎compiler/src/iree/compiler/Codegen/Common/test/hoist_unrolled_vector_extract_insert_slice.mlir‎
Lines changed: 2 additions & 2 deletions b/‎compiler/src/iree/compiler/Codegen/Common/test/hoist_unrolled_vector_extract_insert_slice.mlir‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎compiler/src/iree/compiler/Codegen/Common/test/materialize_tuning_specs.mlir‎
Lines changed: 1 addition & 1 deletion b/‎compiler/src/iree/compiler/Codegen/Common/test/materialize_tuning_specs.mlir‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎compiler/src/iree/compiler/Codegen/LLVMGPU/test/ROCDL/pipeline_lower_to_llvmgpu.mlir‎
Lines changed: 1 addition & 1 deletion b/‎compiler/src/iree/compiler/Codegen/LLVMGPU/test/ROCDL/pipeline_lower_to_llvmgpu.mlir‎
Lines changed: 1 addition & 1 deletion
@@ -35,7 +35,7 @@ func.func @add_tensor() attributes {translation_info = #translation} {
 //         CHECK: #[[$MAP:.*]] = affine_map<(d0) -> (d0 * 4)>
 //   CHECK-LABEL: func.func @add_tensor
 //         CHECK:   %[[C0:.*]] = arith.constant 0 : index
-//         CHECK:   %[[TX:.*]] = gpu.thread_id  x
+//         CHECK:   %[[TX:.*]] = gpu.thread_id x
 //         CHECK:   %[[OFF:.*]] = affine.apply #[[$MAP]](%[[TX]])
 //         CHECK:   %[[S:.*]] = memref.subview %{{.*}}[0, %[[OFF]]] [1, 4] [1, 1] : memref<1x256xf32, #{{.*}}> to memref<1x4xf32, #{{.*}}>
 //         CHECK:   %[[A:.*]] = vector.transfer_read %{{.*}}[%[[C0]], %[[OFF]]], %{{.*}} {in_bounds = [true]} : memref<1x256xf32, #{{.*}}>, vector<4xf32>
 
@@ -110,8 +110,8 @@ module {
 //    CHECK-DAG:   %[[C56:.+]] = arith.constant 56 : index
 //    CHECK-DAG:   %[[C128:.+]] = arith.constant 128 : index
 
-//    CHECK-DAG:   %[[TID_X:.+]] = gpu.thread_id  x
-//    CHECK-DAG:   %[[TID_Y:.+]] = gpu.thread_id  y
+//    CHECK-DAG:   %[[TID_X:.+]] = gpu.thread_id x
+//    CHECK-DAG:   %[[TID_Y:.+]] = gpu.thread_id y
 
 //        CHECK:   scf.for %[[IV_Y:.+]] = %[[TID_Y]] to %[[C56]] step %[[C8]] {
 //        CHECK:     %[[OFFSET_X:.+]] = affine.apply #[[$OFFSET_MAP]]()[%[[TID_X]]]
 
@@ -29,7 +29,7 @@ builtin.module attributes { transform.with_named_sequence } {
   }
 }
 
-// CHECK: %[[IDX:.+]] = gpu.thread_id  x
+// CHECK: %[[IDX:.+]] = gpu.thread_id x
 // CHECK: %[[YX:.+]]:3 = affine.delinearize_index %[[IDX]] into (4, 8)
 // CHECK: %[[Y_SCALED:.+]] = affine.linearize_index disjoint [%[[YX]]#1, %c0] by (4, 4)
 // CHECK: %[[RD00:.+]] = vector.transfer_read %arg0[%[[Y_SCALED]], %[[YX]]#2], {{.*}} : memref<32x32xf16>, vector<4x1xf16>
@@ -73,7 +73,7 @@ builtin.module attributes { transform.with_named_sequence } {
 // CHECK-LABEL: @distribute_transfer_read_row_major_with_nontrivial_index
 // CHECK-SAME:    %[[I0:.+]]: index, %[[I1:.+]]: index
 
-// CHECK: %[[IDX:.+]] = gpu.thread_id  x
+// CHECK: %[[IDX:.+]] = gpu.thread_id x
 // CHECK: %[[X:.+]]:2 = affine.delinearize_index %[[IDX]] into (8) : index, index
 // CHECK: %[[OFF0:.+]] = affine.linearize_index [%[[X]]#1, %[[I0]]]  by (8, 1)
 // CHECK: vector.transfer_read %{{.*}}[%c0, %c0, %[[OFF0]], %[[I1]]]
@@ -161,7 +161,7 @@ builtin.module attributes { transform.with_named_sequence } {
 // CHECK-LABEL: @distribute_transfer_read_row_major_transpose
 // CHECK-SAME:    %[[I0:.+]]: index, %[[I1:.+]]: index
 
-// CHECK: %[[IDX:.+]] = gpu.thread_id  x
+// CHECK: %[[IDX:.+]] = gpu.thread_id x
 // CHECK: %[[X:.+]]:2 = affine.delinearize_index %[[IDX]] into (8) : index, index
 // CHECK: %[[LIN_ID0:.+]] = affine.linearize_index [%[[X]]#1, %[[I1]]] by (8, 1)
 // CHECK: vector.transfer_read %{{.*}}[%c0, %c0, %[[I0]], %[[LIN_ID0]]], {{.*}} permutation_map = #[[$PERM]]
@@ -278,7 +278,7 @@ builtin.module attributes { transform.with_named_sequence } {
   }
 }
 
-// CHECK: %[[IDX:.+]] = gpu.thread_id  x
+// CHECK: %[[IDX:.+]] = gpu.thread_id x
 // CHECK: %[[YX:.+]]:3 = affine.delinearize_index %[[IDX]] into (4, 16)
 // CHECK: %[[LANEY:.+]] = affine.linearize_index disjoint [%[[YX]]#1, %c0] by (4, 4)
 // CHECK: %[[RD:.+]] = vector.transfer_read %{{.*}}[%c0, %[[LANEY:.+]]], {{.*}} : memref<32x32xf16>, vector<4xf16>
@@ -314,7 +314,7 @@ builtin.module attributes { transform.with_named_sequence } {
   }
 }
 
-// CHECK: %[[IDX:.+]] = gpu.thread_id  x
+// CHECK: %[[IDX:.+]] = gpu.thread_id x
 // CHECK: %[[YX:.+]]:3 = affine.delinearize_index %[[IDX]] into (2, 64)
 // CHECK: %[[SUBGROUP:.+]]:2 = affine.delinearize_index %[[IDX]] into (16)
 // CHECK: %[[LANEY:.+]] = affine.linearize_index disjoint [%[[YX]]#1, %[[SUBGROUP]]#1, %c0] by (2, 16, 4)
@@ -387,7 +387,7 @@ builtin.module attributes { transform.with_named_sequence } {
   }
 }
 
-// CHECK: %[[IDX:.+]] = gpu.thread_id  x
+// CHECK: %[[IDX:.+]] = gpu.thread_id x
 // CHECK: %[[LANEX:.+]]:2 = affine.delinearize_index %[[IDX]] into (8)
 // CHECK: %[[SLICE:.+]] = vector.extract %{{.*}}[0, 0, 0, 0] : vector<1x8xf16> from vector<2x2x1x1x1x8xf16>
 // CHECK: vector.transfer_write %[[SLICE]], %{{.*}}[%[[LANEX]]#1, %c0] {in_bounds = [true, true]} : vector<1x8xf16>, memref<64x64xf16>
@@ -430,7 +430,7 @@ builtin.module attributes { transform.with_named_sequence } {
   }
 }
 
-// CHECK: %[[IDX:.+]] = gpu.thread_id  x
+// CHECK: %[[IDX:.+]] = gpu.thread_id x
 // CHECK: %[[YX:.+]]:3 = affine.delinearize_index %[[IDX]] into (4, 8)
 // CHECK: %[[LANEY:.+]] = affine.linearize_index disjoint [%[[YX]]#1, %c0] by (4, 4)
 // CHECK: vector.extract %{{.*}}[0, 0, 0, 0]
@@ -475,7 +475,7 @@ builtin.module attributes { transform.with_named_sequence } {
 // CHECK-LABEL: @distribute_transfer_write_row_major_with_nontrivial_index
 // CHECK-SAME:    vector<16x16xf16>, %[[I0:.+]]: index, %[[I1:.+]]: index
 
-// CHECK: %[[IDX:.+]] = gpu.thread_id  x
+// CHECK: %[[IDX:.+]] = gpu.thread_id x
 // CHECK: %[[LANE:.+]]:2 = affine.delinearize_index %[[IDX]] into (8)
 // CHECK: %[[LIN_ID0:.+]] = affine.linearize_index [%[[LANE]]#1, %[[I1]]] by (8, 1)
 // CHECK: vector.extract %{{.*}}[0, 0, 0, 0]
@@ -585,7 +585,7 @@ func.func @mfma_64x128x8_read(%mem: memref<128x8xf16>,
   %c0 = arith.constant 0 : index
   %cst = arith.constant 0.0 : f16
 
-  // CHECK: %[[IDX:.+]] = gpu.thread_id  x
+  // CHECK: %[[IDX:.+]] = gpu.thread_id x
   // CHECK-DAG: %[[WG:.+]]:4 = affine.delinearize_index %[[IDX]] into (4, 2, 64)
   // CHECK-DAG: %[[LANE:.+]]:3 = affine.delinearize_index %[[IDX]] into (2, 32)
   // This doesn't canonicalize away currently, but could be equivalent to %WG
@@ -675,7 +675,7 @@ builtin.module attributes { transform.with_named_sequence } {
 
 // CHECK-LABEL: @transposed_read_64x8
 
-// CHECK: %[[IDX:.+]] = gpu.thread_id  x
+// CHECK: %[[IDX:.+]] = gpu.thread_id x
 // CHECK-DAG: %[[WG:.+]]:4 = affine.delinearize_index %[[IDX]] into (2, 2, 64)
 // CHECK-DAG: %[[LANE:.+]]:3 = affine.delinearize_index %[[IDX]] into (2, 32)
 // CHECK-DAG: %[[M:.+]] = affine.linearize_index disjoint [%[[WG]]#1, %[[LANE]]#2] by (2, 32)
@@ -934,7 +934,7 @@ builtin.module attributes { transform.with_named_sequence } {
 }
 
 // CHECK-LABEL: func @transpose_3d
-// CHECK-DAG:         %[[IDX:.+]] = gpu.thread_id  x
+// CHECK-DAG:         %[[IDX:.+]] = gpu.thread_id x
 // CHECK-DAG:         %[[WG:.+]]:3 = affine.delinearize_index %[[IDX]] into (2, 64)
 // CHECK-DAG:         %[[LANE:.+]]:4 = affine.delinearize_index %[[IDX]] into (4, 8, 2)
 // CHECK-DAG:         %[[DIM:.+]]  = affine.linearize_index disjoint [%[[WG]]#1, %[[LANE]]#1, %c0] by (2, 4, 4)
@@ -1373,7 +1373,7 @@ builtin.module attributes { transform.with_named_sequence } {
 }
 
 // CHECK-LABEL: @distribute_map_store_row_major
-//   CHECK-DAG:   %[[IDX:.+]] = gpu.thread_id  x
+//   CHECK-DAG:   %[[IDX:.+]] = gpu.thread_id x
 //   CHECK-DAG:   %[[C8:.+]] = arith.constant 8 : index
 //   CHECK-DAG:   %[[LANEX:.+]]:2 = affine.delinearize_index %[[IDX]] into (8)
 //   CHECK-DAG:   %[[SLICE0:.+]] = vector.extract %{{.*}}[0, 0, 0, 0]
@@ -1411,7 +1411,7 @@ builtin.module attributes { transform.with_named_sequence } {
 // CHECK-LABEL: @undistributed_write
 func.func @undistributed_write(%out: memref<f32, #amdgpu.address_space<fat_raw_buffer>>, %v: vector<f32>) {
   //  CHECK-DAG: %[[ZERO:.*]] = arith.constant 0 : index
-  //  CHECK-DAG: %[[TID:.*]] = gpu.thread_id  x
+  //  CHECK-DAG: %[[TID:.*]] = gpu.thread_id x
   //  CHECK-DAG: %[[COND:.+]] = arith.cmpi eq, %[[TID]], %[[ZERO]] : index
   // CHECK-NEXT: scf.if %[[COND]] {
   //      CHECK:   vector.transfer_write
@@ -1446,7 +1446,7 @@ builtin.module attributes { transform.with_named_sequence } {
 // across all threads (note the thread strides). This test checks if we account
 // for such broadcasts when generating conditional writes.
 // CHECK-LABEL: @partially_distributed_write
-//   CHECK-DAG:    %[[TID:.+]] = gpu.thread_id  x
+//   CHECK-DAG:    %[[TID:.+]] = gpu.thread_id x
 //   CHECK-DAG:    %[[C0:.+]] = arith.constant 0 : index
 //       CHECK:    %[[DELIN:.*]]:5 = affine.delinearize_index %[[TID:.+]] into (4, 2, 4, 8)
 //   CHECK-DAG:    %[[SUBGROUP_COND:.+]] = arith.cmpi eq, %[[DELIN]]#0, %[[C0]] : index
 
@@ -153,8 +153,8 @@ builtin.module attributes { transform.with_named_sequence } {
 // Local reduction
 // CHECK: vector.multi_reduction <maximumf>, %{{.*}}, %{{.*}} [1, 3, 5] : vector<2x1x1x1x1x4xf32> to vector<2x1x1xf32>
 // Thread reduction
-// CHECK: %[[THREAD_RED0:.+]] = gpu.subgroup_reduce  maximumf %{{.*}} cluster(size = 4, stride = 16) : (f32) -> f32
-// CHECK: %[[THREAD_RED2:.+]] = gpu.subgroup_reduce  maximumf %{{.*}} cluster(size = 4, stride = 16) : (f32) -> f32
+// CHECK: %[[THREAD_RED0:.+]] = gpu.subgroup_reduce maximumf %{{.*}} cluster(size = 4, stride = 16) : (f32) -> f32
+// CHECK: %[[THREAD_RED2:.+]] = gpu.subgroup_reduce maximumf %{{.*}} cluster(size = 4, stride = 16) : (f32) -> f32
 // Subgroup reduction
 // CHECK-DAG: %[[ALLOC:.+]] = memref.alloc() : memref<32x2xf32, #gpu.address_space<workgroup>>
 // CHECK: gpu.barrier memfence [#gpu.address_space<workgroup>]
@@ -172,9 +172,9 @@ builtin.module attributes { transform.with_named_sequence } {
 // CHECK-DAG: %[[SG_READ1:.+]] = vector.transfer_read %alloc[%[[BATCH1]], %[[BATCH0]]#1], %{{.*}} : memref<32x2xf32, #gpu.address_space<workgroup>>, vector<1x1xf32>
 // CHECK-DAG: %[[ACC:.+]] = iree_vector_ext.to_simt %{{.*}} : vector<32xf32> -> vector<2x1x1xf32>
 // CHECK-DAG: %[[DISTR0:.+]] = vector.extract %[[SG_READ0]][0, 0] : f32 from vector<1x1xf32>
-// CHECK-DAG: %[[RED0:.+]] = gpu.subgroup_reduce  maximumf %[[DISTR0]] cluster(size = 2, stride = 16) : (f32) -> f32
+// CHECK-DAG: %[[RED0:.+]] = gpu.subgroup_reduce maximumf %[[DISTR0]] cluster(size = 2, stride = 16) : (f32) -> f32
 // CHECK-DAG: %[[DISTR1:.+]] = vector.extract %[[SG_READ1]][0, 0] : f32 from vector<1x1xf32>
-// CHECK-DAG: %[[RED1:.+]] = gpu.subgroup_reduce  maximumf %[[DISTR1]] cluster(size = 2, stride = 16) : (f32) -> f32
+// CHECK-DAG: %[[RED1:.+]] = gpu.subgroup_reduce maximumf %[[DISTR1]] cluster(size = 2, stride = 16) : (f32) -> f32
 // CHECK-DAG: %[[INS:.+]] = vector.from_elements %[[RED0]], %[[RED1]] : vector<2x1x1xf32>
 // CHECK-DAG: arith.maximumf %[[INS]], %[[ACC]] : vector<2x1x1xf32>
 
 
@@ -14,9 +14,9 @@ func.func @_matmul_f16_f16_dispatch_0_fill_3456x1024() {
   %c0 = arith.constant 0 : index
   %cst = arith.constant 0.000000e+00 : f16
   %0 = gpu.subgroup_mma_constant_matrix %cst : !gpu.mma_matrix<16x16xf16, "COp">
-  %1 = gpu.thread_id  x
-  %2 = gpu.thread_id  y
-  %3 = gpu.thread_id  z
+  %1 = gpu.thread_id x
+  %2 = gpu.thread_id y
+  %3 = gpu.thread_id z
   %4 = memref.alloc() : memref<4x32x40xf16, 3>
   %5 = memref.alloc() : memref<4x32x40xf16, 3>
   %6 = hal.interface.binding.subspan layout(#pipeline_layout) binding(0) alignment(64) offset(%c0) : memref<3456x2048xf16>
@@ -73,9 +73,9 @@ func.func @nvidia_tenscore_schedule_f16() {
   %c1280 = arith.constant 1280 : index
   %cst_0 = arith.constant 0.000000e+00 : f16
   %c0 = arith.constant 0 : index
-  %0 = gpu.thread_id  x
-  %1 = gpu.thread_id  y
-  %2 = gpu.thread_id  z
+  %0 = gpu.thread_id x
+  %1 = gpu.thread_id y
+  %2 = gpu.thread_id z
   %alloc = memref.alloc() : memref<128x256xf16, #gpu.address_space<workgroup>>
   %alloc_1 = memref.alloc() : memref<3x128x32xf16, #gpu.address_space<workgroup>>
   %alloc_2 = memref.alloc() : memref<3x32x256xf16, #gpu.address_space<workgroup>>
@@ -522,9 +522,9 @@ func.func @nvidia_tenscore_schedule_f32() {
   %c256 = arith.constant 256 : index
   %cst_1 = arith.constant 0.000000e+00 : f32
   %c0 = arith.constant 0 : index
-  %0 = gpu.thread_id  x
-  %1 = gpu.thread_id  y
-  %2 = gpu.thread_id  z
+  %0 = gpu.thread_id x
+  %1 = gpu.thread_id y
+  %2 = gpu.thread_id z
   %alloc = memref.alloc() : memref<128x128xf32, #gpu.address_space<workgroup>>
   %alloc_2 = memref.alloc() : memref<3x128x32xf32, #gpu.address_space<workgroup>>
   %alloc_3 = memref.alloc() : memref<3x32x128xf32, #gpu.address_space<workgroup>>
 
@@ -18,7 +18,7 @@ module {
     %0 = hal.interface.binding.subspan layout(#pipeline_layout) binding(0) alignment(64) offset(%c0) : memref<128x384xf32>
     %1 = hal.interface.binding.subspan layout(#pipeline_layout) binding(1) alignment(64) offset(%c0) : memref<128xf32>
     %workgroup_id_x = hal.interface.workgroup.id[0] : index
-    %thread_id_x = gpu.thread_id  x
+    %thread_id_x = gpu.thread_id x
     %2 = affine.apply #map()[%thread_id_x, %workgroup_id_x]
     %3 = scf.for %arg0 = %c0 to %c384 step %c32 iter_args(%arg1 = %cst) -> (vector<1xf32>) {
       %5 = vector.transfer_read %0[%2, %arg0], %cst_0 {in_bounds = [true]} : memref<128x384xf32>, vector<32xf32>
@@ -41,22 +41,22 @@ module {
 //   CHECK-DAG:   %[[C16:.*]] = arith.constant 16 : i32
 //   CHECK-DAG:   %[[C32:.*]] = arith.constant 32 : i32
 //   CHECK-DAG:   %[[C32I:.*]] = arith.constant 32 : index
-//   CHECK-DAG:   %[[TID:.*]] = gpu.thread_id  x
+//   CHECK-DAG:   %[[TID:.*]] = gpu.thread_id x
 //   CHECK-DAG:   %[[VCST:.*]] = arith.constant dense<0.000000e+00> : vector<1xf32>
 //       CHECK:   %[[F:.*]] = scf.for %{{.*}} = %{{.*}} to %{{.*}} step %{{.*}} iter_args(%[[V0:.*]] = %[[VCST]]) -> (vector<1xf32>) {
 //   CHECK-DAG:     %[[E:.*]] = vector.extract %[[V0]][0] : f32 from vector<1xf32>
 //   CHECK-DAG:     %[[ID:.*]] = affine.apply
 //   CHECK-DAG:     %[[V1:.*]] = vector.transfer_read %{{.*}}[%{{.*}}, %[[ID]]], %{{.*}} {in_bounds = [true]} : memref<128x384xf32>, vector<1xf32>
 //       CHECK:     %[[S:.*]] = vector.extract %[[V1]][0] : f32 from vector<1xf32>
-//       CHECK:     %[[S0:.*]], %{{.*}} = gpu.shuffle  xor %[[S]], %[[C1]], %[[C32]] : f32
+//       CHECK:     %[[S0:.*]], %{{.*}} = gpu.shuffle xor %[[S]], %[[C1]], %[[C32]] : f32
 //       CHECK:     %[[S1:.*]] = arith.addf %[[S]], %[[S0]] : f32
-//       CHECK:     %[[S2:.*]], %{{.*}} = gpu.shuffle  xor %[[S1]], %[[C2]], %[[C32]] : f32
+//       CHECK:     %[[S2:.*]], %{{.*}} = gpu.shuffle xor %[[S1]], %[[C2]], %[[C32]] : f32
 //       CHECK:     %[[S3:.*]] = arith.addf %[[S1]], %[[S2]] : f32
-//       CHECK:     %[[S4:.*]], %{{.*}} = gpu.shuffle  xor %[[S3]], %[[C4]], %[[C32]] : f32
+//       CHECK:     %[[S4:.*]], %{{.*}} = gpu.shuffle xor %[[S3]], %[[C4]], %[[C32]] : f32
 //       CHECK:     %[[S5:.*]] = arith.addf %[[S3]], %[[S4]] : f32
-//       CHECK:     %[[S6:.*]], %{{.*}} = gpu.shuffle  xor %[[S5]], %[[C8]], %[[C32]] : f32
+//       CHECK:     %[[S6:.*]], %{{.*}} = gpu.shuffle xor %[[S5]], %[[C8]], %[[C32]] : f32
 //       CHECK:     %[[S7:.*]] = arith.addf %[[S5]], %[[S6]] : f32
-//       CHECK:     %[[S8:.*]], %{{.*}} = gpu.shuffle  xor %[[S7]], %[[C16]], %[[C32]] : f32
+//       CHECK:     %[[S8:.*]], %{{.*}} = gpu.shuffle xor %[[S7]], %[[C16]], %[[C32]] : f32
 //       CHECK:     %[[S9:.*]] = arith.addf %[[S7]], %[[S8]] : f32
 //       CHECK:     %[[S10:.*]] = arith.addf %[[S9]], %[[E]] : f32
 //       CHECK:     %[[B:.*]] = vector.broadcast %[[S10]] : f32 to vector<1xf32>
@@ -98,7 +98,7 @@ module {
     %6 = hal.interface.binding.subspan layout(#pipeline_layout) binding(0) alignment(64) offset(%4) : memref<128x384xf32>
     %7 = hal.interface.binding.subspan layout(#pipeline_layout) binding(1) alignment(64) offset(%5) : memref<128xf32>
     %workgroup_id_x = hal.interface.workgroup.id[0] : index
-    %thread_id_x = gpu.thread_id  x
+    %thread_id_x = gpu.thread_id x
     %8 = affine.apply #map()[%thread_id_x, %workgroup_id_x]
     %9 = scf.for %arg0 = %c0 to %c384 step %c32 iter_args(%arg1 = %cst) -> (vector<1xf32>) {
       %11 = vector.transfer_read %6[%8, %arg0], %cst_0 {in_bounds = [true]} : memref<128x384xf32>, vector<32xf32>
@@ -156,7 +156,7 @@ module {
     %6 = hal.interface.binding.subspan layout(#pipeline_layout) binding(0) alignment(64) offset(%4) : memref<128x384xf32>
     %7 = hal.interface.binding.subspan layout(#pipeline_layout) binding(1) alignment(64) offset(%5) : memref<128xf32>
     %workgroup_id_x = hal.interface.workgroup.id[0] : index
-    %thread_id_x = gpu.thread_id  x
+    %thread_id_x = gpu.thread_id x
     %8 = affine.apply #map()[%thread_id_x, %workgroup_id_x]
     %9 = scf.for %arg0 = %c0 to %c384 step %c32 iter_args(%arg1 = %cst) -> (vector<1xf32>) {
       %11 = vector.transfer_read %6[%8, %arg0], %cst_0 {in_bounds = [true]} : memref<128x384xf32>, vector<32xf32>
@@ -238,7 +238,7 @@ module {
     %c4096 = arith.constant 4096 : index
     %c512 = arith.constant 512 : index
     %cst_1 = arith.constant 0.000000e+00 : f16
-    %thread_id_x = gpu.thread_id  x
+    %thread_id_x = gpu.thread_id x
     %0 = hal.interface.binding.subspan layout(#pipeline_layout) binding(0) alignment(64) offset(%c0) flags(ReadOnly) : memref<1x4096xf16, #hal.descriptor_type<storage_buffer>>
     %1 = hal.interface.binding.subspan layout(#pipeline_layout) binding(1) alignment(64) offset(%c0) flags(ReadOnly) : memref<32000x4096xf16, #hal.descriptor_type<storage_buffer>>
     %2 = hal.interface.binding.subspan layout(#pipeline_layout) binding(2) alignment(64) offset(%c0) : memref<1x32000xf16, #hal.descriptor_type<storage_buffer>>
 
@@ -19,8 +19,8 @@ func.func @bf16_conversion() {
   %0 = hal.interface.binding.subspan layout(#pipeline_layout) binding(0) alignment(64) offset(%c0) flags(ReadOnly) : memref<?xbf16, #spirv.storage_class<StorageBuffer>>{%c8}
   %1 = hal.interface.binding.subspan layout(#pipeline_layout) binding(1) alignment(64) offset(%c0) flags(ReadOnly) : memref<?xbf16, #spirv.storage_class<StorageBuffer>>{%c8}
   %2 = hal.interface.binding.subspan layout(#pipeline_layout) binding(2) alignment(64) offset(%c0) : memref<?xbf16, #spirv.storage_class<StorageBuffer>>{%c8}
-  %3 = gpu.thread_id  x
-  %4 = gpu.block_dim  x
+  %3 = gpu.thread_id x
+  %4 = gpu.block_dim x
   scf.for %arg0 = %3 to %c8 step %4 {
     %5 = memref.load %0[%arg0] : memref<?xbf16, #spirv.storage_class<StorageBuffer>>
     %6 = memref.load %1[%arg0] : memref<?xbf16, #spirv.storage_class<StorageBuffer>>
 
@@ -15,8 +15,8 @@ func.func @hoist_unrolled_vector_for_mma() {
   %1 = hal.interface.binding.subspan layout(#pipeline_layout) binding(1) alignment(64) offset(%c0) flags(ReadOnly) : memref<2048x1024xf16>
   %2 = hal.interface.binding.subspan layout(#pipeline_layout) binding(2) alignment(64) offset(%c0) : memref<3456x1024xf32>
   %workgroup_id_x = hal.interface.workgroup.id[0] : index
-  %3 = gpu.thread_id  x
-  %4 = gpu.thread_id  y
+  %3 = gpu.thread_id x
+  %4 = gpu.thread_id y
   %5 = affine.apply affine_map<()[s0, s1] -> (s1 * 32 + (s0 floordiv 8) * 128)>()[%workgroup_id_x, %4]
   %6 = affine.apply affine_map<()[s0, s1] -> (s0 * 128 + s1 * 32 - (s0 floordiv 8) * 1024)>()[%workgroup_id_x, %3]
   %7 = scf.for %arg0 = %c0 to %c2048 step %c64 iter_args(%arg1 = %cst_0) -> (vector<32x32xf32>) {
 
@@ -31,7 +31,7 @@
 // SKIPLINK-LABEL: module @user_spec
 // SKIPLINK-SAME:    iree_codegen.tuning_spec_with_default_entrypoint
 // SKIPLINK-SAME:    transform.with_named_sequence
-// SKIPLINK:         transform.print  {name = "Hello Tuning Spec"}
+// SKIPLINK:         transform.print {name = "Hello Tuning Spec"}
 // SKIPLINK-NOT:    module @{{.+}}
 // SKIPLINK:        module attributes
 // SKIPLINK-SAME:     iree_codegen.tuning_spec_mlirbc = dense<{{.+}}> : vector<{{[0-9]+}}xi8>
 
@@ -33,7 +33,7 @@ hal.executable public @main {
         %c0 = arith.constant 0 : index
         %alloc = memref.alloc() : memref<1x1x16x40xi8, #gpu.address_space<workgroup>>
         %alloc_0 = memref.alloc() : memref<1x32x40xi8, #gpu.address_space<workgroup>>
-        %thread_id_x = gpu.thread_id  x upper_bound 128
+        %thread_id_x = gpu.thread_id x upper_bound 128
         %1 = hal.interface.binding.subspan layout(#pipeline_layout) binding(1) alignment(64) offset(%c0) flags("ReadOnly|Indirect") : memref<32x32x16x16xi8, #hal.descriptor_type<storage_buffer>>
         %3 = hal.interface.binding.subspan layout(#pipeline_layout) binding(2) alignment(64) offset(%c0) flags(ReadOnly) : memref<32x32x32x3x3xi8, #hal.descriptor_type<storage_buffer>>
         %5:2 = affine.delinearize_index %thread_id_x into (16, 8) : index, index