support vec2 and add unit test

wenqinI · wenqinI · commit 5f25039f618f · 2026-03-09T16:39:46.000+08:00
diff --git a/onnxruntime/core/providers/webgpu/nn/im2col_matmul.cc b/onnxruntime/core/providers/webgpu/nn/im2col_matmul.cc
@@ -71,7 +71,7 @@ Status Im2ColMatMulProgram::GenerateShaderCode(ShaderHelper& shader) const {
 
   ORT_ENFORCE(tile_m_ == 16 || tile_m_ == 32, "tile_m must be 16 or 32.");
   ORT_ENFORCE(tile_n_ == 64, "tile_n must be 64.");
-  ORT_ENFORCE(vec_size_ == 1 || vec_size_ == 4, "vec_size must be 4 or 1.");
+  ORT_ENFORCE(vec_size_ == 1 || vec_size_ == 2 || vec_size_ == 4, "vec_size must be 1, 2 or 4.");
 
   return WGSL_TEMPLATE_APPLY(shader, "nn/im2col_matmul.wgsl.template",
                              WGSL_TEMPLATE_PARAMETER(has_bias, has_bias_),
@@ -147,7 +147,7 @@ Status ApplyIm2ColMatMulProgram(ComputeContext& context,
   // Ensure the subgroup size must be greater than or equal to `tile_m` to safely enable `use_subgroup`.
   // If the status of this condition is uncertain, the feature must be disabled.
   const bool use_subgroup = false;
-  const uint32_t vec_size = channel_input % 4 == 0 ? 4 : 1;
+  const uint32_t vec_size = channel_input % 4 == 0 ? 4 : (channel_input % 2 == 0 ? 2 : 1);
   Im2ColMatMulProgram im2col_mm_program{has_bias, tile_m, tile_n, vec_size, use_subgroup};
   im2col_mm_program.SetWorkgroupSize(workgroup_size);
 
diff --git a/onnxruntime/core/providers/webgpu/nn/im2col_matmul.wgsl.template b/onnxruntime/core/providers/webgpu/nn/im2col_matmul.wgsl.template
@@ -82,6 +82,7 @@ fn write_output(batch : u32, m : u32, n : u32, value : output_element_t) {
 const TILE_M_SIZE : u32 = tile_m;
 const TILE_N_SIZE : u32 = tile_n;
 const TILE_K_VEC_SIZE : u32 = 16 / vec_size;
+const ADVANCE_DIM = 64 / TILE_K_VEC_SIZE;
 
 var<workgroup> src_tile : array<array<src_value_t, TILE_M_SIZE>, TILE_K_VEC_SIZE>;
 var<workgroup> weight_tile : array<array<weight_value_t, TILE_N_SIZE>, TILE_K_VEC_SIZE>;
@@ -93,32 +94,20 @@ $MAIN {
 
   var results : array<output_element_t, TILE_M_SIZE>;
   for (var k_idx = 0u; k_idx < uniforms.K_tiles; k_idx++) {
-#if vec_size != 4
-    for (var src_m = 0u; src_m < TILE_M_SIZE; src_m += 4u) {
-      let load_src_m = src_m + local_idx / 16;
-      let load_src_k = local_idx % 16;
-#else
-    for (var src_m = 0u; src_m < TILE_M_SIZE; src_m += 16u) {
+    for (var src_m = 0u; src_m < TILE_M_SIZE; src_m += ADVANCE_DIM) {
       // Loads a 16x4 vec of src into the workgroup memory.
-      let load_src_m = src_m + local_idx / 4;
-      let load_src_k = local_idx % 4;
-#endif
+      let load_src_m = src_m + local_idx / TILE_K_VEC_SIZE;
+      let load_src_k = local_idx % TILE_K_VEC_SIZE;
 
       src_tile[load_src_k][load_src_m] = load_src(batch,
                                                   m_global_base + load_src_m,
                                                   k_idx * TILE_K_VEC_SIZE + load_src_k);
     }
 
-#if vec_size != 4
-    for (var weight_n = 0u; weight_n < TILE_N_SIZE; weight_n += 4u) {
-      let load_weight_n = weight_n + local_idx / 16;
-      let load_weight_k = local_idx % 16;
-#else
-    for (var weight_n = 0u; weight_n < TILE_N_SIZE; weight_n += 16u) {
+    for (var weight_n = 0u; weight_n < TILE_N_SIZE; weight_n += ADVANCE_DIM) {
       // Loads a 16x4 vec of weight into the workgroup memory.
-      let load_weight_n = weight_n + local_idx / 4;
-      let load_weight_k = local_idx % 4;
-#endif
+      let load_weight_n = weight_n + local_idx / TILE_K_VEC_SIZE;
+      let load_weight_k = local_idx % TILE_K_VEC_SIZE;
 
       weight_tile[load_weight_k][load_weight_n] = load_weight(n_global_base + load_weight_n,
                                                               k_idx * TILE_K_VEC_SIZE + load_weight_k);
@@ -134,7 +123,7 @@ $MAIN {
       }
 #else
       for (var m_idx = 0u; m_idx < TILE_M_SIZE; m_idx++) {
-#if vec_size != 4
+#if vec_size == 1
         results[m_idx] += output_element_t(weight_data * src_tile[inner_k_idx][m_idx]);
 #else
         results[m_idx] += output_element_t(dot(weight_data, src_tile[inner_k_idx][m_idx]));
diff --git a/onnxruntime/test/providers/cpu/nn/conv_op_test.cc b/onnxruntime/test/providers/cpu/nn/conv_op_test.cc
@@ -395,6 +395,85 @@ TEST(ConvTest, Conv2D_3) {
   TestConvOp(attrs, {X, W}, {X_shape, W_shape}, Y, Y_shape, true);
 }
 
+TEST(ConvTest, Conv2D_4) {
+  ConvOpAndTestAttributes attrs = {
+      "",                           // auto_pad
+      vector<int64_t>{1, 1},        // dilations
+      1,                            // group
+      vector<int64_t>{2, 2},        // kernel_shape
+      vector<int64_t>{1, 2, 3, 1},  // pads
+      vector<int64_t>{1, 1},        // strides
+      {}                            // excluded EPs
+  };
+
+  vector<int64_t> X_shape = {1, 4, 3, 3};
+  vector<float> X(36, 1.f);
+
+  vector<int64_t> W_shape = {2, 4, 2, 2};
+  vector<float> W(32, 1.f);
+
+  vector<int64_t> Y_shape = {1, 2, 6, 5};
+
+  auto Y = {
+      0.f, 4.f, 8.f, 8.f, 4.f,
+      0.f, 8.f, 16.f, 16.f, 8.f,
+      0.f, 8.f, 16.f, 16.f, 8.f,
+      0.f, 4.f, 8.f, 8.f, 4.f,
+      0.f, 0.f, 0.f, 0.f, 0.f,
+      0.f, 0.f, 0.f, 0.f, 0.f,
+
+      0.f, 4.f, 8.f, 8.f, 4.f,
+      0.f, 8.f, 16.f, 16.f, 8.f,
+      0.f, 8.f, 16.f, 16.f, 8.f,
+      0.f, 4.f, 8.f, 8.f, 4.f,
+      0.f, 0.f, 0.f, 0.f, 0.f,
+      0.f, 0.f, 0.f, 0.f, 0.f};
+
+  TestConvOp(attrs, {X, W}, {X_shape, W_shape}, Y, Y_shape);
+  TestConvOp(attrs, {X, W}, {X_shape, W_shape}, Y, Y_shape, true);
+}
+
+TEST(ConvTest, Conv2D_5) {
+  ConvOpAndTestAttributes attrs = {
+      "",                           // auto_pad
+      vector<int64_t>{1, 1},        // dilations
+      1,                            // group
+      vector<int64_t>{2, 2},        // kernel_shape
+      vector<int64_t>{1, 2, 3, 1},  // pads
+      vector<int64_t>{1, 1},        // strides
+      {}                            // excluded EPs
+  };
+
+  vector<int64_t> X_shape = {1, 6, 3, 3};
+  vector<float> X(54);
+  for (int i = 0; i < 54; ++i) {
+    X[i] = static_cast<float>(i + 1);
+  }
+
+  vector<int64_t> W_shape = {2, 6, 2, 2};
+  vector<float> W(48, 1.f);
+
+  vector<int64_t> Y_shape = {1, 2, 6, 5};
+
+  auto Y = {
+      0.f, 141.f, 288.f, 300.f, 153.f,
+      0.f, 300.f, 612.f, 636.f, 324.f,
+      0.f, 336.f, 684.f, 708.f, 360.f,
+      0.f, 177.f, 360.f, 372.f, 189.f,
+      0.f, 0.f, 0.f, 0.f, 0.f,
+      0.f, 0.f, 0.f, 0.f, 0.f,
+
+      0.f, 141.f, 288.f, 300.f, 153.f,
+      0.f, 300.f, 612.f, 636.f, 324.f,
+      0.f, 336.f, 684.f, 708.f, 360.f,
+      0.f, 177.f, 360.f, 372.f, 189.f,
+      0.f, 0.f, 0.f, 0.f, 0.f,
+      0.f, 0.f, 0.f, 0.f, 0.f};
+
+  TestConvOp(attrs, {X, W}, {X_shape, W_shape}, Y, Y_shape);
+  TestConvOp(attrs, {X, W}, {X_shape, W_shape}, Y, Y_shape, true);
+}
+
 TEST(ConvTest, Conv2D_Bias_1) {
   ConvOpAndTestAttributes attrs = {
       "",                           // auto_pad