CodeLinaro
diff --git a/‎onnxruntime/contrib_ops/webgpu/fused_conv.cc‎
Lines changed: 33 additions & 0 deletions b/‎onnxruntime/contrib_ops/webgpu/fused_conv.cc‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎onnxruntime/contrib_ops/webgpu/webgpu_contrib_kernels.cc‎
Lines changed: 1 addition & 1 deletion b/‎onnxruntime/contrib_ops/webgpu/webgpu_contrib_kernels.cc‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎onnxruntime/core/optimizer/conv_activation_fusion.cc‎
Lines changed: 1 addition & 1 deletion b/‎onnxruntime/core/optimizer/conv_activation_fusion.cc‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎onnxruntime/core/optimizer/graph_transformer_utils.cc‎
Lines changed: 14 additions & 12 deletions b/‎onnxruntime/core/optimizer/graph_transformer_utils.cc‎
Lines changed: 14 additions & 12 deletions
diff --git a/‎onnxruntime/core/providers/webgpu/math/matmul.cc‎
Lines changed: 49 additions & 23 deletions b/‎onnxruntime/core/providers/webgpu/math/matmul.cc‎
Lines changed: 49 additions & 23 deletions
diff --git a/‎onnxruntime/core/providers/webgpu/math/matmul.h‎
Lines changed: 9 additions & 3 deletions b/‎onnxruntime/core/providers/webgpu/math/matmul.h‎
Lines changed: 9 additions & 3 deletions
@@ -0,0 +1,33 @@
+// Copyright (c) Microsoft Corporation. All rights reserved.
+// Licensed under the MIT License.
+
+#include "core/providers/webgpu/shader_helper.h"
+#include "core/providers/webgpu/webgpu_supported_types.h"
+#include "core/providers/webgpu/nn/conv.h"
+#include "contrib_ops/webgpu/webgpu_contrib_kernels.h"
+#include "core/providers/webgpu/nn/fuse_utils.h"
+
+namespace onnxruntime {
+namespace contrib {
+namespace webgpu {
+using onnxruntime::webgpu::Conv;
+template <bool is_channels_last>
+class FusedConv final : public Conv<is_channels_last, true> {
+ public:
+  FusedConv(const OpKernelInfo& info) : Conv<is_channels_last, true>(info) {
+    ORT_ENFORCE(GetFusedActivationAttr(info, Conv<is_channels_last, true>::activation_).IsOK());
+  }
+};
+
+ONNX_OPERATOR_KERNEL_EX(
+    FusedConv,
+    kMSDomain,
+    1,
+    kWebGpuExecutionProvider,
+    (*KernelDefBuilder::Create())
+        .TypeConstraint("T", onnxruntime::webgpu::WebGpuSupportedFloatTypes()),
+    FusedConv<false>);
+
+}  // namespace webgpu
+}  // namespace contrib
+}  // namespace onnxruntime
@@ -40,7 +40,7 @@ Status RegisterWebGpuContribKernels(KernelRegistry& kernel_registry) {
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kWebGpuExecutionProvider, kMSDomain, 1, BiasAdd)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kWebGpuExecutionProvider, kMSDomain, 1, BiasSplitGelu)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kWebGpuExecutionProvider, kMSDomain, 1, FastGelu)>,
-      // BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kWebGpuExecutionProvider, kMSDomain, 1, FusedConv)>,
+      BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kWebGpuExecutionProvider, kMSDomain, 1, FusedConv)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kWebGpuExecutionProvider, kMSDomain, 1, Gelu)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kWebGpuExecutionProvider, kMSDomain, 1, GroupQueryAttention)>,
       BuildKernelCreateInfo<ONNX_OPERATOR_KERNEL_CLASS_NAME(kWebGpuExecutionProvider, kMSDomain, 1, MatMulNBits)>,
 
@@ -121,7 +121,7 @@ class ConvActivationSelector : public NodeSelector {
       if (!graph_utils::IsSupportedOptypeVersionAndDomain(*next_node, "Relu", {6, 13, 14})) {
         return std::nullopt;
       }
-    } else if (node_ep.empty() || node_ep == kCpuExecutionProvider || node_ep == kJsExecutionProvider) {
+    } else if (node_ep.empty() || node_ep == kCpuExecutionProvider || node_ep == kJsExecutionProvider || node_ep == kWebGpuExecutionProvider) {
       if (!is_supported_non_cuda_rocm_ep_activation(*next_node) &&
           !graph_utils::IsSupportedOptypeVersionAndDomain(*next_node, "HardSigmoid", {6})) {
         return std::nullopt;
 
@@ -296,17 +296,19 @@ InlinedVector<std::unique_ptr<GraphTransformer>> GenerateTransformers(
                                                                           onnxruntime::kCudaExecutionProvider,
                                                                           onnxruntime::kRocmExecutionProvider,
                                                                           onnxruntime::kDmlExecutionProvider};
-      const InlinedHashSet<std::string_view> cpu_rocm_acl_armnn_js_eps = {onnxruntime::kCpuExecutionProvider,
-                                                                          onnxruntime::kRocmExecutionProvider,
-                                                                          onnxruntime::kAclExecutionProvider,
-                                                                          onnxruntime::kArmNNExecutionProvider,
-                                                                          onnxruntime::kJsExecutionProvider};
-      const InlinedHashSet<std::string_view> cpu_cuda_rocm_acl_armnn_js_eps = {onnxruntime::kCpuExecutionProvider,
-                                                                               onnxruntime::kCudaExecutionProvider,
-                                                                               onnxruntime::kRocmExecutionProvider,
-                                                                               onnxruntime::kAclExecutionProvider,
-                                                                               onnxruntime::kArmNNExecutionProvider,
-                                                                               onnxruntime::kJsExecutionProvider};
+      const InlinedHashSet<std::string_view> cpu_rocm_acl_armnn_js_webgpu_eps = {onnxruntime::kCpuExecutionProvider,
+                                                                                 onnxruntime::kRocmExecutionProvider,
+                                                                                 onnxruntime::kAclExecutionProvider,
+                                                                                 onnxruntime::kArmNNExecutionProvider,
+                                                                                 onnxruntime::kJsExecutionProvider,
+                                                                                 onnxruntime::kWebGpuExecutionProvider};
+      const InlinedHashSet<std::string_view> cpu_cuda_rocm_acl_armnn_js_webgpu_eps = {onnxruntime::kCpuExecutionProvider,
+                                                                                      onnxruntime::kCudaExecutionProvider,
+                                                                                      onnxruntime::kRocmExecutionProvider,
+                                                                                      onnxruntime::kAclExecutionProvider,
+                                                                                      onnxruntime::kArmNNExecutionProvider,
+                                                                                      onnxruntime::kJsExecutionProvider,
+                                                                                      onnxruntime::kWebGpuExecutionProvider};
       const InlinedHashSet<std::string_view> cpu_dml_acl_eps = {onnxruntime::kCpuExecutionProvider,
                                                                 onnxruntime::kDmlExecutionProvider,
                                                                 onnxruntime::kAclExecutionProvider};
@@ -338,7 +340,7 @@ InlinedVector<std::unique_ptr<GraphTransformer>> GenerateTransformers(
       transformers.emplace_back(std::make_unique<MatMulIntegerToFloatFusion>(cpu_dml_acl_eps));
       transformers.emplace_back(std::make_unique<DynamicQuantizeMatMulFusion>(cpu_acl_eps));
 
-      transformers.emplace_back(std::make_unique<ConvActivationFusion>(cpu_rocm_acl_armnn_js_eps));
+      transformers.emplace_back(std::make_unique<ConvActivationFusion>(cpu_rocm_acl_armnn_js_webgpu_eps));
 
       transformers.emplace_back(std::make_unique<GeluFusion>(cpu_acl_cuda_dml_rocm_eps, level));
       transformers.emplace_back(std::make_unique<LayerNormFusion>(cpu_acl_cuda_dml_rocm_eps, level));
 
@@ -6,8 +6,9 @@
 #include "core/providers/cpu/tensor/utils.h"
 #include "core/providers/webgpu/shader_helper.h"
 #include "core/providers/webgpu/webgpu_supported_types.h"
-
+#include "core/providers/webgpu/nn/fuse_utils.h"
 #include "core/providers/webgpu/data_transfer.h"
+
 namespace onnxruntime {
 namespace webgpu {
 
@@ -54,11 +55,12 @@ Status MatMulNaiveProgram::GenerateShaderCode(ShaderHelper& shader) const {
   std::string process_bias;
   if (has_bias_) {
     shader.AddInput("bias", ShaderUsage::UseUniform);
-    process_bias = "value += output_value_t(bias[row + i]);";
+    process_bias = is_channels_last_ ? "value += output_value_t(bias[col])" : "value += output_value_t(bias[row + i]);";
   }
 
+  std::string apply_activation = GetActivationSnippet(activation_, "output_value_t", "output_element_t");
   const auto& output = shader.AddOutput("output", ShaderUsage::UseUniform |
-                                                      ShaderUsage::UseIndicesTypeAlias | ShaderUsage::UseValueTypeAlias);
+                                                      ShaderUsage::UseIndicesTypeAlias | ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
   const auto& batch_dims = shader.AddIndices("batch_dims");
 
   int a_components = a.NumComponents();
@@ -90,6 +92,7 @@ Status MatMulNaiveProgram::GenerateShaderCode(ShaderHelper& shader) const {
                             << "for (var i = 0u; i < " << output_number_ << "u; i++) {\n"
                             << "  var value = values[i];\n"
                             << process_bias << "\n"
+                            << apply_activation << "\n"
                             << "  let cur_indices = output_indices_t(batch, row + i, col/ " << components << ");\n"
                             << "  let offset = " << output.IndicesToOffset("cur_indices") << ";\n"
                             << output.SetByOffset("offset", "value")
@@ -127,7 +130,7 @@ Status MatMul::ComputeInternal(ComputeContext& context) const {
     const int64_t a_rows = a->Shape().NumDimensions() > 1 ? a->Shape()[a->Shape().NumDimensions() - 2] : 1;
     TensorShape output_shape_shader({batch_size, a_rows, helper.N() / components});
 
-    MatMulNaiveProgram program{output_rank, output_number, has_bias};
+    MatMulNaiveProgram program{Activation(), output_rank, output_number, has_bias};
 
     program
         .CacheHint(std::to_string(components), std::to_string(a_components), std::to_string(output_number))
@@ -147,11 +150,32 @@ Status MatMul::ComputeInternal(ComputeContext& context) const {
     return context.RunProgram(program);
   }
 
-  int64_t batchA = a->Shape().SizeToDimension(a->Shape().NumDimensions() - 2);
-  int64_t batchB = b->Shape().SizeToDimension(b->Shape().NumDimensions() - 2);
+  std::vector<const Tensor*> inputs(has_bias ? 3 : 2);
+  inputs[0] = a;
+  inputs[1] = b;
+  if (has_bias) {
+    const auto* bias = context.Input(2);
+    inputs.push_back(bias);
+  }
+  auto program = CreateMatMulProgram(Activation(), inputs, output_tensor, false);
+
+  return context.RunProgram(program);
+}
+
+MatMulProgram CreateMatMulProgram(const Activation& activation, std::vector<const Tensor*>& inputs, Tensor* output_tensor, bool is_channels_last,
+                                  const TensorShape& input_a_reshape,
+                                  const TensorShape& input_b_reshape) {
+  const auto* a = inputs[0];
+  const auto* b = inputs[1];
+  bool has_bias = inputs.size() > 2;
+  TensorShape a_shape = input_a_reshape.NumDimensions() > 0 ? input_a_reshape : a->Shape();
+  TensorShape b_shape = input_b_reshape.NumDimensions() > 0 ? input_b_reshape : b->Shape();
+
+  MatMulComputeHelper helper;
+  ORT_THROW_IF_ERROR(helper.Compute(a_shape, b_shape));
+  int64_t batchA = a_shape.SizeToDimension(a_shape.NumDimensions() - 2);
+  int64_t batchB = b_shape.SizeToDimension(b_shape.NumDimensions() - 2);
 
-  TensorShape a_shape = a->Shape();
-  TensorShape b_shape = b->Shape();
   TensorShape output_shape = helper.OutputShape();
 
   const int64_t dim_output_outer = output_shape[output_shape.NumDimensions() - 2];
@@ -184,44 +208,46 @@ Status MatMul::ComputeInternal(ComputeContext& context) const {
   const int64_t batch_size = outer_dims.Size();
 
   // Get dimensions for matrix multiplication from TensorShape
-  const int32_t dim_a_outer = narrow<int32_t>(a_shape[a_shape.NumDimensions() - 2]);  // left matrix second dimension
-  const int32_t dim_inner = narrow<int32_t>(a_shape[a_shape.NumDimensions() - 1]);    // left matrix first dimension
-  const int32_t dim_b_outer = narrow<int32_t>(b_shape[b_shape.NumDimensions() - 1]);  // right matrix first dimension
+  const uint32_t dim_a_outer = narrow<uint32_t>(a_shape[a_shape.NumDimensions() - 2]);  // left matrix second dimension
+  const uint32_t dim_inner = narrow<uint32_t>(a_shape[a_shape.NumDimensions() - 1]);    // left matrix first dimension
+  const uint32_t dim_b_outer = narrow<uint32_t>(b_shape[b_shape.NumDimensions() - 1]);  // right matrix first dimension
 
   const bool is_vec4 = dim_inner % 4 == 0 && dim_b_outer % 4 == 0;
 
   InlinedVector<int64_t> elements_per_thread = dim_a_outer <= 8
                                                    ? InlinedVector<int64_t>({4, 1, 1})
                                                    : InlinedVector<int64_t>({4, 4, 1});
 
-  const uint32_t dispatch_x = narrow<uint32_t>((dim_b_outer + MATMUL_PACKED_WORKGROUP_SIZE_X * elements_per_thread[0] - 1) /
-                                               (MATMUL_PACKED_WORKGROUP_SIZE_X * elements_per_thread[0]));
-  const uint32_t dispatch_y = narrow<uint32_t>((dim_a_outer + MATMUL_PACKED_WORKGROUP_SIZE_Y * elements_per_thread[1] - 1) /
-                                               (MATMUL_PACKED_WORKGROUP_SIZE_Y * elements_per_thread[1]));
-  const uint32_t dispatch_z = narrow<uint32_t>((static_cast<uint32_t>(batch_size) + MATMUL_PACKED_WORKGROUP_SIZE_Z * elements_per_thread[2] - 1) /
-                                               (MATMUL_PACKED_WORKGROUP_SIZE_Z * elements_per_thread[2]));
+  const uint32_t dispatch_x = narrow<uint32_t>((dim_b_outer + MatMul::MATMUL_PACKED_WORKGROUP_SIZE_X * elements_per_thread[0] - 1) /
+                                               (MatMul::MATMUL_PACKED_WORKGROUP_SIZE_X * elements_per_thread[0]));
+  const uint32_t dispatch_y = narrow<uint32_t>((dim_a_outer + MatMul::MATMUL_PACKED_WORKGROUP_SIZE_Y * elements_per_thread[1] - 1) /
+                                               (MatMul::MATMUL_PACKED_WORKGROUP_SIZE_Y * elements_per_thread[1]));
+  const uint32_t dispatch_z = narrow<uint32_t>((static_cast<uint32_t>(batch_size) + MatMul::MATMUL_PACKED_WORKGROUP_SIZE_Z * elements_per_thread[2] - 1) /
+                                               (MatMul::MATMUL_PACKED_WORKGROUP_SIZE_Z * elements_per_thread[2]));
 
   const int components = is_vec4 ? 4 : 1;
   const TensorShape a_shape_temp = CreateMatMulIntermediateShape(outer_dims_a, dim_a_outer, dim_inner, components);
   const TensorShape b_shape_temp = CreateMatMulIntermediateShape(outer_dims_b, dim_inner, dim_b_outer, components);
   const TensorShape output_shape_temp = TensorShape({batch_size, dim_a_outer, dim_b_outer / components});
 
-  MatMulProgram program{has_bias, is_vec4, elements_per_thread};
+  MatMulProgram program{activation, has_bias, is_vec4, elements_per_thread, is_channels_last};
   program
-      .CacheHint(absl::StrJoin(elements_per_thread, "-"), std::to_string(is_vec4))
+      .CacheHint(activation.ToString(), absl::StrJoin(elements_per_thread, "-"), std::to_string(is_vec4))
       .AddInputs({{a, ProgramTensorMetadataDependency::TypeAndRank, a_shape_temp, components},
                   {b, ProgramTensorMetadataDependency::TypeAndRank, b_shape_temp, components}})
       .AddOutputs({{output_tensor, ProgramTensorMetadataDependency::Rank, output_shape_temp, components}})
       .AddUniformVariables({{dim_a_outer}, {dim_b_outer}, {dim_inner}})
       .AddIndices(outer_dims)
       .SetDispatchGroupSize(dispatch_x, dispatch_y, dispatch_z)
-      .SetWorkgroupSize(MATMUL_PACKED_WORKGROUP_SIZE_X, MATMUL_PACKED_WORKGROUP_SIZE_Y, MATMUL_PACKED_WORKGROUP_SIZE_Z);
+      .SetWorkgroupSize(MatMul::MATMUL_PACKED_WORKGROUP_SIZE_X, MatMul::MATMUL_PACKED_WORKGROUP_SIZE_Y, MatMul::MATMUL_PACKED_WORKGROUP_SIZE_Z);
 
   if (has_bias) {
-    const auto* bias = context.Input(2);
-    program.AddInput({bias, ProgramTensorMetadataDependency::Rank, 1});
+    auto bias_components = is_channels_last ? components : 1;
+    const auto* bias = inputs[2];
+    TensorShape reduced_bias_shape = ReduceShapeByComponents(bias->Shape(), bias_components);
+    program.AddInput({bias, ProgramTensorMetadataDependency::Rank, reduced_bias_shape, bias_components});
   }
-  return context.RunProgram(program);
+  return program;
 }
 
 }  // namespace webgpu
 
@@ -9,25 +9,29 @@
 #include "core/providers/webgpu/math/matmul_utils.h"
 #include "core/providers/webgpu/math/matmul_packed.h"
 #include "core/providers/webgpu/webgpu_utils.h"
+#include "core/providers/webgpu/nn/fuse_utils.h"
 
 namespace onnxruntime {
 namespace webgpu {
 
+MatMulProgram CreateMatMulProgram(const Activation& activation, std::vector<const Tensor*>& inputs, Tensor* output, bool is_channels_last,
+                                  const TensorShape& input_a_reshape = TensorShape(),
+                                  const TensorShape& input_b_reshape = TensorShape());
+
 class MatMul final : public WebGpuKernel {
  public:
   MatMul(const OpKernelInfo& info) : WebGpuKernel{info} {}
 
   Status ComputeInternal(ComputeContext& context) const override;
-
   constexpr static uint32_t MATMUL_PACKED_WORKGROUP_SIZE_X = 8;
   constexpr static uint32_t MATMUL_PACKED_WORKGROUP_SIZE_Y = 8;
   constexpr static uint32_t MATMUL_PACKED_WORKGROUP_SIZE_Z = 1;
 };
 
 class MatMulNaiveProgram final : public Program<MatMulNaiveProgram> {
  public:
-  MatMulNaiveProgram(const size_t output_rank, int64_t output_number, bool has_bias)
-      : Program{"MatMulNaive"}, output_rank_(output_rank), output_number_(output_number), has_bias_{has_bias} {
+  MatMulNaiveProgram(const Activation& activation, const size_t output_rank, int64_t output_number, bool has_bias, bool is_channels_last = false)
+      : Program{"MatMulNaive"}, activation_(activation), output_rank_(output_rank), output_number_(output_number), has_bias_{has_bias}, is_channels_last_(is_channels_last) {
   }
 
   Status GenerateShaderCode(ShaderHelper& sh) const override;
@@ -38,9 +42,11 @@ class MatMulNaiveProgram final : public Program<MatMulNaiveProgram> {
                                           {"K", ProgramUniformVariableDataType::Uint32});
 
  private:
+  const Activation& activation_;
   const size_t output_rank_;
   const int64_t output_number_;
   const bool has_bias_;
+  const bool is_channels_last_;
 };
 
 }  // namespace webgpu
Original file line number	Diff line number	Diff line change
`@@ -121,7 +121,7 @@ class ConvActivationSelector : public NodeSelector {`
`121`	`121`	`if (!graph_utils::IsSupportedOptypeVersionAndDomain(*next_node, "Relu", {6, 13, 14})) {`
`122`	`122`	`return std::nullopt;`
`123`	`123`	`}`
`124`		`- } else if (node_ep.empty() \|\| node_ep == kCpuExecutionProvider \|\| node_ep == kJsExecutionProvider) {`
	`124`	`+ } else if (node_ep.empty() \|\| node_ep == kCpuExecutionProvider \|\| node_ep == kJsExecutionProvider \|\| node_ep == kWebGpuExecutionProvider) {`
`125`	`125`	`if (!is_supported_non_cuda_rocm_ep_activation(*next_node) &&`
`126`	`126`	`!graph_utils::IsSupportedOptypeVersionAndDomain(*next_node, "HardSigmoid", {6})) {`
`127`	`127`	`return std::nullopt;`