pytorch
diff --git a/‎.ci/scripts/test_model.sh‎
Lines changed: 1 addition & 1 deletion b/‎.ci/scripts/test_model.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎CMakeLists.txt‎
Lines changed: 16 additions & 38 deletions b/‎CMakeLists.txt‎
Lines changed: 16 additions & 38 deletions
diff --git a/‎CODEOWNERS‎
Lines changed: 8 additions & 5 deletions b/‎CODEOWNERS‎
Lines changed: 8 additions & 5 deletions
diff --git a/‎backends/arm/_passes/TARGETS‎
Lines changed: 1 addition & 0 deletions b/‎backends/arm/_passes/TARGETS‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎backends/arm/_passes/__init__.py‎
Lines changed: 1 addition & 2 deletions b/‎backends/arm/_passes/__init__.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎backends/arm/_passes/arm_pass_manager.py‎
Lines changed: 6 additions & 6 deletions b/‎backends/arm/_passes/arm_pass_manager.py‎
Lines changed: 6 additions & 6 deletions
diff --git a/‎backends/arm/_passes/decompose_meandim_pass.py‎
Lines changed: 89 additions & 21 deletions b/‎backends/arm/_passes/decompose_meandim_pass.py‎
Lines changed: 89 additions & 21 deletions
@@ -201,7 +201,7 @@ test_model_with_qnn() {
   # TODO(guangyang): Make QNN chipset matches the target device
   QNN_CHIPSET=SM8450
 
-  "${PYTHON_EXECUTABLE}" -m examples.qualcomm.scripts.${EXPORT_SCRIPT} -b ${CMAKE_OUTPUT_DIR} -m ${QNN_CHIPSET} --compile_only $EXTRA_FLAGS
+  "${PYTHON_EXECUTABLE}" -m examples.qualcomm.scripts.${EXPORT_SCRIPT} -b ${CMAKE_OUTPUT_DIR} -m ${QNN_CHIPSET} --ci --compile_only $EXTRA_FLAGS
   EXPORTED_MODEL=$(find "./${EXPORT_SCRIPT}" -type f -name "${MODEL_NAME}*.pte" -print -quit)
 }
 
 
@@ -49,6 +49,21 @@ project(executorch)
 
 include(${PROJECT_SOURCE_DIR}/tools/cmake/common/preset.cmake)
 
+if(NOT CMAKE_CXX_STANDARD)
+  set(CMAKE_CXX_STANDARD 17)
+endif()
+announce_configured_options(CMAKE_CXX_STANDARD)
+
+if(NOT CMAKE_BUILD_TYPE)
+  set(CMAKE_BUILD_TYPE Debug)
+endif()
+announce_configured_options(CMAKE_BUILD_TYPE)
+
+announce_configured_options(CMAKE_CXX_COMPILER_ID)
+announce_configured_options(CMAKE_TOOLCHAIN_FILE)
+announce_configured_options(BUCK2)
+announce_configured_options(PYTHON_EXECUTABLE)
+
 load_build_preset()
 include(${PROJECT_SOURCE_DIR}/tools/cmake/preset/default.cmake)
 
@@ -63,14 +78,6 @@ include(ExternalProject)
 
 set(CMAKE_EXPORT_COMPILE_COMMANDS ON)
 
-if(NOT CMAKE_CXX_STANDARD)
-  set(CMAKE_CXX_STANDARD 17)
-endif()
-
-if(NOT CMAKE_BUILD_TYPE)
-  set(CMAKE_BUILD_TYPE Debug)
-endif()
-
 # Setup RPATH.
 # See https://gitlab.kitware.com/cmake/community/-/wikis/doc/cmake/RPATH-handling
 # Use separate rpaths during build and install phases
@@ -128,22 +135,6 @@ else()
   set(CMAKE_CXX_FLAGS_RELEASE "-O2 ${CMAKE_CXX_FLAGS_RELEASE}")
 endif()
 
-#
-# pthreadpool: build pthreadpool library. Disable on unsupported platforms
-#
-cmake_dependent_option(
-  EXECUTORCH_BUILD_PTHREADPOOL "Build pthreadpool library." ON
-  "NOT EXECUTORCH_BUILD_ARM_BAREMETAL" OFF
-)
-
-#
-# cpuinfo: build cpuinfo library. Disable on unsupported platforms
-#
-cmake_dependent_option(
-  EXECUTORCH_BUILD_CPUINFO "Build cpuinfo library." ON
-  "NOT EXECUTORCH_BUILD_ARM_BAREMETAL" OFF
-)
-
 add_subdirectory(third-party)
 
 if(EXECUTORCH_BUILD_EXTENSION_TRAINING)
@@ -475,14 +466,6 @@ install(
 )
 install(FILES tools/cmake/executorch-config.cmake DESTINATION lib/cmake/ExecuTorch)
 
-#
-# executor_runner: Host tool that demonstrates program execution.
-#
-cmake_dependent_option(
-  EXECUTORCH_BUILD_EXECUTOR_RUNNER "Build the executor_runner executable" ON
-  "NOT CMAKE_TOOLCHAIN_IOS" OFF
-)
-
 # Add googletest if any test targets should be built
 if(BUILD_TESTING)
   add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/third-party/googletest)
@@ -571,9 +554,7 @@ if(EXECUTORCH_BUILD_EXTENSION_TENSOR)
   add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/extension/tensor)
 endif()
 
-if(EXECUTORCH_BUILD_PTHREADPOOL
-   AND EXECUTORCH_BUILD_CPUINFO
-)
+if(EXECUTORCH_BUILD_PTHREADPOOL AND EXECUTORCH_BUILD_CPUINFO)
   add_subdirectory(${CMAKE_CURRENT_SOURCE_DIR}/extension/threadpool)
 endif()
 
@@ -738,6 +719,3 @@ if(EXECUTORCH_BUILD_VULKAN)
 endif()
 
 include(Test.cmake)
-
-# Print all summary
-executorch_print_configuration_summary()
@@ -15,10 +15,6 @@
 /backends/vulkan @SS-JIA
 /backends/xnnpack @digantdesai @mcr229
 
-/build @GregoryComer @kirklandsign
-
-/codegen @larryliu0820 @lucylq
-
 /devtools @tarun292 @Gasoonjia
 
 /docs @mergennachin
@@ -41,7 +37,6 @@
 /exir/backend @cccclai @kimishpatel @JacobSzwejbka @tarun292
 /exir @JacobSzwejbka @tarun292 @larryliu0820
 
-
 /extension/android @kirklandsign
 /extension/android_test @kirklandsign
 /extension/apple @shoumikhin
@@ -83,3 +78,11 @@
 /test @larryliu0820 @kirklandsign
 
 /util @tarun292
+
+# Build System -----------------------------------------------------------------
+
+CMakeLists.txt @jathu @larryliu0820 @kirklandsign
+CMakePresets.json @jathu @larryliu0820 @kirklandsign
+
+/codegen @larryliu0820 @lucylq
+/tools/cmake @jathu @larryliu0820 @kirklandsign
@@ -7,6 +7,7 @@ python_library(
         "//executorch/backends/arm:tosa_quant_utils",
         "//executorch/backends/arm:tosa_utils",
         "//executorch/backends/transforms:fuse_view_copy",
+        "//executorch/backends/transforms:remove_getitem_op",
         "//executorch/backends/transforms:replace_scalar_with_tensor",
         "//executorch/backends/xnnpack/_passes:xnnpack_passes",
         "//executorch/exir:lib",
 
@@ -32,6 +32,7 @@
 from .decompose_softmax_pass import DecomposeSoftmaxPass  # noqa
 from .decompose_softmax_unstable_pass import DecomposeSoftmaxUnstablePass  # noqa
 from .decompose_sqrt_pass import DecomposeSqrtPass  # noqa
+from .decompose_sum_pass import DecomposeSumPass  # noqa
 from .decompose_var_pass import DecomposeVarPass  # noqa
 from .fold_qdq_with_annotated_qparams_pass import (  # noqa
     FoldAndAnnotateQParamsPass,
@@ -44,10 +45,8 @@
 from .fuse_quantized_activation_pass import FuseQuantizedActivationPass  # noqa
 from .insert_rescales_pass import InsertRescalePass  # noqa
 from .insert_table_ops import InsertTableOpsPass  # noqa
-from .keep_dims_false_to_squeeze_pass import KeepDimsFalseToSqueezePass  # noqa
 from .match_arg_ranks_pass import MatchArgRanksPass  # noqa
 from .match_where_self_arg_dtype_pass import MatchWhereSelfDtypePass  # noqa
-from .meandim_to_averagepool_pass import ConvertMeanDimToAveragePoolPass  # noqa
 from .mm_to_bmm_pass import ConvertMmToBmmPass  # noqa
 from .remove_clone_pass import RemoveClonePass  # noqa
 from .replace_scalar_with_tensor_pass import (  # noqa
 
@@ -17,7 +17,6 @@
     ConvertAnyDefaultDimDimsPass,
     ConvertExpandCopyToRepeatPass,
     ConvertFullLikeToFullPass,
-    ConvertMeanDimToAveragePoolPass,
     ConvertMinMaxPass,
     ConvertMmToBmmPass,
     ConvertSplitToSlicePass,
@@ -37,6 +36,7 @@
     DecomposeSoftmaxPass,
     DecomposeSoftmaxUnstablePass,
     DecomposeSqrtPass,
+    DecomposeSumPass,
     DecomposeVarPass,
     FoldAndAnnotateQParamsPass,
     FuseBatchnorm2DPass,
@@ -45,7 +45,6 @@
     FuseQuantizedActivationPass,
     InsertRescalePass,
     InsertTableOpsPass,
-    KeepDimsFalseToSqueezePass,
     MatchArgRanksPass,
     MatchWhereSelfDtypePass,
     QuantizeOperatorArguments,
@@ -87,7 +86,7 @@ def _tosa_080_BI_pipeline(self, exported_program: ExportedProgram) -> GraphModul
         self.add_pass(ConvertSplitToSlicePass())
         self.add_pass(ConvertMmToBmmPass())
         self.add_pass(DecomposeLinearPass())
-        self.add_pass(ConvertMeanDimToAveragePoolPass())
+        self.add_pass(DecomposeMeanDimPass())
         self.add_pass(ConvertFullLikeToFullPass())
         self.add_pass(ConvertToClampPass())
         self.add_pass(ConvertMinMaxPass())
@@ -110,7 +109,7 @@ def _tosa_080_BI_pipeline(self, exported_program: ExportedProgram) -> GraphModul
         self.add_pass(ConvertExpandCopyToRepeatPass())
         self.add_pass(UnsqueezeBeforeRepeatPass())
         self.add_pass(CastInt64BuffersToInt32Pass(exported_program))
-        self.add_pass(KeepDimsFalseToSqueezePass())
+        self.add_pass(DecomposeSumPass())
         self.add_pass(Conv1dUnsqueezePass(exported_program))
         self.add_pass(DecomposeSelectPass())
         self.add_pass(ConvertSqueezesToViewPass())
@@ -140,7 +139,6 @@ def _tosa_080_MI_pipeline(self, exported_program: ExportedProgram) -> GraphModul
         self.add_pass(DecomposeVarPass())
         self.add_pass(DecomposeMeanDimPass())
         self.add_pass(DecomposeNotEqualPass())
-        self.add_pass(ConvertMeanDimToAveragePoolPass())
         self.add_pass(DecomposeDivPass())
         self.add_pass(DecomposeSoftmaxPass())
         self.add_pass(DecomposeGeluPass())
@@ -163,7 +161,7 @@ def _tosa_080_MI_pipeline(self, exported_program: ExportedProgram) -> GraphModul
         self.add_pass(ConvertExpandCopyToRepeatPass())
         self.add_pass(UnsqueezeBeforeRepeatPass())
         self.add_pass(CastInt64BuffersToInt32Pass(exported_program))
-        self.add_pass(KeepDimsFalseToSqueezePass())
+        self.add_pass(DecomposeSumPass())
         self.add_pass(Conv1dUnsqueezePass(exported_program))
         self.add_pass(DecomposeSelectPass())
         self.add_pass(ConvertSqueezesToViewPass())
@@ -220,4 +218,6 @@ def transform_for_annotation_pipeline(self, graph_module: GraphModule):
 
         self.add_pass(ConvertMinMaxPass())
         self.add_pass(ReplaceInfValues())
+        self.add_pass(DecomposeSumPass())
+
         return self._transform(graph_module)
@@ -1,10 +1,9 @@
 # Copyright 2024-2025 Arm Limited and/or its affiliates.
-# All rights reserved.
 #
 # This source code is licensed under the BSD-style license found in the
 # LICENSE file in the root directory of this source tree.
 
-# pyre-unsafe
+from math import prod
 
 import torch
 from executorch.backends.arm._passes import ArmPass
@@ -28,42 +27,111 @@ def get_meandim_decomposition(op) -> tuple:
     raise RuntimeError(f"Can't get meandim decomposition for op {op}")
 
 
+def get_avgpool(op):
+    if op == exir_ops.edge.aten.mean.dim:
+        return exir_ops.edge.aten.avg_pool2d.default
+    if op == torch.ops.aten.mean.dim:
+        return torch.ops.aten.avg_pool2d.default
+    raise RuntimeError(f"Can't get meandim decomposition for op {op}")
+
+
+def get_view(op):
+    if op == exir_ops.edge.aten.mean.dim:
+        return exir_ops.edge.aten.view_copy.default
+    if op == torch.ops.aten.mean.dim:
+        return torch.ops.aten.view_copy.default
+    raise RuntimeError(f"Can't get meandim decomposition for op {op}")
+
+
 class DecomposeMeanDimPass(ArmPass):
     """
-    This pass decomposes meandim into a sum and mul node.
+    Decomposes a meandim into avg_pool and/or sum + mul (1/N) depending on which dims the mean is taken for:
+        h,w -> avg_pool
+        n,c -> sum + mul(1/N)
+    For rank < 4, the input is first reshaped to 4D by padding with dim=1 from the left.
 
     Example:
-        y = mean_dim(x, dim, keepdim)
+        x = mean_dim(x, (0,2), keepdim=False) # x = (c,h,w)
     Becomes:
-        sum = sum.dim_IntList(x, dim, keepdim)
-        y = mul(sum, 1/N)
+        x = view_copy.default(x, new_shape=(1,c,h,w)) # Reshape to work with avg_pool
+        x = avg_pool2d.default(x, kernel=(1,w), stride=(1,1)) # Reduce w with avg_pool
+        x = sum.dim_IntList(x, dim=1, keepdims=True) # Reduce c with sum
+        x = mul.Tensor(x, 1/c) # Divide by number of channels to get mean
+        x = view_copy.default(x, new_shape=(h)) # Squeeze dims since keepdims = False
     """
 
     def call_operator(self, op, args, kwargs, meta):
         if op not in (exir_ops.edge.aten.mean.dim, torch.ops.aten.mean.dim):
             return super().call_operator(op, args, kwargs, meta)
 
         x = get_node_arg(args, 0)
-        dim = get_node_arg(args, 1)
-        keepdim = get_node_arg(args, 2, False)
-
-        # if dim == [-1, -2], mean.dim can be
-        # decomposed to avg_pool2d. This is handled by ConvertMeanDimToAveragePool.
-        if dim == [-1, -2]:
-            # Simply return the mean.dim operator for future decomposition.
-            return super().call_operator(op, args, kwargs, meta)
+        input_shape = x.data.size()
+        output_shape = meta["val"].size()
+        dims_to_reduce = get_node_arg(args, 1)
+        dims_to_reduce = [dim % len(input_shape) for dim in dims_to_reduce]
 
-        shape = meta["val"].size()
         dtype = meta["val"].dtype
-        input_shape = x.data.size()
-        N = 1
-        for d in dim:
-            N *= input_shape[d]
+        view_op = get_view(op)
 
+        if len(input_shape) > 4:
+            raise NotImplementedError(
+                f"{op} with rank > 4 is currently not supported for the TOSA backend."
+            )
+
+        # Unsqueeze to 4D
+        if len(input_shape) < 4:
+            pad_n = 4 - len(input_shape)
+            new_shape = [1] * pad_n + list(input_shape)
+            dims_to_reduce = [dim + pad_n for dim in dims_to_reduce]
+
+            x = super().call_operator(view_op, (x, new_shape), {}, meta, True)
+
+        # Reduce (h,w) by avg pool
+        dims_to_reduce_by_avgpool = [dim for dim in dims_to_reduce if dim >= 2]
+        x = self._reduce_by_average_pool(op, x, dims_to_reduce_by_avgpool, meta)
+
+        # Reduce (n, c) by reduce sum
+        dims_to_reduce_by_sum = [dim for dim in dims_to_reduce if dim < 2]
+        x = self._reduce_by_sum(op, x, dims_to_reduce_by_sum, meta, dtype)
+
+        # Reshape to correct output shape if necessary
+        if x.data.size() != output_shape:
+            x = super().call_operator(view_op, (x, output_shape), {}, meta, True)
+
+        return x
+
+    def _reduce_by_sum(self, op, input_node, dims, meta, dtype):
+        if len(dims) == 0:
+            return input_node
+
+        input_shape = input_node.data.size()
+        output_shape = meta["val"].size()
+        N = prod((n for i, n in enumerate(input_shape) if i in dims))
         sum_op, full_op, mul_op = get_meandim_decomposition(op)
 
-        sum = super().call_operator(sum_op, (x, dim, keepdim), {}, meta, True)
+        sum = super().call_operator(sum_op, (input_node, dims, True), {}, meta, True)
         full = super().call_operator(
-            full_op, ([1] * len(shape), 1 / N), {"dtype": dtype}, meta, True
+            full_op, ([1] * len(output_shape), 1 / N), {"dtype": dtype}, meta, True
         )
         return super().call_operator(mul_op, (sum, full), {}, meta, True)
+
+    def _reduce_by_average_pool(self, op, input_node, dims, meta):
+        if len(dims) == 0:
+            return input_node
+
+        avgpool_op = get_avgpool(op)
+        input_shape = input_node.data.size()
+
+        stride = [1, 1]
+        if dims in ([2, 3], [3, 2]):
+            kernel_size = [input_shape[2], input_shape[3]]
+        elif dims == [3]:
+            kernel_size = [1, input_shape[3]]
+        elif dims == [2]:
+            kernel_size = [input_shape[2], 1]
+        else:
+            raise RuntimeError(f"Bad dims {dims} for {op} decomposition of mean_dim.")
+
+        return super().call_operator(
+            avgpool_op, (input_node, kernel_size, stride), {}, meta, True
+        )
Original file line number	Diff line number	Diff line change
`@@ -201,7 +201,7 @@ test_model_with_qnn() {`
`201`	`201`	`# TODO(guangyang): Make QNN chipset matches the target device`
`202`	`202`	`QNN_CHIPSET=SM8450`
`203`	`203`
`204`		`- "${PYTHON_EXECUTABLE}" -m examples.qualcomm.scripts.${EXPORT_SCRIPT} -b ${CMAKE_OUTPUT_DIR} -m ${QNN_CHIPSET} --compile_only $EXTRA_FLAGS`
	`204`	`+ "${PYTHON_EXECUTABLE}" -m examples.qualcomm.scripts.${EXPORT_SCRIPT} -b ${CMAKE_OUTPUT_DIR} -m ${QNN_CHIPSET} --ci --compile_only $EXTRA_FLAGS`
`205`	`205`	`EXPORTED_MODEL=$(find "./${EXPORT_SCRIPT}" -type f -name "${MODEL_NAME}*.pte" -print -quit)`
`206`	`206`	`}`
`207`	`207`