use aoti decomposition on lowable graph

Gasoonjia · Gasoonjia · commit 50f0ab80aae7 · 2025-08-21T23:09:03.000-07:00
diff --git a/backends/aoti/aoti_partitioner.py b/backends/aoti/aoti_partitioner.py
@@ -7,7 +7,7 @@
 # pyre-unsafe
 
 import operator
-from typing import cast, final, List
+from typing import Callable, cast, Dict, final, List, Optional, Set, Tuple
 
 import torch
 from executorch.backends.aoti.aoti_backend import AotiBackend  # usort: skip
@@ -24,167 +24,168 @@
 
 from torch.fx.passes.operator_support import OperatorSupportBase
 
-supported_fallback_operators = []
-
-inductor_fallback_ops: dict[str, dict[str, list[str]]] = {
-    "aten._adaptive_avg_pool2d_backward.default": {},
-    "aten._adaptive_avg_pool2d.default": {},
-    "aten._adaptive_avg_pool3d_backward.default": {},
-    "aten._adaptive_avg_pool3d.default": {},
-    "aten._addmm_activation.default": {},
-    "aten._cdist_backward.default": {},
-    "aten._cdist_forward.default": {},
-    "aten._cudnn_rnn.default": {},
-    "aten._dyn_quant_matmul_4bit.default": {},
-    "aten._dyn_quant_pack_4bit_weight.default": {},
-    "aten._efficient_attention_backward.default": {},
-    "aten._efficient_attention_forward.default": {},
-    "aten._efficientzerotensor.default": {},
-    "aten._embedding_bag_dense_backward.default": {},
-    "aten._embedding_bag_forward_only.default": {},
-    "aten._embedding_bag_per_sample_weights_backward.default": {},
-    "aten._embedding_bag.default": {},
-    "aten._fft_c2c.default": {},
-    "aten._fft_r2c.default": {},
-    "aten._flash_attention_backward.default": {},
-    "aten._flash_attention_forward.default": {},
-    "aten._fused_moving_avg_obs_fq_helper_functional.default": {},
-    "aten._fused_moving_avg_obs_fq_helper.default": {},
-    "aten._fused_rms_norm.default": {},
-    "aten._histogramdd_from_bin_cts.default": {},
-    "aten._int_mm.out": {},
-    "aten._pdist_backward.default": {},
-    "aten._pdist_forward.default": {},
-    "aten._scaled_dot_product_attention_math_for_mps.default": {},
-    "aten._scaled_dot_product_cudnn_attention_backward.default": {},
-    "aten._scaled_dot_product_cudnn_attention.default": {},
-    "aten._scaled_dot_product_efficient_attention_backward.default": {},
-    "aten._scaled_dot_product_efficient_attention.default": {},
-    "aten._scaled_dot_product_flash_attention_backward.default": {},
-    "aten._scaled_dot_product_flash_attention_for_cpu_backward.default": {},
-    "aten._scaled_dot_product_flash_attention_for_cpu.default": {},
-    "aten._scaled_dot_product_flash_attention.default": {},
-    "aten._scaled_dot_product_fused_attention_overrideable_backward.default": {},
-    "aten._scaled_dot_product_fused_attention_overrideable.default": {},
-    "aten._scaled_mm.default": {},
-    "aten._scaled_mm.out": {},
-    "aten._segment_reduce_backward.default": {},
-    "aten._thnn_fused_lstm_cell.default": {},
-    "aten._to_sparse.default": {},
-    "aten._trilinear.default": {},
-    "aten._weight_int4pack_mm.default": {},
-    "aten._weight_int8pack_mm.default": {},
-    "aten.abs.default": {},
-    "aten.adaptive_max_pool2d_backward.default": {},
-    "aten.adaptive_max_pool2d.default": {},
-    "aten.adaptive_max_pool3d_backward.default": {},
-    "aten.adaptive_max_pool3d.default": {},
-    "aten.add.Scalar": {},
-    "aten.add.Tensor": {},
-    "aten.addbmm.default": {},
-    "aten.addmm.out": {},
-    "aten.addmv.default": {},
-    "aten.angle.default": {},
-    "aten.avg_pool2d_backward.default": {},
-    "aten.avg_pool2d.default": {},
-    "aten.avg_pool3d_backward.default": {},
-    "aten.avg_pool3d.default": {},
-    "aten.baddbmm.out": {},
-    "aten.bernoulli_.float": {},
-    "aten.bernoulli_.Tensor": {},
-    "aten.bmm.out": {},
-    "aten.bucketize.Tensor": {},
-    "aten.cat.default": {},
-    "aten.cholesky_inverse.default": {},
-    "aten.cholesky_solve.default": {},
-    "aten.convolution_backward.default": {},
-    "aten.convolution.default": {},
-    "aten.cummax.default": {},
-    "aten.cummin.default": {},
-    "aten.cumprod.default": {},
-    "aten.cumsum.default": {},
-    "aten.exponential.default": {},
-    "aten.fill_.Scalar": {},
-    "aten.fractional_max_pool2d_backward.default": {},
-    "aten.fractional_max_pool2d.default": {},
-    "aten.fractional_max_pool3d_backward.default": {},
-    "aten.fractional_max_pool3d.default": {},
-    "aten.gcd.default": {},
-    "aten.geqrf.default": {},
-    "aten.grid_sampler_2d_backward.default": {},
-    "aten.hann_window.default": {},
-    "aten.histc.default": {},
-    "aten.histogram.bin_ct": {},
-    "aten.index_put.default": {},
-    "aten.index_reduce.default": {},
-    "aten.index.Tensor": {},
-    "aten.kthvalue.default": {},
-    "aten.logcumsumexp.default": {},
-    "aten.lu_unpack.default": {},
-    "aten.masked_scatter_backward.default": {},
-    "aten.masked_scatter.default": {},
-    "aten.masked_select.default": {},
-    "aten.max_pool2d_with_indices_backward.default": {},
-    "aten.max_pool2d_with_indices.default": {},
-    "aten.max_pool3d_with_indices_backward.default": {},
-    "aten.max_pool3d_with_indices.default": {},
-    "aten.max_unpool2d.default": {},
-    "aten.max_unpool3d.default": {},
-    "aten.median.default": {},
-    "aten.mm.out": {},
-    "aten.mode.default": {},
-    "aten.mul.Scalar": {},
-    "aten.mul.Tensor": {},
-    "aten.nanmedian.default": {},
-    "aten.narrow.default": {},
-    "aten.native_dropout.default": {},
-    "aten.nonzero.default": {},
-    "aten.normal_functional.default": {},
-    "aten.ormqr.default": {},
-    "aten.pad.default": {},
-    "aten.permute.default": {},
-    "aten.polar.default": {},
-    "aten.pow.Scalar": {},
-    "aten.pow.Tensor_Scalar": {},
-    "aten.pow.Tensor_Tensor": {},
-    "aten.rand.default": {},
-    "aten.rand.generator": {},
-    "aten.randint.default": {},
-    "aten.randint.generator": {},
-    "aten.randint.low_out": {},
-    "aten.randint.low": {},
-    "aten.randn.default": {},
-    "aten.randn.generator": {},
-    "aten.randperm.default": {},
-    "aten.repeat_interleave.Tensor": {},
-    "aten.replication_pad1d_backward.default": {},
-    "aten.replication_pad2d_backward.default": {},
-    "aten.reshape.default": {},
-    "aten.resize_.default": {},
-    "aten.resize_as_.default": {},
-    "aten.scatter_reduce.two_out": {},
-    "aten.scatter.src_out": {},
-    "aten.scatter.value_out": {},
-    "aten.searchsorted.Scalar": {},
-    "aten.searchsorted.Tensor": {},
-    "aten.segment_reduce.default": {},
-    "aten.set_.source_Tensor": {},
-    "aten.slice.Tensor": {},
-    "aten.soft_margin_loss_backward.default": {},
-    "aten.sort.default": {},
-    "aten.sort.stable": {},
-    "aten.squeeze.dim": {},
-    "aten.to_sparse.default": {},
-    "aten.topk.default": {},
-    "aten.triangular_solve.default": {},
-    "aten.uniform.default": {},
-    "aten.upsample_bicubic2d_backward.default": {},
-    "aten.upsample_linear1d_backward.default": {},
-    "aten.upsample_trilinear3d_backward.default": {},
-    "aten.view_as_complex.default": {},
-    "aten.view_as_real.default": {},
-    "aten.view.dtype": {},
-    "aten._weight_int4pack_mm_with_scales_and_zeros.default": {},
+# exist fallback operators in et namespace; should map to inductor_fallback_ops
+supported_fallback_operators: Dict[str, Dict[str, List[str]]] = {}
+
+inductor_fallback_ops: Set[str] = {
+    "aten._adaptive_avg_pool2d_backward.default",
+    "aten._adaptive_avg_pool2d.default",
+    "aten._adaptive_avg_pool3d_backward.default",
+    "aten._adaptive_avg_pool3d.default",
+    "aten._addmm_activation.default",
+    "aten._cdist_backward.default",
+    "aten._cdist_forward.default",
+    "aten._cudnn_rnn.default",
+    "aten._dyn_quant_matmul_4bit.default",
+    "aten._dyn_quant_pack_4bit_weight.default",
+    "aten._efficient_attention_backward.default",
+    "aten._efficient_attention_forward.default",
+    "aten._efficientzerotensor.default",
+    "aten._embedding_bag_dense_backward.default",
+    "aten._embedding_bag_forward_only.default",
+    "aten._embedding_bag_per_sample_weights_backward.default",
+    "aten._embedding_bag.default",
+    "aten._fft_c2c.default",
+    "aten._fft_r2c.default",
+    "aten._flash_attention_backward.default",
+    "aten._flash_attention_forward.default",
+    "aten._fused_moving_avg_obs_fq_helper_functional.default",
+    "aten._fused_moving_avg_obs_fq_helper.default",
+    "aten._fused_rms_norm.default",
+    "aten._histogramdd_from_bin_cts.default",
+    "aten._int_mm.out",
+    "aten._pdist_backward.default",
+    "aten._pdist_forward.default",
+    "aten._scaled_dot_product_attention_math_for_mps.default",
+    "aten._scaled_dot_product_cudnn_attention_backward.default",
+    "aten._scaled_dot_product_cudnn_attention.default",
+    "aten._scaled_dot_product_efficient_attention_backward.default",
+    "aten._scaled_dot_product_efficient_attention.default",
+    "aten._scaled_dot_product_flash_attention_backward.default",
+    "aten._scaled_dot_product_flash_attention_for_cpu_backward.default",
+    "aten._scaled_dot_product_flash_attention_for_cpu.default",
+    "aten._scaled_dot_product_flash_attention.default",
+    "aten._scaled_dot_product_fused_attention_overrideable_backward.default",
+    "aten._scaled_dot_product_fused_attention_overrideable.default",
+    "aten._scaled_mm.default",
+    "aten._scaled_mm.out",
+    "aten._segment_reduce_backward.default",
+    "aten._thnn_fused_lstm_cell.default",
+    "aten._to_sparse.default",
+    "aten._trilinear.default",
+    "aten._weight_int4pack_mm.default",
+    "aten._weight_int8pack_mm.default",
+    "aten.abs.default",
+    "aten.adaptive_max_pool2d_backward.default",
+    "aten.adaptive_max_pool2d.default",
+    "aten.adaptive_max_pool3d_backward.default",
+    "aten.adaptive_max_pool3d.default",
+    "aten.add.Scalar",
+    "aten.add.Tensor",
+    "aten.addbmm.default",
+    "aten.addmm.out",
+    "aten.addmv.default",
+    "aten.angle.default",
+    "aten.avg_pool2d_backward.default",
+    "aten.avg_pool2d.default",
+    "aten.avg_pool3d_backward.default",
+    "aten.avg_pool3d.default",
+    "aten.baddbmm.out",
+    "aten.bernoulli_.float",
+    "aten.bernoulli_.Tensor",
+    "aten.bmm.out",
+    "aten.bucketize.Tensor",
+    "aten.cat.default",
+    "aten.cholesky_inverse.default",
+    "aten.cholesky_solve.default",
+    "aten.convolution_backward.default",
+    "aten.convolution.default",
+    "aten.cummax.default",
+    "aten.cummin.default",
+    "aten.cumprod.default",
+    "aten.cumsum.default",
+    "aten.exponential.default",
+    "aten.fill_.Scalar",
+    "aten.fractional_max_pool2d_backward.default",
+    "aten.fractional_max_pool2d.default",
+    "aten.fractional_max_pool3d_backward.default",
+    "aten.fractional_max_pool3d.default",
+    "aten.gcd.default",
+    "aten.geqrf.default",
+    "aten.grid_sampler_2d_backward.default",
+    "aten.hann_window.default",
+    "aten.histc.default",
+    "aten.histogram.bin_ct",
+    "aten.index_put.default",
+    "aten.index_reduce.default",
+    "aten.index.Tensor",
+    "aten.kthvalue.default",
+    "aten.logcumsumexp.default",
+    "aten.lu_unpack.default",
+    "aten.masked_scatter_backward.default",
+    "aten.masked_scatter.default",
+    "aten.masked_select.default",
+    "aten.max_pool2d_with_indices_backward.default",
+    "aten.max_pool2d_with_indices.default",
+    "aten.max_pool3d_with_indices_backward.default",
+    "aten.max_pool3d_with_indices.default",
+    "aten.max_unpool2d.default",
+    "aten.max_unpool3d.default",
+    "aten.median.default",
+    "aten.mm.out",
+    "aten.mode.default",
+    "aten.mul.Scalar",
+    "aten.mul.Tensor",
+    "aten.nanmedian.default",
+    "aten.narrow.default",
+    "aten.native_dropout.default",
+    "aten.nonzero.default",
+    "aten.normal_functional.default",
+    "aten.ormqr.default",
+    "aten.pad.default",
+    "aten.permute.default",
+    "aten.polar.default",
+    "aten.pow.Scalar",
+    "aten.pow.Tensor_Scalar",
+    "aten.pow.Tensor_Tensor",
+    "aten.rand.default",
+    "aten.rand.generator",
+    "aten.randint.default",
+    "aten.randint.generator",
+    "aten.randint.low_out",
+    "aten.randint.low",
+    "aten.randn.default",
+    "aten.randn.generator",
+    "aten.randperm.default",
+    "aten.repeat_interleave.Tensor",
+    "aten.replication_pad1d_backward.default",
+    "aten.replication_pad2d_backward.default",
+    "aten.reshape.default",
+    "aten.resize_.default",
+    "aten.resize_as_.default",
+    "aten.scatter_reduce.two_out",
+    "aten.scatter.src_out",
+    "aten.scatter.value_out",
+    "aten.searchsorted.Scalar",
+    "aten.searchsorted.Tensor",
+    "aten.segment_reduce.default",
+    "aten.set_.source_Tensor",
+    "aten.slice.Tensor",
+    "aten.soft_margin_loss_backward.default",
+    "aten.sort.default",
+    "aten.sort.stable",
+    "aten.squeeze.dim",
+    "aten.to_sparse.default",
+    "aten.topk.default",
+    "aten.triangular_solve.default",
+    "aten.uniform.default",
+    "aten.upsample_bicubic2d_backward.default",
+    "aten.upsample_linear1d_backward.default",
+    "aten.upsample_trilinear3d_backward.default",
+    "aten.view_as_complex.default",
+    "aten.view_as_real.default",
+    "aten.view.dtype",
+    "aten._weight_int4pack_mm_with_scales_and_zeros.default",
 }
 
 
@@ -193,13 +194,9 @@ def is_node_supported(self, submodules, node: torch.fx.Node) -> bool:
         supported = node.op == "call_function" and (
             node.target == operator.getitem
             or node.target._op not in inductor_fallback_ops
+            or node.target._op in supported_fallback_operators
         )
 
-        # if node.op == "call_function" and node.target != operator.getitem:
-        #     print(node.target._op)
-        #     print(supported)
-        #     print('------------------')
-
         return supported
 
     def is_node_supported_custom(self, node: torch.fx.Node) -> bool:
@@ -248,3 +245,21 @@ def partition(self, exported_program: ExportedProgram) -> PartitionResult:
         return PartitionResult(
             tagged_exported_program=exported_program, partition_tags=partition_tags
         )
+
+    def ops_to_not_decompose(
+        self, ep: ExportedProgram
+    ) -> Tuple[List[torch._ops.OpOverload], Optional[Callable[[torch.fx.Node], bool]]]:
+        """
+        Return a list of operations that should not be decomposed and let the AOT compiler handle them.
+        """
+        do_not_decompose = set()
+        op_support = AOTISupportedOperators()
+
+        for node in ep.graph.nodes:
+            if (
+                node.op == "call_function"
+                and isinstance(node.target, torch._ops.OpOverload)
+                and op_support.is_node_supported(None, node)
+            ):
+                do_not_decompose.add(node.target)
+        return list(do_not_decompose), None
diff --git a/backends/arm/third-party/serialization_lib b/backends/arm/third-party/serialization_lib
@@ -0,0 +1 @@
+Subproject commit 187af0d41fe75d08d2a7ec84c1b4d24b9b641ed2
diff --git a/export_aoti.py b/export_aoti.py
@@ -143,6 +143,9 @@ def export_model(model, example_inputs, output_filename="aoti_model.pte"):
     # edge_program = edge_program.to_backend(AotiPartitioner([]))
     # print("To backend done.")
 
+    # aoti part should be decomposed by the internal torch._inductor.aot_compile
+    # we should preserve the lowerable part and waiting for aoti backend handle that
+    # Q: maybe need to turn on fallback_random?
     edge_program = to_edge_transform_and_lower(
         aten_dialect, partitioner=[AotiPartitioner([])]
     )

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+Subproject commit 187af0d41fe75d08d2a7ec84c1b4d24b9b641ed2`
Original file line number	Diff line number	Diff line change
`@@ -143,6 +143,9 @@ def export_model(model, example_inputs, output_filename="aoti_model.pte"):`
`143`	`143`	`# edge_program = edge_program.to_backend(AotiPartitioner([]))`
`144`	`144`	`# print("To backend done.")`
`145`	`145`
	`146`	`+ # aoti part should be decomposed by the internal torch._inductor.aot_compile`
	`147`	`+ # we should preserve the lowerable part and waiting for aoti backend handle that`
	`148`	`+ # Q: maybe need to turn on fallback_random?`
`146`	`149`	`edge_program = to_edge_transform_and_lower(`
`147`	`150`	`aten_dialect, partitioner=[AotiPartitioner([])]`
`148`	`151`	`)`