more statics and explicit typing for lambdas

JacobSzwejbka · JacobSzwejbka · commit 904b2b434bab · 2025-10-20T12:27:53.000-07:00
diff --git a/kernels/optimized/cpu/op_bmm.cpp b/kernels/optimized/cpu/op_bmm.cpp
@@ -152,12 +152,14 @@ Tensor& opt_bmm_out(
 
   auto self_type = self.scalar_type();
 
+  static constexpr auto name = "bmm.out";
+
   if (executorch::runtime::isComplexType(self_type)) {
-    ET_SWITCH_COMPLEXH_TYPES(self_type, ctx, "bmm.out", CTYPE, [&]() {
+    ET_SWITCH_COMPLEXH_TYPES(self_type, ctx, name, CTYPE, [&]() {
       bmm_kernel<CTYPE>(self, mat2, out);
     });
   } else {
-    ET_SWITCH_REALHBF16_TYPES(self_type, ctx, "bmm.out", CTYPE, [&]() {
+    ET_SWITCH_REALHBF16_TYPES(self_type, ctx, name, CTYPE, [&]() {
       bmm_kernel<CTYPE>(self, mat2, out);
     });
   }
diff --git a/kernels/portable/cpu/op_masked_scatter.cpp b/kernels/portable/cpu/op_masked_scatter.cpp
@@ -45,7 +45,9 @@ Tensor& masked_scatter_out(
   int64_t src_numel = src.numel();
   bool src_numel_check = true;
 
-  ET_SWITCH_REALHBBF16_TYPES(in_type, ctx, "masked_scatter.out", CTYPE, [&]() {
+  static constexpr auto name = "masked_scatter.out";
+
+  ET_SWITCH_REALHBBF16_TYPES(in_type, ctx, name, CTYPE, [&]() {
     const CTYPE* const src_data = src.const_data_ptr<CTYPE>();
     apply_binary_elementwise_fn<CTYPE, bool, CTYPE>(
         [src_data, &idx, &src_numel, &src_numel_check](
diff --git a/kernels/portable/cpu/op_topk.cpp b/kernels/portable/cpu/op_topk.cpp
@@ -118,30 +118,22 @@ void perform_topk(
       }
 
       // Perform topk on the queue
-      if (largest) {
-        const auto elem_greater = [](const elem_t& x, const elem_t& y) -> bool {
-          return float_less_than(y.first, x.first);
-        };
-        if (use_partial_sort) {
-          std::partial_sort(queue, queue + k, queue + dim_size, elem_greater);
-        } else {
-          std::nth_element(
-              queue, queue + k - 1, queue + dim_size, elem_greater);
-          if (sorted) {
-            std::sort(queue, queue + k - 1, elem_greater);
-          }
-        }
+      bool (*elem_greater)(const elem_t&, const elem_t&) =
+          [](const elem_t& x, const elem_t& y) -> bool {
+        return float_less_than(y.first, x.first);
+      };
+      bool (*elem_less)(const elem_t&, const elem_t&) =
+          [](const elem_t& x, const elem_t& y) -> bool {
+        return float_less_than(x.first, y.first);
+      };
+      bool (*cmp)(const elem_t&, const elem_t&) =
+          largest ? elem_greater : elem_less;
+      if (use_partial_sort) {
+        std::partial_sort(queue, queue + k, queue + dim_size, cmp);
       } else {
-        const auto elem_less = [](const elem_t& x, const elem_t& y) -> bool {
-          return float_less_than(x.first, y.first);
-        };
-        if (use_partial_sort) {
-          std::partial_sort(queue, queue + k, queue + dim_size, elem_less);
-        } else {
-          std::nth_element(queue, queue + k - 1, queue + dim_size, elem_less);
-          if (sorted) {
-            std::sort(queue, queue + k - 1, elem_less);
-          }
+        std::nth_element(queue, queue + k - 1, queue + dim_size, cmp);
+        if (sorted) {
+          std::sort(queue, queue + k - 1, cmp);
         }
       }
 
diff --git a/kernels/portable/cpu/util/elementwise_util.h b/kernels/portable/cpu/util/elementwise_util.h
@@ -85,6 +85,7 @@ inline void dtype_specialized_elementwise_fn_impl(
   static_assert(
       (std::is_same_v<Args, std::pair<const Tensor*, SupportedTensorDtypes>> &&
        ...));
+  static constexpr auto kNumInputs = sizeof...(inputs);
   // All inputs must be of type CTYPE_COMPUTE.
   ET_DCHECK(
       ((inputs.first->scalar_type() ==
@@ -104,9 +105,8 @@ inline void dtype_specialized_elementwise_fn_impl(
           out.numel(),
           ::executorch::extension::internal::GRAIN_SIZE,
           [&](const auto begin, const auto end) {
-            std::array<const CTYPE_COMPUTE*, sizeof...(inputs)>
-                inputs_data_ptrs = {
-                    inputs.first->template const_data_ptr<CTYPE_COMPUTE>()...};
+            std::array<const CTYPE_COMPUTE*, kNumInputs> inputs_data_ptrs = {
+                inputs.first->template const_data_ptr<CTYPE_COMPUTE>()...};
 
             CTYPE_OUT* const data_out = out.mutable_data_ptr<CTYPE_OUT>();
 
@@ -119,11 +119,11 @@ inline void dtype_specialized_elementwise_fn_impl(
           // small-sized tests will test whether using Vectorized broke our
           // lambda.
 #ifndef NDEBUG
-              std::array<Vec, sizeof...(inputs)> loaded_inputs{};
+              std::array<Vec, kNumInputs> loaded_inputs{};
 #else // NDEBUG
-              std::array<CTYPE_COMPUTE, sizeof...(inputs)> loaded_inputs{};
+              std::array<CTYPE_COMPUTE, kNumInputs> loaded_inputs{};
 #endif // NDEBUG
-              for (const auto input_idx : c10::irange(sizeof...(inputs))) {
+              for (const auto input_idx : c10::irange(kNumInputs)) {
                 loaded_inputs[input_idx] = inputs_data_ptrs[input_idx][idx];
               }
 #ifndef NDEBUG
@@ -136,8 +136,8 @@ inline void dtype_specialized_elementwise_fn_impl(
             // Main vectorized loop.
             for (auto idx = vectorized_begin; idx < vectorized_end;
                  idx += Vec::size()) {
-              std::array<Vec, sizeof...(inputs)> loaded_vec_inputs{};
-              for (const auto input_idx : c10::irange(sizeof...(inputs))) {
+              std::array<Vec, kNumInputs> loaded_vec_inputs{};
+              for (const auto input_idx : c10::irange(kNumInputs)) {
                 loaded_vec_inputs[input_idx] =
                     Vec::loadu(&inputs_data_ptrs[input_idx][idx]);
               }
@@ -148,11 +148,11 @@ inline void dtype_specialized_elementwise_fn_impl(
             // Scalar epilogue.
             for (const auto idx : c10::irange(vectorized_end, end)) {
 #ifndef NDEBUG
-              std::array<Vec, sizeof...(inputs)> loaded_inputs{};
+              std::array<Vec, kNumInputs> loaded_inputs{};
 #else // NDEBUG
-              std::array<CTYPE_COMPUTE, sizeof...(inputs)> loaded_inputs{};
+              std::array<CTYPE_COMPUTE, kNumInputs> loaded_inputs{};
 #endif // NDEBUG
-              for (const auto input_idx : c10::irange(sizeof...(inputs))) {
+              for (const auto input_idx : c10::irange(kNumInputs)) {
                 loaded_inputs[input_idx] = inputs_data_ptrs[input_idx][idx];
               }
 #ifndef NDEBUG
@@ -172,20 +172,20 @@ inline void dtype_specialized_elementwise_fn_impl(
       out.numel(),
       ::executorch::extension::internal::GRAIN_SIZE,
       [&](const auto begin, const auto end) {
-        std::array<const CTYPE_COMPUTE*, sizeof...(inputs)> inputs_data_ptrs = {
+        std::array<const CTYPE_COMPUTE*, kNumInputs> inputs_data_ptrs = {
             inputs.first->template const_data_ptr<CTYPE_COMPUTE>()...};
 
         CTYPE_OUT* const data_out = out.mutable_data_ptr<CTYPE_OUT>();
 
-        const auto range = BroadcastIndexesRange<
-            sizeof...(inputs),
-            support_noncontiguous_tensors>(out, (*inputs.first)...);
+        const auto range =
+            BroadcastIndexesRange<kNumInputs, support_noncontiguous_tensors>(
+                out, (*inputs.first)...);
         auto begin_it = range.begin();
         begin_it += begin;
         for (; (*begin_it)[0] < end; ++begin_it) {
           const auto& indexes = *begin_it;
-          std::array<CTYPE_COMPUTE, sizeof...(inputs)> loaded_inputs{};
-          for (const auto idx : c10::irange(sizeof...(inputs))) {
+          std::array<CTYPE_COMPUTE, kNumInputs> loaded_inputs{};
+          for (const auto idx : c10::irange(kNumInputs)) {
             loaded_inputs[idx] = inputs_data_ptrs[idx][indexes[idx + 1]];
           }
           data_out[indexes[0]] = std::apply(compute_fun, loaded_inputs);
@@ -229,12 +229,14 @@ inline void apply_elementwise_fn_generic_impl(
     const Tensor& out,
     SupportedTensorDtypes out_dtypes,
     Args... inputs) {
+  static constexpr auto kNumInputs = sizeof...(inputs);
+
   struct InputInfo {
     load_to_compute_fn<CTYPE_COMPUTE> load_to_compute;
     const char* data_ptr;
     ssize_t element_size;
   };
-  std::array<InputInfo, sizeof...(inputs)> inputs_info = {(InputInfo{
+  std::array<InputInfo, kNumInputs> inputs_info = {(InputInfo{
       internal::get_load_to_compute_fn<CTYPE_COMPUTE, op_name>(
           ctx, *inputs.first, inputs.second),
       reinterpret_cast<const char*>(inputs.first->const_data_ptr()),
@@ -252,15 +254,15 @@ inline void apply_elementwise_fn_generic_impl(
       out.numel(),
       ::executorch::extension::internal::GRAIN_SIZE,
       [&](const auto begin, const auto end) {
-        const auto range = BroadcastIndexesRange<
-            sizeof...(inputs),
-            support_noncontiguous_tensors>(out, (*inputs.first)...);
+        const auto range =
+            BroadcastIndexesRange<kNumInputs, support_noncontiguous_tensors>(
+                out, (*inputs.first)...);
         auto begin_it = range.begin();
         begin_it += begin;
         for (; (*begin_it)[0] < end; ++begin_it) {
           const auto& indexes = *begin_it;
-          std::array<CTYPE_COMPUTE, sizeof...(inputs)> loaded_inputs{};
-          for (const auto idx : c10::irange(sizeof...(inputs))) {
+          std::array<CTYPE_COMPUTE, kNumInputs> loaded_inputs{};
+          for (const auto idx : c10::irange(kNumInputs)) {
             const auto& input_info = inputs_info[idx];
             loaded_inputs[idx] = input_info.load_to_compute(
                 &input_info