Fix more warnings on GCC

larryliu0820 · larryliu0820 · commit ad3f2b064926 · 2025-10-28T14:56:18.000-07:00
diff --git a/kernels/optimized/CMakeLists.txt b/kernels/optimized/CMakeLists.txt
@@ -24,6 +24,7 @@ endif()
 set(_common_compile_options
     $<$<CXX_COMPILER_ID:MSVC>:/wd4996>
     $<$<NOT:$<CXX_COMPILER_ID:MSVC>>:-Wno-deprecated-declarations>
+    $<$<CXX_COMPILER_ID:GNU>:-Wno-psabi>
 )
 
 # Note for apple platform we can rely on Accelerate framework Will come back to
diff --git a/kernels/optimized/cpu/op_add.cpp b/kernels/optimized/cpu/op_add.cpp
@@ -67,8 +67,8 @@ Tensor& opt_add_out(
         CTYPE b_val = *b.const_data_ptr<CTYPE>();
 
         using Vec = at::vec::Vectorized<CTYPE>;
-        at::vec::map<CTYPE>(
-            [alpha_val, b_val](Vec& x) { return x + Vec(alpha_val * b_val); },
+        at::vec::map(
+            [alpha_val, b_val](Vec x) { return x + Vec(alpha_val * b_val); },
             out.mutable_data_ptr<CTYPE>(),
             a.const_data_ptr<CTYPE>(),
             out.numel());
@@ -86,7 +86,7 @@ Tensor& opt_add_out(
           CTYPE b_casted = static_cast<CTYPE>(b_val);
 
           using Vec = at::vec::Vectorized<CTYPE>;
-          at::vec::map<CTYPE>(
+          at::vec::map(
               [alpha_val, b_casted](Vec x) {
                 return x + Vec(alpha_val * b_casted);
               },
@@ -140,7 +140,7 @@ Tensor& opt_add_scalar_out(
           ctx, utils::extract_scalar(alpha, &alpha_val), InvalidArgument, );
 
       using Vec = at::vec::Vectorized<CTYPE>;
-      at::vec::map<CTYPE>(
+      at::vec::map(
           [alpha_val, b_casted](Vec x) {
             return x + Vec(alpha_val * b_casted);
           },
diff --git a/kernels/optimized/cpu/op_div.cpp b/kernels/optimized/cpu/op_div.cpp
@@ -86,15 +86,15 @@ Tensor& opt_div_out(
 
           using Vec = at::vec::Vectorized<CTYPE>;
           if (a.numel() == 1) {
-            at::vec::map<CTYPE>(
-                [scalar_casted](Vec& x) { return Vec(scalar_casted) / x; },
+            at::vec::map(
+                [scalar_casted](Vec x) { return Vec(scalar_casted) / x; },
                 out.mutable_data_ptr<CTYPE>(),
                 tensor->const_data_ptr<CTYPE>(),
                 out.numel());
           } else {
             Vec inv_scalar_casted_vec(CTYPE(1) / scalar_casted);
-            at::vec::map<CTYPE>(
-                [inv_scalar_casted_vec](Vec& x) {
+            at::vec::map(
+                [inv_scalar_casted_vec](Vec x) {
                   return x * inv_scalar_casted_vec;
                 },
                 out.mutable_data_ptr<CTYPE>(),
@@ -111,7 +111,7 @@ Tensor& opt_div_out(
   if (selected_optimized_path == ElementwiseOptimizedPath::kTreatAs1d) {
     ET_SWITCH_REALB_TYPES(out_type, ctx, op_name, CTYPE, [&]() {
       using Vec = at::vec::Vectorized<CTYPE>;
-      at::vec::map2<CTYPE>(
+      at::vec::map2(
           [](Vec x, Vec y) { return x / y; },
           out.mutable_data_ptr<CTYPE>(),
           a.const_data_ptr<CTYPE>(),
@@ -193,7 +193,7 @@ Tensor& opt_div_scalar_out(
 
         using Vec = at::vec::Vectorized<CTYPE>;
         Vec inv_b_casted_vec(CTYPE(1) / b_casted);
-        at::vec::map<CTYPE>(
+        at::vec::map(
             [inv_b_casted_vec](Vec x) { return x * inv_b_casted_vec; },
             out.mutable_data_ptr<CTYPE>(),
             a.const_data_ptr<CTYPE>(),
diff --git a/kernels/optimized/cpu/op_elu.cpp b/kernels/optimized/cpu/op_elu.cpp
@@ -6,11 +6,12 @@
  * LICENSE file in the root directory of this source tree.
  */
 
-#include <ATen/native/cpu/Elu.h>
+#include <cmath>
 
+#include <ATen/cpu/vec/functional.h>
+#include <ATen/cpu/vec/vec.h>
 #include <executorch/kernels/portable/cpu/scalar_utils.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
-#include <executorch/runtime/kernel/thread_parallel_interface.h>
 #include <executorch/runtime/platform/assert.h>
 
 namespace torch::executor::native {
@@ -31,38 +32,24 @@ void elu(
   const auto math_alpha = utils::scalar_to<MathT>(alpha);
   const auto math_scale = utils::scalar_to<MathT>(scale);
   const auto math_input_scale = utils::scalar_to<MathT>(input_scale);
-  const auto scalar_func =
-      at::native::get_scalar_elu_elementwise_func<CTYPE, MathT>(
-          math_alpha, math_scale, math_input_scale);
-  const auto vec_func = at::native::get_vectorized_elu_elementwise_func<CTYPE>(
-      math_alpha, math_scale, math_input_scale);
 
-  ::executorch::extension::parallel_for(
-      0,
-      out.numel(),
-      ::executorch::extension::internal::GRAIN_SIZE,
-      [&](const auto begin, const auto end) {
-        using Vec = at::vec::Vectorized<CTYPE>;
-        const auto vectorized_begin =
-            begin + (Vec::size() - begin % Vec::size()) % Vec::size();
-        const auto vectorized_end = end - (end % Vec::size());
-        // Scalar prologue.
-        for (const auto idx : c10::irange(begin, vectorized_begin)) {
-          out_data[idx] = scalar_func(in_data[idx]);
-        }
+  using Vec = at::vec::Vectorized<CTYPE>;
+  at::vec::map(
+      [math_alpha, math_scale, math_input_scale](Vec x) {
+        auto scaled_input = x * Vec(static_cast<CTYPE>(math_input_scale));
+        auto zero = Vec(static_cast<CTYPE>(0));
+        auto one = Vec(static_cast<CTYPE>(1));
+        auto alpha_vec = Vec(static_cast<CTYPE>(math_alpha));
+        auto scale_vec = Vec(static_cast<CTYPE>(math_scale));
 
-        // Main vectorized loop.
-        for (auto idx = vectorized_begin; idx < vectorized_end;
-             idx += Vec::size()) {
-          auto result_vec = vec_func(Vec::loadu(&in_data[idx]));
-          result_vec.store(&out_data[idx]);
-        }
-
-        // Scalar epilogue.
-        for (const auto idx : c10::irange(vectorized_end, end)) {
-          out_data[idx] = scalar_func(in_data[idx]);
-        }
-      });
+        auto pos_mask = scaled_input > zero;
+        auto neg_result = alpha_vec * ((scaled_input.exp()) - one);
+        auto result = Vec::blendv(neg_result, scaled_input, pos_mask);
+        return result * scale_vec;
+      },
+      out_data,
+      in_data,
+      out.numel());
 }
 } // namespace
 
diff --git a/kernels/optimized/cpu/op_exp.cpp b/kernels/optimized/cpu/op_exp.cpp
@@ -35,8 +35,7 @@ void exp_data(
     const size_t numel,
     CTYPE_OUT* out_data) {
   using Vec = at::vec::Vectorized<CTYPE_IN>;
-  at::vec::map<CTYPE_IN>(
-      [](Vec& x) { return x.exp(); }, out_data, in_data, numel);
+  at::vec::map([](Vec x) { return x.exp(); }, out_data, in_data, numel);
 }
 
 /**
diff --git a/kernels/optimized/cpu/op_le.cpp b/kernels/optimized/cpu/op_le.cpp
@@ -47,8 +47,8 @@ Tensor& opt_le_tensor_out(
   if (selected_optimized_path == ElementwiseOptimizedPath::kTreatAs1d) {
     ET_SWITCH_REALB_TYPES(a_type, ctx, op_name, CTYPE, [&]() {
       using Vec = at::vec::Vectorized<CTYPE>;
-      at::vec::map2<CTYPE>(
-          [](Vec& x, Vec& y) { return x.le(y); },
+      at::vec::map2(
+          [](Vec x, Vec y) { return x.le(y); },
           out.mutable_data_ptr<CTYPE>(),
           a.const_data_ptr<CTYPE>(),
           b.const_data_ptr<CTYPE>(),
@@ -95,7 +95,7 @@ Tensor& opt_le_scalar_out(
         ET_EXTRACT_SCALAR(b, b_val);
         CTYPE b_casted = static_cast<CTYPE>(b_val);
         using Vec = at::vec::Vectorized<CTYPE>;
-        at::vec::map<CTYPE>(
+        at::vec::map(
             [b_casted](Vec x) { return x.le(Vec(b_casted)); },
             out.mutable_data_ptr<CTYPE>(),
             a.const_data_ptr<CTYPE>(),
diff --git a/kernels/optimized/cpu/op_mul.cpp b/kernels/optimized/cpu/op_mul.cpp
@@ -55,8 +55,8 @@ Tensor& opt_mul_out(
           CTYPE b_casted = static_cast<CTYPE>(b_val);
 
           using Vec = at::vec::Vectorized<CTYPE>;
-          at::vec::map<CTYPE>(
-              [b_casted](Vec& x) { return x * Vec(b_casted); },
+          at::vec::map(
+              [b_casted](Vec x) { return x * Vec(b_casted); },
               out.mutable_data_ptr<CTYPE>(),
               a.const_data_ptr<CTYPE>(),
               out.numel());
@@ -76,7 +76,7 @@ Tensor& opt_mul_out(
 
       ET_SWITCH_COMPLEXH_TYPES(out_type, ctx, op_name, CTYPE, [&]() {
         using Vec = at::vec::Vectorized<CTYPE>;
-        at::vec::map2<CTYPE>(
+        at::vec::map2(
             [](Vec x, Vec y) { return x * y; },
             out.mutable_data_ptr<CTYPE>(),
             a.const_data_ptr<CTYPE>(),
@@ -86,7 +86,7 @@ Tensor& opt_mul_out(
     } else {
       ET_SWITCH_REALB_TYPES(out_type, ctx, op_name, CTYPE, [&]() {
         using Vec = at::vec::Vectorized<CTYPE>;
-        at::vec::map2<CTYPE>(
+        at::vec::map2(
             [](Vec x, Vec y) { return x * y; },
             out.mutable_data_ptr<CTYPE>(),
             a.const_data_ptr<CTYPE>(),
@@ -173,7 +173,7 @@ Tensor& opt_mul_scalar_out(
       CTYPE b_casted = utils::scalar_to<CTYPE>(b);
 
       using Vec = at::vec::Vectorized<CTYPE>;
-      at::vec::map<CTYPE>(
+      at::vec::map(
           [b_casted](Vec x) { return x * Vec(b_casted); },
           out.mutable_data_ptr<CTYPE>(),
           a.const_data_ptr<CTYPE>(),
diff --git a/kernels/optimized/cpu/op_native_layer_norm.cpp b/kernels/optimized/cpu/op_native_layer_norm.cpp
@@ -91,8 +91,8 @@ void layer_norm(
         dst_ptr[j] = (src_ptr[j] * scale + offset) * gamma_v + beta_v;
       }
     } else {
-      at::vec::map3<CTYPE>(
-          [scale, offset](auto& x, auto& gamma, auto& beta) {
+      at::vec::map3(
+          [scale, offset](auto x, auto gamma, auto beta) {
             using Vec = decltype(x);
             return (x * Vec(scale) + Vec(offset)) * gamma + beta;
           },
diff --git a/kernels/optimized/cpu/op_sub.cpp b/kernels/optimized/cpu/op_sub.cpp
@@ -85,16 +85,16 @@ Tensor& opt_sub_out(
 
           using Vec = at::vec::Vectorized<CTYPE>;
           if (a.numel() == 1) {
-            at::vec::map<CTYPE>(
-                [alpha_val, scalar_casted](Vec& x) {
+            at::vec::map(
+                [alpha_val, scalar_casted](Vec x) {
                   return Vec(scalar_casted) - Vec(alpha_val) * x;
                 },
                 out.mutable_data_ptr<CTYPE>(),
                 tensor->const_data_ptr<CTYPE>(),
                 out.numel());
           } else {
-            at::vec::map<CTYPE>(
-                [alpha_val, scalar_casted](Vec& x) {
+            at::vec::map(
+                [alpha_val, scalar_casted](Vec x) {
                   return x - Vec(alpha_val * scalar_casted);
                 },
                 out.mutable_data_ptr<CTYPE>(),
@@ -148,7 +148,7 @@ Tensor& opt_sub_scalar_out(
           ctx, utils::extract_scalar(alpha, &alpha_val), InvalidArgument, );
 
       using Vec = at::vec::Vectorized<CTYPE>;
-      at::vec::map<CTYPE>(
+      at::vec::map(
           [alpha_val, b_casted](Vec x) {
             return x - Vec(alpha_val * b_casted);
           },

Original file line number	Diff line number	Diff line change
`@@ -24,6 +24,7 @@ endif()`
`24`	`24`	`set(_common_compile_options`
`25`	`25`	`$<$<CXX_COMPILER_ID:MSVC>:/wd4996>`
`26`	`26`	`$<$<NOT:$<CXX_COMPILER_ID:MSVC>>:-Wno-deprecated-declarations>`
	`27`	`+ $<$<CXX_COMPILER_ID:GNU>:-Wno-psabi>`
`27`	`28`	`)`
`28`	`29`
`29`	`30`	`# Note for apple platform we can rely on Accelerate framework Will come back to`
Original file line number	Diff line number	Diff line change
`@@ -35,8 +35,7 @@ void exp_data(`
`35`	`35`	`const size_t numel,`
`36`	`36`	`CTYPE_OUT* out_data) {`
`37`	`37`	`using Vec = at::vec::Vectorized<CTYPE_IN>;`
`38`		`- at::vec::map<CTYPE_IN>(`
`39`		`- [](Vec& x) { return x.exp(); }, out_data, in_data, numel);`
	`38`	`+ at::vec::map([](Vec x) { return x.exp(); }, out_data, in_data, numel);`
`40`	`39`	`}`
`41`	`40`
`42`	`41`	`/**`