pytorch
diff --git a/‎1.txt‎
Lines changed: 676 additions & 0 deletions b/‎1.txt‎
Lines changed: 676 additions & 0 deletions
diff --git a/‎backends/cadence/cadence.cmake‎
Lines changed: 1 addition & 1 deletion b/‎backends/cadence/cadence.cmake‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎backends/cadence/hifi/kernels/kernels.h‎
Lines changed: 8 additions & 4 deletions b/‎backends/cadence/hifi/kernels/kernels.h‎
Lines changed: 8 additions & 4 deletions
diff --git a/‎backends/cadence/hifi/operators/op_add.cpp‎
Lines changed: 21 additions & 22 deletions b/‎backends/cadence/hifi/operators/op_add.cpp‎
Lines changed: 21 additions & 22 deletions
diff --git a/‎backends/cadence/hifi/operators/op_div.cpp‎
Lines changed: 36 additions & 37 deletions b/‎backends/cadence/hifi/operators/op_div.cpp‎
Lines changed: 36 additions & 37 deletions
@@ -44,7 +44,7 @@ set(CMAKE_CXX_COMPILER ${TOOLCHAIN_HOME}/bin/${CROSS_COMPILE_TARGET}-clang++)
 set(CMAKE_C_FLAGS_INIT "-stdlib=libc++ -mtext-section-literals -mlongcalls")
 set(CMAKE_CXX_FLAGS_INIT "-stdlib=libc++ -mtext-section-literals -mlongcalls")
 #workaround for larger compilation time
-SET(CMAKE_CXX_FLAGS_INIT "${CMAKE_CXX_FLAGS_INIT} -fno-strict-aliasing")
+set(CMAKE_CXX_FLAGS_INIT "${CMAKE_CXX_FLAGS_INIT} -fno-strict-aliasing")
 
 set(CMAKE_SYSROOT ${TOOLCHAIN_HOME}/${SYSROOT_TARGET})
 set(CMAKE_LINKER ${TOOLCHAIN_HOME}/bin/xt-ld)
 
@@ -16,21 +16,24 @@
 #include "xa_nnlib_kernels_api.h"
 
 /* Potential NNLIB function/APIs */
-extern "C" WORD32 xa_nn_elm_add_broadcast_4D_f32xf32_f32(FLOAT32 * __restrict__ p_out,
+extern "C" WORD32 xa_nn_elm_add_broadcast_4D_f32xf32_f32(
+                                FLOAT32 * __restrict__ p_out,
                                 const WORD32 *const p_out_shape,
                                 const FLOAT32 * __restrict__ p_inp1,
                                 const WORD32 *const p_inp1_shape,
                                 const FLOAT32 * __restrict__ p_inp2,
                                 const WORD32 *const p_inp2_shape);
 
-extern "C" WORD32 xa_nn_elm_div_broadcast_4D_f32xf32_f32(FLOAT32 * __restrict__ p_out,
+extern "C" WORD32 xa_nn_elm_div_broadcast_4D_f32xf32_f32(
+                                FLOAT32 * __restrict__ p_out,
                                 const WORD32 *const p_out_shape,
                                 const FLOAT32 * __restrict__ p_inp1,
                                 const WORD32 *const p_inp1_shape,
                                 const FLOAT32 * __restrict__ p_inp2,
                                 const WORD32 *const p_inp2_shape);
 
-extern "C" WORD32 xa_nn_elm_div_mode_f32xf32_f32(FLOAT32 * __restrict__ p_out,
+extern "C" WORD32 xa_nn_elm_div_mode_f32xf32_f32(
+                                FLOAT32 * __restrict__ p_out,
                                 const FLOAT32 * __restrict__ p_inp1,
                                 const FLOAT32 * __restrict__ p_inp2,
                                 WORD32 num_elm,
@@ -45,7 +48,8 @@ extern "C" WORD32 xa_nn_elm_div_mode_broadcast_4D_f32xf32_f32(
                                     const WORD32 *const p_inp2_shape,
                                     WORD32 mode);        
 
-extern "C" WORD32 xa_nn_elm_mul_broadcast_4D_f32xf32_f32(FLOAT32 * __restrict__ p_out,
+extern "C" WORD32 xa_nn_elm_mul_broadcast_4D_f32xf32_f32(
+                                FLOAT32 * __restrict__ p_out,
                                 const WORD32 *const p_out_shape,
                                 const FLOAT32 * __restrict__ p_inp1,
                                 const WORD32 *const p_inp1_shape,
 
@@ -6,13 +6,13 @@
  * LICENSE file in the root directory of this source tree.
  */
 
+#include <executorch/backends/cadence/hifi/kernels/kernels.h>
 #include <executorch/kernels/portable/cpu/scalar_utils.h>
 #include <executorch/kernels/portable/cpu/util/broadcast_util.h>
 #include <executorch/kernels/portable/cpu/util/functional_util.h>
 #include <executorch/kernels/portable/cpu/util/kernel_ops_util.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
 #include <executorch/runtime/platform/assert.h>
-#include <executorch/backends/cadence/hifi/kernels/kernels.h>
 
 using exec_aten::Scalar;
 using exec_aten::ScalarType;
@@ -23,7 +23,7 @@ using executorch::runtime::KernelRuntimeContext;
 using torch::executor::Error;
 
 namespace impl {
-namespace HiFi { 
+namespace HiFi {
 namespace native {
 
 namespace {
@@ -97,14 +97,15 @@ Tensor& add_out(
 
   ScalarType a_type = a.scalar_type();
   ScalarType b_type = b.scalar_type();
-  ScalarType alpha_type = torch::executor::native::utils::get_scalar_dtype(alpha);
+  ScalarType alpha_type = 
+    torch::executor::native::utils::get_scalar_dtype(alpha);
   ScalarType common_type = promoteTypes(a_type, b_type, /*half_to_float*/ true);
   ScalarType out_type = out.scalar_type();
 
   ET_KERNEL_CHECK(ctx, canCast(common_type, out_type), InvalidArgument, out);
   ET_KERNEL_CHECK(
       ctx, check_alpha_type(alpha_type, common_type), InvalidArgument, out);
-      
+    
   float alpha_val;
   torch::executor::native::utils::extract_scalar(alpha, &alpha_val);
 
@@ -119,30 +120,28 @@ Tensor& add_out(
   const bool broadcast = (a_is_broadcasted || b_is_broadcasted);
   int max_dim = a.dim() > b.dim() ? a.dim() : b.dim();
   max_dim = out.dim() > max_dim ? out.dim() : max_dim;
-  
-  if((out_type != ScalarType::Float) || (alpha_val != 1.0))
+
+  if ((out_type != ScalarType::Float) || (alpha_val != 1.0))
     optimized = 0;
-  
-  if((a_dim == 0) || (b_dim == 0) )
+
+  if ((a_dim == 0) || (b_dim == 0) )
     optimized = 0;
 
-  if((broadcast == 1) && (max_dim > kNnlibMaxDim))
+  if ((broadcast == 1) && (max_dim > kNnlibMaxDim))
     optimized = 0;
 
 
-  if(optimized)
-  {
+  if (optimized) {
       const float* const a_data = a.const_data_ptr<float>();
       const float* const b_data = b.const_data_ptr<float>();
       float* const out_data = out.mutable_data_ptr<float>();
-      if(broadcast == 1)
-      {
+
+      if(broadcast == 1) {
          int out_shape[kNnlibMaxDim];
          int inp1_shape[kNnlibMaxDim];
          int inp2_shape[kNnlibMaxDim];
 
-         for(int i = 0; i < kNnlibMaxDim; i++)
-         {
+         for (int i = 0; i < kNnlibMaxDim; i++) {
             out_shape[i] = 1;
             inp1_shape[i] = 1;
             inp2_shape[i] = 1;
@@ -152,15 +151,15 @@ Tensor& add_out(
          int off_a = kNnlibMaxDim - a.dim();
          int off_b = kNnlibMaxDim - b.dim();
 
-         for(int i = 0; i < out.dim(); i++)
+         for (int i = 0; i < out.dim(); i++)
              out_shape[i+off_o] = out.size(i);
-         for(int i = 0; i < a.dim(); i++)
+         for (int i = 0; i < a.dim(); i++)
              inp1_shape[i+off_a] = a.size(i);
-         for(int i = 0; i < b.dim(); i++)
+         for (int i = 0; i < b.dim(); i++)
              inp2_shape[i+off_b] = b.size(i);
 
-         xa_nn_elm_add_broadcast_4D_f32xf32_f32(out_data, out_shape, a_data, inp1_shape,
-                                                b_data, inp2_shape);
+         xa_nn_elm_add_broadcast_4D_f32xf32_f32(
+           out_data, out_shape, a_data, inp1_shape, b_data, inp2_shape);
       }                      
       else
       {
@@ -193,6 +192,6 @@ Tensor& add_out(
 }
 
 
-} // namespace impl
-} // namespace HiFi
 } // namespace native
+} // namespace HiFi
+} // namespace impl
@@ -6,14 +6,14 @@
  * LICENSE file in the root directory of this source tree.
  */
 
+#include <executorch/backends/cadence/hifi/kernels/kernels.h>
 #include <executorch/kernels/portable/cpu/scalar_utils.h>
 #include <executorch/kernels/portable/cpu/util/broadcast_util.h>
 #include <executorch/kernels/portable/cpu/util/functional_util.h>
 #include <executorch/kernels/portable/cpu/util/math_util.h>
 #include <executorch/runtime/kernel/kernel_includes.h>
 #include <executorch/runtime/platform/assert.h>
 #include <cmath> 
-#include <executorch/backends/cadence/hifi/kernels/kernels.h>
 
 using exec_aten::Scalar;
 using exec_aten::ScalarType;
@@ -22,7 +22,7 @@ using executorch::aten::RuntimeContext;
 using torch::executor::Error;
 
 namespace impl {
-namespace HiFi { 
+namespace HiFi {
 namespace native {
 
 namespace {
@@ -74,29 +74,27 @@ div_out(RuntimeContext& ctx, const Tensor& a, const Tensor& b, Tensor& out) {
   int max_dim = a.dim() > b.dim() ? a.dim() : b.dim();
   max_dim = out.dim() > max_dim ? out.dim() : max_dim;
 
-  if((a_type != ScalarType::Float) || (b_type != ScalarType::Float))
+  if ((a_type != ScalarType::Float) || (b_type != ScalarType::Float))
     optimized = 0;
 
-  if((a_dim == 0) || (b_dim == 0) )
+  if ((a_dim == 0) || (b_dim == 0) )
     optimized = 0;
 
-  if((broadcast == 1) && (max_dim > kNnlibMaxDim))
+  if ((broadcast == 1) && (max_dim > kNnlibMaxDim))
     optimized = 0;
 
-  if(optimized)
-  {
+  if (optimized) {
     float* a_data = a.mutable_data_ptr<float>();
     float* b_data = b.mutable_data_ptr<float>();
     float* out_data = out.mutable_data_ptr<float>();
 
-    if(broadcast == 1)
-    {
+    if (broadcast == 1) {
 
       int out_shape[kNnlibMaxDim];
       int inp1_shape[kNnlibMaxDim];
       int inp2_shape[kNnlibMaxDim];
 
-      for(int i = 0; i < kNnlibMaxDim; i++)
+      for (int i = 0; i < kNnlibMaxDim; i++)
       {
         out_shape[i] = 1;
         inp1_shape[i] = 1;
@@ -106,34 +104,35 @@ div_out(RuntimeContext& ctx, const Tensor& a, const Tensor& b, Tensor& out) {
       int off_o = kNnlibMaxDim - out.dim();
       int off_a = kNnlibMaxDim - a.dim();
       int off_b = kNnlibMaxDim - b.dim();
-      for(int i = 0; i < out.dim(); i++)
+      for (int i = 0; i < out.dim(); i++)
         out_shape[i+off_o] = out.size(i);
-      for(int i = 0; i < a.dim(); i++)
+      for (int i = 0; i < a.dim(); i++)
         inp1_shape[i+off_a] = a.size(i);
-      for(int i = 0; i < b.dim(); i++)
+      for (int i = 0; i < b.dim(); i++)
         inp2_shape[i+off_b] = b.size(i);
 
-      xa_nn_elm_div_broadcast_4D_f32xf32_f32(out_data, out_shape, a_data, inp1_shape, b_data, inp2_shape);
+      xa_nn_elm_div_broadcast_4D_f32xf32_f32(
+        out_data, out_shape, a_data, inp1_shape, b_data, inp2_shape);
     }
     else
     {
-
       xa_nn_elm_div_f32xf32_f32(out_data, a_data, b_data, out.numel());
     }
-    
+
     return out;
   }
-  
+
   ScalarType common_type = get_compute_type(a_type, b_type);
   ScalarType out_type = out.scalar_type();
-  
+
   ET_KERNEL_CHECK(ctx, canCast(common_type, out_type), InvalidArgument, out);
-  
+
   ET_SWITCH_REAL_TYPES_AND(Bool, a_type, ctx, "div.out", CTYPE_A, [&]() {
     ET_SWITCH_REAL_TYPES_AND(Bool, b_type, ctx, "div.out", CTYPE_B, [&]() {
       ET_SWITCH_FLOAT_TYPES(common_type, ctx, "div.out", CTYPE_IN, [&]() {
         ET_SWITCH_FLOAT_TYPES(out_type, ctx, "div.out", CTYPE_OUT, [&]() {
-          torch::executor::apply_binary_elementwise_fn<CTYPE_A, CTYPE_B, CTYPE_OUT>(
+          torch::executor::
+            apply_binary_elementwise_fn<CTYPE_A, CTYPE_B, CTYPE_OUT>(
               [](const CTYPE_A val_a, const CTYPE_B val_b) {
                 CTYPE_IN a_casted = static_cast<CTYPE_IN>(val_a);
                 CTYPE_IN b_casted = static_cast<CTYPE_IN>(val_b);
@@ -188,13 +187,13 @@ Tensor& div_out_mode(
   int max_dim = a.dim() > b.dim() ? a.dim() : b.dim();
   max_dim = out.dim() > max_dim ? out.dim() : max_dim;
 
-  if((a_type != ScalarType::Float) || (b_type != ScalarType::Float))
+  if ((a_type != ScalarType::Float) || (b_type != ScalarType::Float))
     optimized = 0;
 
-  if((a_dim == 0) || (b_dim == 0))
+  if ((a_dim == 0) || (b_dim == 0))
     optimized = 0;
 
-  if((broadcast == 1) && (max_dim > kNnlibMaxDim))
+  if ((broadcast == 1) && (max_dim > kNnlibMaxDim))
     optimized = 0;
   int mode_val = -1;
   if (mode.has_value() && mode.value() == "trunc") 
@@ -204,20 +203,17 @@ Tensor& div_out_mode(
   else
     optimized = 0;
 
-  if(optimized)
-  {
+  if (optimized) {
     float* a_data = a.mutable_data_ptr<float>();
     float* b_data = b.mutable_data_ptr<float>();
     float* out_data = out.mutable_data_ptr<float>();
 
-    if(broadcast)
-    {
+    if (broadcast) {
       int out_shape[kNnlibMaxDim];
       int inp1_shape[kNnlibMaxDim];
       int inp2_shape[kNnlibMaxDim];
 
-      for(int i = 0; i < kNnlibMaxDim; i++)
-      {
+      for (int i = 0; i < kNnlibMaxDim; i++) {
         inp1_shape[i] = 1;
         inp2_shape[i] = 1;
         out_shape[i] = 1;
@@ -227,18 +223,20 @@ Tensor& div_out_mode(
       int off_a = kNnlibMaxDim - a.dim();
       int off_b = kNnlibMaxDim - b.dim();
 
-      for(int i = 0; i < out.dim(); i++)
+      for (int i = 0; i < out.dim(); i++)
         out_shape[i+off_o] = out.size(i);
-      for(int i = 0; i < a.dim(); i++)
+      for (int i = 0; i < a.dim(); i++)
         inp1_shape[i+off_a] = a.size(i);
-      for(int i = 0; i < b.dim(); i++)
+      for (int i = 0; i < b.dim(); i++)
         inp2_shape[i+off_b] = b.size(i);
 
-      xa_nn_elm_div_mode_broadcast_4D_f32xf32_f32(out_data, out_shape, a_data, inp1_shape, b_data, inp2_shape, mode_val);
+      xa_nn_elm_div_mode_broadcast_4D_f32xf32_f32(
+        out_data, out_shape, a_data, inp1_shape, b_data, inp2_shape, mode_val);
     }
     else
     {
-      xa_nn_elm_div_mode_f32xf32_f32(out_data, a_data, b_data, out.numel(), mode_val);
+      xa_nn_elm_div_mode_f32xf32_f32(
+        out_data, a_data, b_data, out.numel(), mode_val);
     }
 
     return out;
@@ -248,7 +246,8 @@ Tensor& div_out_mode(
     ET_SWITCH_REAL_TYPES_AND(Bool, b_type, ctx, "div.out_mode", CTYPE_B, [&]() {
       ET_SWITCH_FLOAT_TYPES(common_type, ctx, "div.out_mode", CTYPE_IN, [&]() {
         ET_SWITCH_REAL_TYPES(out_type, ctx, "div.out_mode", CTYPE_OUT, [&]() {
-          torch::executor::apply_binary_elementwise_fn<CTYPE_A, CTYPE_B, CTYPE_OUT>(
+          torch::executor::
+            apply_binary_elementwise_fn<CTYPE_A, CTYPE_B, CTYPE_OUT>(
               [mode](const CTYPE_A val_a, const CTYPE_B val_b) {
                 CTYPE_IN a_casted = static_cast<CTYPE_IN>(val_a);
                 CTYPE_IN b_casted = static_cast<CTYPE_IN>(val_b);
@@ -272,6 +271,6 @@ Tensor& div_out_mode(
 }
 
 
-} // namespace impl
-} // namespace HiFi
 } // namespace native
+} // namespace HiFi
+} // namespace impl