ARM-software
diff --git a/‎src/cpu/kernels/floor/neon/fp16.cpp‎
Lines changed: 3 additions & 1 deletion b/‎src/cpu/kernels/floor/neon/fp16.cpp‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎src/cpu/kernels/floor/neon/fp32.cpp‎
Lines changed: 3 additions & 1 deletion b/‎src/cpu/kernels/floor/neon/fp32.cpp‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎src/cpu/kernels/fuse_batch_normalization/generic/fp16.cpp‎
Lines changed: 9 additions & 5 deletions b/‎src/cpu/kernels/fuse_batch_normalization/generic/fp16.cpp‎
Lines changed: 9 additions & 5 deletions
diff --git a/‎src/cpu/kernels/fuse_batch_normalization/generic/fp32.cpp‎
Lines changed: 5 additions & 3 deletions b/‎src/cpu/kernels/fuse_batch_normalization/generic/fp32.cpp‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎src/cpu/kernels/fuse_batch_normalization/nchw/all.cpp‎
Lines changed: 6 additions & 3 deletions b/‎src/cpu/kernels/fuse_batch_normalization/nchw/all.cpp‎
Lines changed: 6 additions & 3 deletions
diff --git a/‎src/cpu/kernels/fuse_batch_normalization/nchw/neon/fp16.cpp‎
Lines changed: 10 additions & 1 deletion b/‎src/cpu/kernels/fuse_batch_normalization/nchw/neon/fp16.cpp‎
Lines changed: 10 additions & 1 deletion
diff --git a/‎src/cpu/kernels/fuse_batch_normalization/nchw/neon/fp32.cpp‎
Lines changed: 10 additions & 1 deletion b/‎src/cpu/kernels/fuse_batch_normalization/nchw/neon/fp32.cpp‎
Lines changed: 10 additions & 1 deletion
diff --git a/‎src/cpu/kernels/fuse_batch_normalization/nhwc/neon/fp16.cpp‎
Lines changed: 6 additions & 3 deletions b/‎src/cpu/kernels/fuse_batch_normalization/nhwc/neon/fp16.cpp‎
Lines changed: 6 additions & 3 deletions
diff --git a/‎src/cpu/kernels/fuse_batch_normalization/nhwc/neon/fp32.cpp‎
Lines changed: 6 additions & 3 deletions b/‎src/cpu/kernels/fuse_batch_normalization/nhwc/neon/fp32.cpp‎
Lines changed: 6 additions & 3 deletions
diff --git a/‎src/cpu/kernels/gemm_matrix_add/generic/neon/fp16.cpp‎
Lines changed: 4 additions & 2 deletions b/‎src/cpu/kernels/gemm_matrix_add/generic/neon/fp16.cpp‎
Lines changed: 4 additions & 2 deletions
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2020-2021 Arm Limited.
+ * Copyright (c) 2020-2021, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -23,6 +23,7 @@
  */
 #if defined(__ARM_FEATURE_FP16_VECTOR_ARITHMETIC) && defined(ENABLE_FP16_KERNELS)
 
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/common/utils/Validate.h"
 #include "src/core/NEON/NEMath.h"
 
@@ -38,6 +39,7 @@ constexpr int step = 8;
 
 void fp16_neon_floor(const void *src, void *dst, int len)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU, "fp16_neon_floor");
     ARM_COMPUTE_ASSERT_NOT_NULLPTR(src);
     ARM_COMPUTE_ASSERT_NOT_NULLPTR(dst);
     ARM_COMPUTE_ASSERT(len >= 0);
 
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2020-2021 Arm Limited.
+ * Copyright (c) 2020-2021, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -21,6 +21,7 @@
  * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
  * SOFTWARE.
  */
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/common/utils/Validate.h"
 #include "src/core/NEON/NEMath.h"
 
@@ -36,6 +37,7 @@ constexpr int step = 4;
 
 void fp32_neon_floor(const void *src, void *dst, int len)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU, "fp32_neon_floor");
     ARM_COMPUTE_ASSERT_NOT_NULLPTR(src);
     ARM_COMPUTE_ASSERT_NOT_NULLPTR(dst);
     ARM_COMPUTE_ASSERT(len >= 0);
 
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2021-2023 Arm Limited.
+ * Copyright (c) 2021-2023, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -23,6 +23,7 @@
  */
 #if defined(__ARM_FEATURE_FP16_VECTOR_ARITHMETIC) && defined(ENABLE_FP16_KERNELS)
 
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/cpu/kernels/fuse_batch_normalization/generic/impl.h"
 
 namespace arm_compute
@@ -40,8 +41,9 @@ void fused_batch_normalization_conv_f16(const ITensor *conv_weights,
                                         float          epsilon,
                                         const Window  &window)
 {
-    return fused_batch_normalization_conv<float16_t>(conv_weights, conv_bias, fused_weights, fused_bias, bn_mean,
-                                                     bn_var, bn_beta, bn_gamma, epsilon, window);
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU, "fused_batch_normalization_conv_f16");
+    fused_batch_normalization_conv<float16_t>(conv_weights, conv_bias, fused_weights, fused_bias, bn_mean, bn_var,
+                                              bn_beta, bn_gamma, epsilon, window);
 }
 
 void fused_batch_normalization_dwc_nchw_f16(const ITensor *dwc_weights,
@@ -55,8 +57,10 @@ void fused_batch_normalization_dwc_nchw_f16(const ITensor *dwc_weights,
                                             float          epsilon,
                                             const Window  &window)
 {
-    return fused_batch_normalization_dwc_nchw<float16_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean,
-                                                         bn_var, bn_beta, bn_gamma, epsilon, window);
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fused_batch_normalization_dwc_nchw_f16");
+    fused_batch_normalization_dwc_nchw<float16_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean, bn_var,
+                                                  bn_beta, bn_gamma, epsilon, window);
 }
 } // namespace cpu
 } // namespace arm_compute
 
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2021-2022 Arm Limited.
+ * Copyright (c) 2021-2022, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -22,6 +22,7 @@
  * SOFTWARE.
  */
 
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/cpu/kernels/fuse_batch_normalization/generic/impl.h"
 
 namespace arm_compute
@@ -39,8 +40,9 @@ void fused_batch_normalization_conv_f32(const ITensor *conv_weights,
                                         float          epsilon,
                                         const Window  &window)
 {
-    return fused_batch_normalization_conv<float32_t>(conv_weights, conv_bias, fused_weights, fused_bias, bn_mean,
-                                                     bn_var, bn_beta, bn_gamma, epsilon, window);
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU, "fused_batch_normalization_conv_f32");
+    fused_batch_normalization_conv<float32_t>(conv_weights, conv_bias, fused_weights, fused_bias, bn_mean, bn_var,
+                                              bn_beta, bn_gamma, epsilon, window);
 }
 } // namespace cpu
 } // namespace arm_compute
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2018-2023 Arm Limited.
+ * Copyright (c) 2018-2023, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -22,6 +22,7 @@
  * SOFTWARE.
  */
 
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/cpu/kernels/fuse_batch_normalization/generic/impl.h"
 
 namespace arm_compute
@@ -39,8 +40,10 @@ void fused_batch_normalization_dwc_nchw_f32(const ITensor *dwc_weights,
                                             float          epsilon,
                                             const Window  &window)
 {
-    return fused_batch_normalization_dwc_nchw<float32_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean,
-                                                         bn_var, bn_beta, bn_gamma, epsilon, window);
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fused_batch_normalization_dwc_nchw_f32");
+    fused_batch_normalization_dwc_nchw<float32_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean, bn_var,
+                                                  bn_beta, bn_gamma, epsilon, window);
 }
 
 } // namespace cpu
 
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2023 Arm Limited.
+ * Copyright (c) 2023, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -26,6 +26,7 @@
 #include "arm_compute/core/ITensor.h"
 #include "arm_compute/core/TensorInfo.h"
 
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/core/CPP/Validate.h"
 #include "src/core/NEON/kernels/detail/NEActivationFunctionDetail.h"
 #include "src/core/NEON/wrapper/wrapper.h"
@@ -46,6 +47,8 @@ void fp16_batch_normalization_nchw_non_fused(const Window       &window,
                                              float               epsilon,
                                              ActivationLayerInfo act_info)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fp16_batch_normalization_nchw_non_fused");
     batch_normalization_nchw<float16_t, false, detail::dummy<float16_t, 8>>(window, input, output, mean, var, beta,
                                                                             gamma, epsilon, act_info);
 }
@@ -60,6 +63,8 @@ void fp16_batch_normalization_nchw_non_fused_relu(const Window       &window,
                                                   float               epsilon,
                                                   ActivationLayerInfo act_info)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fp16_batch_normalization_nchw_non_fused_relu");
     batch_normalization_nchw<float16_t, true, detail::relu<float16_t, 8>>(window, input, output, mean, var, beta, gamma,
                                                                           epsilon, act_info);
 }
@@ -74,6 +79,8 @@ void fp16_batch_normalization_nchw_non_fused_brelu(const Window       &window,
                                                    float               epsilon,
                                                    ActivationLayerInfo act_info)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fp16_batch_normalization_nchw_non_fused_brelu");
     batch_normalization_nchw<float16_t, true, detail::brelu<float16_t, 8>>(window, input, output, mean, var, beta,
                                                                            gamma, epsilon, act_info);
 }
@@ -88,6 +95,8 @@ void fp16_batch_normalization_nchw_non_fused_lubrelu(const Window       &window,
                                                      float               epsilon,
                                                      ActivationLayerInfo act_info)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fp16_batch_normalization_nchw_non_fused_lubrelu");
     batch_normalization_nchw<float16_t, true, detail::lubrelu<float16_t, 8>>(window, input, output, mean, var, beta,
                                                                              gamma, epsilon, act_info);
 }
 
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2023 Arm Limited.
+ * Copyright (c) 2023, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -24,6 +24,7 @@
 #include "arm_compute/core/ITensor.h"
 #include "arm_compute/core/TensorInfo.h"
 
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/core/CPP/Validate.h"
 #include "src/core/NEON/kernels/detail/NEActivationFunctionDetail.h"
 #include "src/core/NEON/wrapper/wrapper.h"
@@ -44,6 +45,8 @@ void fp32_batch_normalization_nchw_non_fused(const Window       &window,
                                              float               epsilon,
                                              ActivationLayerInfo act_info)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fp32_batch_normalization_nchw_non_fused");
     batch_normalization_nchw<float, false, detail::dummy<float, 4>>(window, input, output, mean, var, beta, gamma,
                                                                     epsilon, act_info);
 }
@@ -58,6 +61,8 @@ void fp32_batch_normalization_nchw_non_fused_relu(const Window       &window,
                                                   float               epsilon,
                                                   ActivationLayerInfo act_info)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fp32_batch_normalization_nchw_non_fused_relu");
     batch_normalization_nchw<float, true, detail::relu<float, 4>>(window, input, output, mean, var, beta, gamma,
                                                                   epsilon, act_info);
 }
@@ -72,6 +77,8 @@ void fp32_batch_normalization_nchw_non_fused_brelu(const Window       &window,
                                                    float               epsilon,
                                                    ActivationLayerInfo act_info)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fp32_batch_normalization_nchw_non_fused_brelu");
     batch_normalization_nchw<float, true, detail::brelu<float, 4>>(window, input, output, mean, var, beta, gamma,
                                                                    epsilon, act_info);
 }
@@ -86,6 +93,8 @@ void fp32_batch_normalization_nchw_non_fused_lubrelu(const Window       &window,
                                                      float               epsilon,
                                                      ActivationLayerInfo act_info)
 {
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fp32_batch_normalization_nchw_non_fused_lubrelu");
     batch_normalization_nchw<float, true, detail::lubrelu<float, 4>>(window, input, output, mean, var, beta, gamma,
                                                                      epsilon, act_info);
 }
 
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2021-2022 Arm Limited.
+ * Copyright (c) 2021-2022, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -23,6 +23,7 @@
  */
 #if defined(__ARM_FEATURE_FP16_VECTOR_ARITHMETIC) && defined(ENABLE_FP16_KERNELS)
 
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/cpu/kernels/fuse_batch_normalization/generic/impl.h"
 #include "src/cpu/kernels/fuse_batch_normalization/nhwc/neon/impl.h"
 
@@ -41,8 +42,10 @@ void fused_batch_normalization_dwc_nhwc_f16(const ITensor *dwc_weights,
                                             float          epsilon,
                                             const Window  &window)
 {
-    return fused_batch_normalization_dwc_nhwc<float16_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean,
-                                                         bn_var, bn_beta, bn_gamma, epsilon, window);
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fused_batch_normalization_dwc_nhwc_f16");
+    fused_batch_normalization_dwc_nhwc<float16_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean, bn_var,
+                                                  bn_beta, bn_gamma, epsilon, window);
 }
 
 } // namespace cpu
 
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2021-2022 Arm Limited.
+ * Copyright (c) 2021-2022, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -22,6 +22,7 @@
  * SOFTWARE.
  */
 
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/cpu/kernels/fuse_batch_normalization/generic/impl.h"
 #include "src/cpu/kernels/fuse_batch_normalization/nhwc/neon/impl.h"
 
@@ -40,8 +41,10 @@ void fused_batch_normalization_dwc_nhwc_f32(const ITensor *dwc_weights,
                                             float          epsilon,
                                             const Window  &window)
 {
-    return fused_batch_normalization_dwc_nhwc<float32_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean,
-                                                         bn_var, bn_beta, bn_gamma, epsilon, window);
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,
+                            "fused_batch_normalization_dwc_nhwc_f32");
+    fused_batch_normalization_dwc_nhwc<float32_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean, bn_var,
+                                                  bn_beta, bn_gamma, epsilon, window);
 }
 
 } // namespace cpu
 
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2022-2023 Arm Limited.
+ * Copyright (c) 2022-2023, 2025 Arm Limited.
  *
  * SPDX-License-Identifier: MIT
  *
@@ -23,6 +23,7 @@
  */
 #if defined(__ARM_FEATURE_FP16_VECTOR_ARITHMETIC) && defined(ENABLE_FP16_KERNELS)
 
+#include "src/common/utils/profile/acl_profile.h"
 #include "src/cpu/kernels/gemm_matrix_add/generic/neon/impl.h"
 
 #include <arm_neon.h>
@@ -78,7 +79,8 @@ void matrix_addition_f16(const ITensor *src, ITensor *dst, const Window &window,
 } // namespace
 void neon_fp16_gemm_matrix_add(const ITensor *src, ITensor *dst, const Window &window, float beta)
 {
-    return matrix_addition_f16(src, dst, window, beta);
+    ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU, "neon_fp16_gemm_matrix_add");
+    matrix_addition_f16(src, dst, window, beta);
 }
 } // namespace cpu
 } // namespace arm_compute
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`/*`
`2`		`- * Copyright (c) 2020-2021 Arm Limited.`
	`2`	`+ * Copyright (c) 2020-2021, 2025 Arm Limited.`
`3`	`3`	`*`
`4`	`4`	`* SPDX-License-Identifier: MIT`
`5`	`5`	`*`
`@@ -23,6 +23,7 @@`
`23`	`23`	`*/`
`24`	`24`	`#if defined(__ARM_FEATURE_FP16_VECTOR_ARITHMETIC) && defined(ENABLE_FP16_KERNELS)`
`25`	`25`
	`26`	`+#include "src/common/utils/profile/acl_profile.h"`
`26`	`27`	`#include "src/common/utils/Validate.h"`
`27`	`28`	`#include "src/core/NEON/NEMath.h"`
`28`	`29`
`@@ -38,6 +39,7 @@ constexpr int step = 8;`
`38`	`39`
`39`	`40`	`void fp16_neon_floor(const void src, void dst, int len)`
`40`	`41`	`{`
	`42`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU, "fp16_neon_floor");`
`41`	`43`	`ARM_COMPUTE_ASSERT_NOT_NULLPTR(src);`
`42`	`44`	`ARM_COMPUTE_ASSERT_NOT_NULLPTR(dst);`
`43`	`45`	`ARM_COMPUTE_ASSERT(len >= 0);`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`/*`
`2`		`- * Copyright (c) 2021-2023 Arm Limited.`
	`2`	`+ * Copyright (c) 2021-2023, 2025 Arm Limited.`
`3`	`3`	`*`
`4`	`4`	`* SPDX-License-Identifier: MIT`
`5`	`5`	`*`
`@@ -23,6 +23,7 @@`
`23`	`23`	`*/`
`24`	`24`	`#if defined(__ARM_FEATURE_FP16_VECTOR_ARITHMETIC) && defined(ENABLE_FP16_KERNELS)`
`25`	`25`
	`26`	`+#include "src/common/utils/profile/acl_profile.h"`
`26`	`27`	`#include "src/cpu/kernels/fuse_batch_normalization/generic/impl.h"`
`27`	`28`
`28`	`29`	`namespace arm_compute`
`@@ -40,8 +41,9 @@ void fused_batch_normalization_conv_f16(const ITensor *conv_weights,`
`40`	`41`	`float epsilon,`
`41`	`42`	`const Window &window)`
`42`	`43`	`{`
`43`		`- return fused_batch_normalization_conv<float16_t>(conv_weights, conv_bias, fused_weights, fused_bias, bn_mean,`
`44`		`- bn_var, bn_beta, bn_gamma, epsilon, window);`
	`44`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU, "fused_batch_normalization_conv_f16");`
	`45`	`+ fused_batch_normalization_conv<float16_t>(conv_weights, conv_bias, fused_weights, fused_bias, bn_mean, bn_var,`
	`46`	`+ bn_beta, bn_gamma, epsilon, window);`
`45`	`47`	`}`
`46`	`48`
`47`	`49`	`void fused_batch_normalization_dwc_nchw_f16(const ITensor *dwc_weights,`
`@@ -55,8 +57,10 @@ void fused_batch_normalization_dwc_nchw_f16(const ITensor *dwc_weights,`
`55`	`57`	`float epsilon,`
`56`	`58`	`const Window &window)`
`57`	`59`	`{`
`58`		`- return fused_batch_normalization_dwc_nchw<float16_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean,`
`59`		`- bn_var, bn_beta, bn_gamma, epsilon, window);`
	`60`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,`
	`61`	`+ "fused_batch_normalization_dwc_nchw_f16");`
	`62`	`+ fused_batch_normalization_dwc_nchw<float16_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean, bn_var,`
	`63`	`+ bn_beta, bn_gamma, epsilon, window);`
`60`	`64`	`}`
`61`	`65`	`} // namespace cpu`
`62`	`66`	`} // namespace arm_compute`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`/*`
`2`		`- * Copyright (c) 2021-2022 Arm Limited.`
	`2`	`+ * Copyright (c) 2021-2022, 2025 Arm Limited.`
`3`	`3`	`*`
`4`	`4`	`* SPDX-License-Identifier: MIT`
`5`	`5`	`*`
`@@ -22,6 +22,7 @@`
`22`	`22`	`* SOFTWARE.`
`23`	`23`	`*/`
`24`	`24`
	`25`	`+#include "src/common/utils/profile/acl_profile.h"`
`25`	`26`	`#include "src/cpu/kernels/fuse_batch_normalization/generic/impl.h"`
`26`	`27`
`27`	`28`	`namespace arm_compute`
`@@ -39,8 +40,9 @@ void fused_batch_normalization_conv_f32(const ITensor *conv_weights,`
`39`	`40`	`float epsilon,`
`40`	`41`	`const Window &window)`
`41`	`42`	`{`
`42`		`- return fused_batch_normalization_conv<float32_t>(conv_weights, conv_bias, fused_weights, fused_bias, bn_mean,`
`43`		`- bn_var, bn_beta, bn_gamma, epsilon, window);`
	`43`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU, "fused_batch_normalization_conv_f32");`
	`44`	`+ fused_batch_normalization_conv<float32_t>(conv_weights, conv_bias, fused_weights, fused_bias, bn_mean, bn_var,`
	`45`	`+ bn_beta, bn_gamma, epsilon, window);`
`44`	`46`	`}`
`45`	`47`	`} // namespace cpu`
`46`	`48`	`} // namespace arm_compute`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`/*`
`2`		`- * Copyright (c) 2018-2023 Arm Limited.`
	`2`	`+ * Copyright (c) 2018-2023, 2025 Arm Limited.`
`3`	`3`	`*`
`4`	`4`	`* SPDX-License-Identifier: MIT`
`5`	`5`	`*`
`@@ -22,6 +22,7 @@`
`22`	`22`	`* SOFTWARE.`
`23`	`23`	`*/`
`24`	`24`
	`25`	`+#include "src/common/utils/profile/acl_profile.h"`
`25`	`26`	`#include "src/cpu/kernels/fuse_batch_normalization/generic/impl.h"`
`26`	`27`
`27`	`28`	`namespace arm_compute`
`@@ -39,8 +40,10 @@ void fused_batch_normalization_dwc_nchw_f32(const ITensor *dwc_weights,`
`39`	`40`	`float epsilon,`
`40`	`41`	`const Window &window)`
`41`	`42`	`{`
`42`		`- return fused_batch_normalization_dwc_nchw<float32_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean,`
`43`		`- bn_var, bn_beta, bn_gamma, epsilon, window);`
	`43`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,`
	`44`	`+ "fused_batch_normalization_dwc_nchw_f32");`
	`45`	`+ fused_batch_normalization_dwc_nchw<float32_t>(dwc_weights, dwc_bias, fused_weights, fused_bias, bn_mean, bn_var,`
	`46`	`+ bn_beta, bn_gamma, epsilon, window);`
`44`	`47`	`}`
`45`	`48`
`46`	`49`	`} // namespace cpu`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`/*`
`2`		`- * Copyright (c) 2023 Arm Limited.`
	`2`	`+ * Copyright (c) 2023, 2025 Arm Limited.`
`3`	`3`	`*`
`4`	`4`	`* SPDX-License-Identifier: MIT`
`5`	`5`	`*`
`@@ -26,6 +26,7 @@`
`26`	`26`	`#include "arm_compute/core/ITensor.h"`
`27`	`27`	`#include "arm_compute/core/TensorInfo.h"`
`28`	`28`
	`29`	`+#include "src/common/utils/profile/acl_profile.h"`
`29`	`30`	`#include "src/core/CPP/Validate.h"`
`30`	`31`	`#include "src/core/NEON/kernels/detail/NEActivationFunctionDetail.h"`
`31`	`32`	`#include "src/core/NEON/wrapper/wrapper.h"`
`@@ -46,6 +47,8 @@ void fp16_batch_normalization_nchw_non_fused(const Window &window,`
`46`	`47`	`float epsilon,`
`47`	`48`	`ActivationLayerInfo act_info)`
`48`	`49`	`{`
	`50`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,`
	`51`	`+ "fp16_batch_normalization_nchw_non_fused");`
`49`	`52`	`batch_normalization_nchw<float16_t, false, detail::dummy<float16_t, 8>>(window, input, output, mean, var, beta,`
`50`	`53`	`gamma, epsilon, act_info);`
`51`	`54`	`}`
`@@ -60,6 +63,8 @@ void fp16_batch_normalization_nchw_non_fused_relu(const Window &window,`
`60`	`63`	`float epsilon,`
`61`	`64`	`ActivationLayerInfo act_info)`
`62`	`65`	`{`
	`66`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,`
	`67`	`+ "fp16_batch_normalization_nchw_non_fused_relu");`
`63`	`68`	`batch_normalization_nchw<float16_t, true, detail::relu<float16_t, 8>>(window, input, output, mean, var, beta, gamma,`
`64`	`69`	`epsilon, act_info);`
`65`	`70`	`}`
`@@ -74,6 +79,8 @@ void fp16_batch_normalization_nchw_non_fused_brelu(const Window &window,`
`74`	`79`	`float epsilon,`
`75`	`80`	`ActivationLayerInfo act_info)`
`76`	`81`	`{`
	`82`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,`
	`83`	`+ "fp16_batch_normalization_nchw_non_fused_brelu");`
`77`	`84`	`batch_normalization_nchw<float16_t, true, detail::brelu<float16_t, 8>>(window, input, output, mean, var, beta,`
`78`	`85`	`gamma, epsilon, act_info);`
`79`	`86`	`}`
`@@ -88,6 +95,8 @@ void fp16_batch_normalization_nchw_non_fused_lubrelu(const Window &window,`
`88`	`95`	`float epsilon,`
`89`	`96`	`ActivationLayerInfo act_info)`
`90`	`97`	`{`
	`98`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU,`
	`99`	`+ "fp16_batch_normalization_nchw_non_fused_lubrelu");`
`91`	`100`	`batch_normalization_nchw<float16_t, true, detail::lubrelu<float16_t, 8>>(window, input, output, mean, var, beta,`
`92`	`101`	`gamma, epsilon, act_info);`
`93`	`102`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`/*`
`2`		`- * Copyright (c) 2022-2023 Arm Limited.`
	`2`	`+ * Copyright (c) 2022-2023, 2025 Arm Limited.`
`3`	`3`	`*`
`4`	`4`	`* SPDX-License-Identifier: MIT`
`5`	`5`	`*`
`@@ -23,6 +23,7 @@`
`23`	`23`	`*/`
`24`	`24`	`#if defined(__ARM_FEATURE_FP16_VECTOR_ARITHMETIC) && defined(ENABLE_FP16_KERNELS)`
`25`	`25`
	`26`	`+#include "src/common/utils/profile/acl_profile.h"`
`26`	`27`	`#include "src/cpu/kernels/gemm_matrix_add/generic/neon/impl.h"`
`27`	`28`
`28`	`29`	`#include <arm_neon.h>`
`@@ -78,7 +79,8 @@ void matrix_addition_f16(const ITensor src, ITensor dst, const Window &window,`
`78`	`79`	`} // namespace`
`79`	`80`	`void neon_fp16_gemm_matrix_add(const ITensor src, ITensor dst, const Window &window, float beta)`
`80`	`81`	`{`
`81`		`- return matrix_addition_f16(src, dst, window, beta);`
	`82`	`+ ARM_COMPUTE_TRACE_EVENT(ARM_COMPUTE_PROF_CAT_CPU, ARM_COMPUTE_PROF_LVL_CPU, "neon_fp16_gemm_matrix_add");`
	`83`	`+ matrix_addition_f16(src, dst, window, beta);`
`82`	`84`	`}`
`83`	`85`	`} // namespace cpu`
`84`	`86`	`} // namespace arm_compute`