Update on "[cortex-m] Add scalar c++ op for dequantize_per_tensor"

digantdesai · digantdesai · commit 52e6b244ba9a · 2025-04-17T12:47:34.000-07:00
Only buck build for now, CMake is next. No MVE, scalar only. Strictly the dtypes we care about update arg_meta to reflect that. Differential Revision: [D73164576](https://our.internmc.facebook.com/intern/diff/D73164576/) [ghstack-poisoned]
diff --git a/backends/cortex_m/ops/op_dequantize_per_tensor.cpp b/backends/cortex_m/ops/op_dequantize_per_tensor.cpp
@@ -80,8 +80,8 @@ T dequantize_val(
     K value,
     int64_t quant_min,
     int64_t quant_max) {
-  (void) quant_min;
-  (void) quant_max;
+  (void)quant_min;
+  (void)quant_max;
   return static_cast<T>((static_cast<int32_t>(value) - zero_point) * scale);
 }
 
@@ -119,12 +119,13 @@ Tensor& dequantize_per_tensor_out(
   const size_t numel = input.numel();
 
 #if defined(HAS_HELIUM_SIMD)
-  // Helium MVE implementation for float32 to int8 quantization
-  #Error "Implement MVE version!"
+// Helium MVE implementation for float32 to int8 quantization
+#Error "Implement MVE version!"
 #else
   // Scalar implementation for float32 to int8 quantization
   for (size_t i = 0; i < numel; i++) {
-    out_data[i] = dequantize_val<int8_t, float>(scale, zp, input_data[i], qmin, qmax);
+    out_data[i] =
+        dequantize_val<int8_t, float>(scale, zp, input_data[i], qmin, qmax);
   }
 #endif
 
@@ -139,9 +140,10 @@ Tensor& dequantize_per_tensor_out(
     int64_t quant_max,
     ScalarType dtype,
     Tensor& out) {
-    KernelRuntimeContext context;
-    return dequantize_per_tensor_out(context, input, scale, zero_point, quant_min, quant_max, dtype, out);
+  KernelRuntimeContext context;
+  return dequantize_per_tensor_out(
+      context, input, scale, zero_point, quant_min, quant_max, dtype, out);
 }
-  
+
 } // namespace native
 } // namespace cortex_m
diff --git a/backends/cortex_m/ops/op_quantize_per_tensor.cpp b/backends/cortex_m/ops/op_quantize_per_tensor.cpp
@@ -82,7 +82,8 @@ T quantize_val(
     K value,
     int64_t quant_min,
     int64_t quant_max) {
-  int32_t qvalue = zero_point + static_cast<int32_t>(std::nearbyint(inv_scale * value));
+  int32_t qvalue =
+      zero_point + static_cast<int32_t>(std::nearbyint(inv_scale * value));
   qvalue = std::max<int32_t>(qvalue, static_cast<int32_t>(quant_min));
   qvalue = std::min<int32_t>(qvalue, static_cast<int32_t>(quant_max));
   return static_cast<T>(qvalue);
@@ -123,12 +124,13 @@ Tensor& quantize_per_tensor_out(
   const size_t numel = input.numel();
 
 #if defined(HAS_HELIUM_SIMD)
-  // Helium MVE implementation for float32 to int8 quantization
-  #Error "Implement MVE version!"
+// Helium MVE implementation for float32 to int8 quantization
+#Error "Implement MVE version!"
 #else
   // Scalar implementation for float32 to int8 quantization
   for (size_t i = 0; i < numel; i++) {
-    out_data[i] = quantize_val<int8_t, float>(inv_scale, zp, input_data[i], qmin, qmax);
+    out_data[i] =
+        quantize_val<int8_t, float>(inv_scale, zp, input_data[i], qmin, qmax);
   }
 #endif
 
@@ -143,9 +145,10 @@ Tensor& quantize_per_tensor_out(
     int64_t quant_max,
     ScalarType dtype,
     Tensor& out) {
-    KernelRuntimeContext context;
-    return quantize_per_tensor_out(context, input, scale, zero_point, quant_min, quant_max, dtype, out);
+  KernelRuntimeContext context;
+  return quantize_per_tensor_out(
+      context, input, scale, zero_point, quant_min, quant_max, dtype, out);
 }
-  
+
 } // namespace native
 } // namespace cortex_m
diff --git a/backends/cortex_m/test/op_dequantize_per_tensor_test.cpp b/backends/cortex_m/test/op_dequantize_per_tensor_test.cpp
@@ -7,10 +7,10 @@
  */
 
 #include <executorch/backends/cortex_m/ops/NativeFunctions.h> // Declares the operator
-#include <executorch/runtime/kernel/kernel_includes.h>
 #include <executorch/runtime/core/exec_aten/exec_aten.h>
-#include <executorch/runtime/core/exec_aten/testing_util/tensor_util.h>
 #include <executorch/runtime/core/exec_aten/testing_util/tensor_factory.h>
+#include <executorch/runtime/core/exec_aten/testing_util/tensor_util.h>
+#include <executorch/runtime/kernel/kernel_includes.h>
 #include <gtest/gtest.h>
 
 using executorch::aten::ScalarType;
@@ -38,11 +38,18 @@ void test_dtype() {
 
   KernelRuntimeContext ctx;
   dequantize_per_tensor_out(
-      ctx, input, scale, zero_point, quant_min, quant_max, ScalarType::Char, out);
+      ctx,
+      input,
+      scale,
+      zero_point,
+      quant_min,
+      quant_max,
+      ScalarType::Char,
+      out);
 
   EXPECT_TENSOR_EQ(out, expected);
 }
 
 TEST(OpDequantizeOutTest, AllDtypesSupported) {
-  test_dtype(); 
+  test_dtype();
 }
diff --git a/backends/cortex_m/test/op_quantize_per_tensor_test.cpp b/backends/cortex_m/test/op_quantize_per_tensor_test.cpp
@@ -7,10 +7,10 @@
  */
 
 #include <executorch/backends/cortex_m/ops/NativeFunctions.h> // Declares the operator
-#include <executorch/runtime/kernel/kernel_includes.h>
 #include <executorch/runtime/core/exec_aten/exec_aten.h>
-#include <executorch/runtime/core/exec_aten/testing_util/tensor_util.h>
 #include <executorch/runtime/core/exec_aten/testing_util/tensor_factory.h>
+#include <executorch/runtime/core/exec_aten/testing_util/tensor_util.h>
+#include <executorch/runtime/kernel/kernel_includes.h>
 #include <gtest/gtest.h>
 
 using executorch::aten::ScalarType;
@@ -38,11 +38,18 @@ void test_dtype() {
 
   KernelRuntimeContext ctx;
   quantize_per_tensor_out(
-      ctx, input, scale, zero_point, quant_min, quant_max, ScalarType::Char, out);
+      ctx,
+      input,
+      scale,
+      zero_point,
+      quant_min,
+      quant_max,
+      ScalarType::Char,
+      out);
 
   EXPECT_TENSOR_EQ(out, expected);
 }
 
 TEST(OpQuantizeOutTest, AllDtypesSupported) {
-  test_dtype(); 
+  test_dtype();
 }