Addressed feedback

rohansjoshi · rohansjoshi · commit 6afb2213f42e · 2025-09-18T16:58:27.000-07:00
diff --git a/backends/qualcomm/scripts/build.sh b/backends/qualcomm/scripts/build.sh
@@ -81,6 +81,7 @@ if [ "$BUILD_AARCH64" = true ]; then
         -DCMAKE_BUILD_TYPE=$BUILD_TYPE \
         -DEXECUTORCH_BUILD_QNN=ON \
         -DEXECUTORCH_BUILD_DEVTOOLS=ON \
+        -DEXECUTORCH_BUILD_EXTENSION_AUDIO=ON \
         -DEXECUTORCH_BUILD_EXTENSION_LLM=ON \
         -DEXECUTORCH_BUILD_EXTENSION_LLM_RUNNER=ON \
         -DEXECUTORCH_BUILD_EXTENSION_MODULE=ON \
@@ -150,6 +151,7 @@ if [ "$BUILD_X86_64" = true ]; then
         -DQNN_SDK_ROOT=${QNN_SDK_ROOT} \
         -DEXECUTORCH_BUILD_QNN=ON \
         -DEXECUTORCH_BUILD_DEVTOOLS=ON \
+        -DEXECUTORCH_BUILD_EXTENSION_AUDIO=ON \
         -DEXECUTORCH_BUILD_EXTENSION_LLM=ON \
         -DEXECUTORCH_BUILD_EXTENSION_LLM_RUNNER=ON \
         -DEXECUTORCH_BUILD_EXTENSION_MODULE=ON \
diff --git a/examples/qualcomm/oss_scripts/whisper/CMakeLists.txt b/examples/qualcomm/oss_scripts/whisper/CMakeLists.txt
@@ -14,7 +14,7 @@ set(_qnn_whisper_runner__srcs
     ${CMAKE_CURRENT_LIST_DIR}/runner/runner.cpp
     ${CMAKE_CURRENT_LIST_DIR}/runner/runner.h
     ${EXECUTORCH_ROOT}/extension/llm/sampler/sampler.cpp
-    ${EXECUTORCH_ROOT}/extension/llm/runner/asr_runner.h
+    ${EXECUTORCH_ROOT}/extension/audio/runner/asr_runner.h
 )
 
 # build qnn whisper runner
diff --git a/examples/qualcomm/oss_scripts/whisper/qnn_whisper_runner.cpp b/examples/qualcomm/oss_scripts/whisper/qnn_whisper_runner.cpp
@@ -14,6 +14,7 @@
  */
 
 #include <executorch/examples/qualcomm/oss_scripts/whisper/runner/runner.h>
+#include <executorch/extension/llm/runner/audio.h>
 #include <executorch/runtime/platform/log.h>
 #include <gflags/gflags.h>
 #include <fstream>
@@ -110,7 +111,14 @@ int main(int argc, char** argv) {
       }
     };
     // generate tokens
-    runner.transcribe(FLAGS_seq_len, multi_turns_input_buffers[iter], callback);
+    executorch::extension::llm::Audio audio{
+        std::vector<uint8_t>(
+            multi_turns_input_buffers[iter][0].begin(),
+            multi_turns_input_buffers[iter][0].end()),
+        1,
+        80,
+        3000};
+    runner.transcribe(FLAGS_seq_len, audio, callback);
     auto output_file_name =
         FLAGS_output_folder_path + "/output_" + std::to_string(iter) + ".txt";
     std::ofstream fout(output_file_name);
diff --git a/examples/qualcomm/oss_scripts/whisper/runner/runner.cpp b/examples/qualcomm/oss_scripts/whisper/runner/runner.cpp
@@ -112,29 +112,24 @@ uint64_t WhisperRunner::logits_to_token(
     const executorch::aten::Tensor& logits_tensor) {
   return sampler_->sample(logits_tensor.data_ptr<float>());
 }
-/**
- * @param inputs: A vector containing one element: a vector of bytes that
- * encodes a float tensor in little-endian byte order.
- *
- */
 Error WhisperRunner::transcribe(
     int32_t seq_len,
-    std::vector<std::vector<char>>& inputs,
-    std::function<void(const std::string&)> token_callback) {
+    executorch::extension::llm::Audio& audio,
+    std::function<void(const std::string&)> token_callback,
+    std::function<void(const executorch::extension::llm::Stats&)>
+        stats_callback) {
   if (!is_loaded()) {
     stats_.model_load_start_ms = time_in_ms();
     ET_CHECK_OK_OR_RETURN_ERROR(load());
     stats_.model_load_end_ms = time_in_ms();
   }
-  ET_CHECK_MSG(inputs.size() == 1, "The input size of whisper should be one.");
-
   ET_LOG(Info, "Start Encoding");
   stats_.encoder_inference_start_ms = time_in_ms();
   auto input_features_tensor_ptr = from_blob(
-      inputs[0].data(),
+      audio.data.data(),
       // (1, processor.feature_extractor.feature_size,
       // processor.feature_extractor.nb_max_frames)
-      {1, 80, 3000},
+      {audio.batch_size, audio.n_bins, audio.n_frames}, // {1, 80, 3000}
       ScalarType::Float);
   Result<Tensor> encoder_out = encoder_->encode(input_features_tensor_ptr);
   auto encoder_out_tensor_ptr = make_tensor_ptr(encoder_out.get());
diff --git a/examples/qualcomm/oss_scripts/whisper/runner/runner.h b/examples/qualcomm/oss_scripts/whisper/runner/runner.h
@@ -13,7 +13,9 @@
 
 #include <executorch/examples/qualcomm/oss_scripts/whisper/runner/decoder.h>
 #include <executorch/examples/qualcomm/oss_scripts/whisper/runner/encoder.h>
-#include <executorch/extension/llm/runner/asr_runner.h>
+#include <executorch/extension/audio/runner/asr_runner.h>
+#include <executorch/extension/llm/runner/audio.h>
+#include <executorch/extension/llm/runner/stats.h>
 #include <executorch/extension/llm/sampler/sampler.h>
 #include <executorch/runtime/core/error.h>
 #include <pytorch/tokenizers/tokenizer.h>
@@ -25,7 +27,7 @@
 
 namespace example {
 
-class WhisperRunner : public executorch::extension::llm::ASRRunner {
+class WhisperRunner : public executorch::extension::audio::ASRRunner {
  public:
   explicit WhisperRunner(
       const std::string& model_path,
@@ -52,8 +54,10 @@ class WhisperRunner : public executorch::extension::llm::ASRRunner {
   executorch::runtime::Error load();
   executorch::runtime::Error transcribe(
       int32_t seq_len,
-      std::vector<std::vector<char>>& inputs,
-      std::function<void(const std::string&)> token_callback = {});
+      executorch::extension::llm::Audio& audio,
+      std::function<void(const std::string&)> token_callback = {},
+      std::function<void(const executorch::extension::llm::Stats&)>
+          stats_callback = {});
 
  private:
   executorch::runtime::Error print_performance();
diff --git a/extension/android/CMakeLists.txt b/extension/android/CMakeLists.txt
@@ -169,7 +169,9 @@ endif()
 if(EXECUTORCH_BUILD_EXTENSION_LLM)
   target_sources(executorch_jni PRIVATE jni/jni_layer_llama.cpp jni/log.cpp)
   list(APPEND link_libraries extension_llm_runner)
-  target_compile_definitions(executorch_jni PUBLIC EXECUTORCH_BUILD_EXTENSION_LLM=1)
+  target_compile_definitions(
+    executorch_jni PUBLIC EXECUTORCH_BUILD_EXTENSION_LLM=1
+  )
 
   if(QNN_SDK_ROOT)
     target_sources(
@@ -222,8 +224,10 @@ if(EXECUTORCH_BUILD_EXTENSION_LLM)
 endif()
 
 if(EXECUTORCH_BUILD_EXTENSION_AUDIO)
-  target_sources(executorch_jni PRIVATE jni/jni_layer_asr.cpp jni/log.cpp)
-  target_compile_definitions(executorch_jni PUBLIC EXECUTORCH_BUILD_EXTENSION_AUDIO=1)
+  target_sources(executorch_jni PRIVATE jni/jni_layer_llama.cpp jni/log.cpp)
+  target_compile_definitions(
+    executorch_jni PUBLIC EXECUTORCH_BUILD_EXTENSION_AUDIO=1
+  )
 
   if(QNN_SDK_ROOT)
     target_sources(
diff --git a/extension/android/executorch_android/src/main/java/org/pytorch/executorch/extension/audio/ASRCallback.java b/extension/android/executorch_android/src/main/java/org/pytorch/executorch/extension/audio/ASRCallback.java
diff --git a/extension/android/executorch_android/src/main/java/org/pytorch/executorch/extension/audio/ASRModule.java b/extension/android/executorch_android/src/main/java/org/pytorch/executorch/extension/audio/ASRModule.java
@@ -11,6 +11,7 @@
 import com.facebook.jni.annotations.DoNotStrip;
 import java.io.File;
 import org.pytorch.executorch.ExecuTorchRuntime;
+import org.pytorch.executorch.extension.llm.LlmCallback;
 import org.pytorch.executorch.annotations.Experimental;
 
 /**
@@ -50,8 +51,9 @@ public void resetNative() {
   public native int transcribe(
       int seqLen,
       byte[][] inputs,
-      ASRCallback callback);
-
+      LlmCallback callback,
+      int n_bins,
+      int n_frames);
 
   /** Force loading the module. Otherwise the model is loaded during first generate(). */
   @DoNotStrip
diff --git a/extension/android/executorch_android/src/main/java/org/pytorch/executorch/extension/audio/package-info.java b/extension/android/executorch_android/src/main/java/org/pytorch/executorch/extension/audio/package-info.java
@@ -1,2 +1,2 @@
-/** Extension for ASR related use cases for ExecuTorch Android Java/JNI package. */
+/** Extension for audio and ASR related use cases for ExecuTorch Android Java/JNI package. */
 package org.pytorch.executorch.extension.audio;
diff --git a/extension/android/jni/BUCK b/extension/android/jni/BUCK
@@ -121,35 +121,6 @@ non_fbcode_target(_kind = fb_android_cxx_library,
     ],
 )
 
-non_fbcode_target(_kind = fb_android_cxx_library,
-    name = "executorch_asr_jni",
-    srcs = [
-        "jni_layer.cpp",
-        "jni_layer_asr.cpp",
-        "jni_layer_runtime.cpp",
-    ],
-    allow_jni_merging = False,
-    compiler_flags = ET_JNI_COMPILER_FLAGS + [
-        "-DEXECUTORCH_BUILD_EXTENSION_AUDIO",
-    ],
-    soname = "libexecutorch.$(ext)",
-    visibility = ["PUBLIC"],
-    deps = [
-        ":jni_headers",
-        ":log_provider_static",
-        "//fbandroid/libraries/fbjni:fbjni",
-        "//fbandroid/native/fb:fb",
-        "//third-party/glog:glog",
-        "//xplat/executorch/backends/xnnpack:xnnpack_backend_static",
-        "//xplat/executorch/examples/oss_scripts/qualcomm/whisper/runner:runner_static",
-        "//xplat/executorch/extension/module:module_static",
-        "//xplat/executorch/extension/runner_util:inputs_static",
-        "//xplat/executorch/extension/tensor:tensor_static",
-        "//xplat/executorch/extension/threadpool:cpuinfo_utils_static",
-        "//xplat/executorch/extension/threadpool:threadpool_static",
-    ],
-)
-
 non_fbcode_target(_kind = runtime.cxx_library,
     name = "log_provider",
     srcs = ["log.cpp"],
diff --git a/extension/android/jni/jni_layer_asr.cpp b/extension/android/jni/jni_layer_asr.cpp
diff --git a/extension/android/jni/jni_layer_llama.cpp b/extension/android/jni/jni_layer_llama.cpp
diff --git a/extension/audio/runner/asr_runner.h b/extension/audio/runner/asr_runner.h

Original file line number	Diff line number	Diff line change
`@@ -14,7 +14,7 @@ set(_qnn_whisper_runner__srcs`
`14`	`14`	`${CMAKE_CURRENT_LIST_DIR}/runner/runner.cpp`
`15`	`15`	`${CMAKE_CURRENT_LIST_DIR}/runner/runner.h`
`16`	`16`	`${EXECUTORCH_ROOT}/extension/llm/sampler/sampler.cpp`
`17`		`- ${EXECUTORCH_ROOT}/extension/llm/runner/asr_runner.h`
	`17`	`+ ${EXECUTORCH_ROOT}/extension/audio/runner/asr_runner.h`
`18`	`18`	`)`
`19`	`19`
`20`	`20`	`# build qnn whisper runner`
Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`		`-/** Extension for ASR related use cases for ExecuTorch Android Java/JNI package. */`
	`1`	`+/** Extension for audio and ASR related use cases for ExecuTorch Android Java/JNI package. */`
`2`	`2`	`package org.pytorch.executorch.extension.audio;`