[multimodal] Allow generate and prefill to take move sematics (pytorch#14643)

larryliu0820 · web-flow · commit db8d04fafba9 · 2025-09-30T08:31:49.000+01:00
As titled
diff --git a/extension/llm/runner/multimodal_runner.cpp b/extension/llm/runner/multimodal_runner.cpp
@@ -62,6 +62,11 @@ Error MultimodalRunner::load() {
     ET_LOG(Info, format, __VA_ARGS__);     \
   }
 
+Error MultimodalRunner::prefill(std::vector<MultimodalInput>&& inputs) {
+  // Forward to the const reference version
+  return prefill(inputs);
+}
+
 Error MultimodalRunner::prefill(const std::vector<MultimodalInput>& inputs) {
   if (!is_loaded()) {
     ET_CHECK_OK_OR_RETURN_ERROR(load());
@@ -72,6 +77,16 @@ Error MultimodalRunner::prefill(const std::vector<MultimodalInput>& inputs) {
   return Error::Ok;
 }
 
+Error MultimodalRunner::generate(
+    std::vector<MultimodalInput>&& inputs,
+    const GenerationConfig& config,
+    std::function<void(const std::string&)> token_callback,
+    std::function<void(const Stats&)> stats_callback) {
+  // Forward to the const reference version
+  return generate(
+      inputs, config, std::move(token_callback), std::move(stats_callback));
+}
+
 Error MultimodalRunner::generate(
     const std::vector<MultimodalInput>& inputs,
     const GenerationConfig& config,
diff --git a/extension/llm/runner/multimodal_runner.h b/extension/llm/runner/multimodal_runner.h
@@ -119,6 +119,21 @@ class ET_EXPERIMENTAL MultimodalRunner {
       std::function<void(const std::string&)> token_callback = {},
       std::function<void(const Stats&)> stats_callback = {});
 
+  /**
+   * Generate tokens from multimodal inputs with move semantics.
+   * This overload allows efficient transfer of temporary vectors.
+   * @param inputs A vector of MultimodalInput objects (moved).
+   * @param config Generation configuration parameters.
+   * @param token_callback Callback function called for each generated token.
+   * @param stats_callback Callback function for generation statistics.
+   * @return The error code. KV cache position is tracked internally in pos_.
+   */
+  virtual ::executorch::runtime::Error generate(
+      std::vector<MultimodalInput>&& inputs,
+      const GenerationConfig& config,
+      std::function<void(const std::string&)> token_callback = {},
+      std::function<void(const Stats&)> stats_callback = {});
+
   /**
    * Prefill multimodal inputs, for example to reload chat history.
    * @param inputs A vector of MultimodalInput objects containing images and
@@ -128,6 +143,15 @@ class ET_EXPERIMENTAL MultimodalRunner {
   virtual ::executorch::runtime::Error prefill(
       const std::vector<MultimodalInput>& inputs);
 
+  /**
+   * Prefill multimodal inputs with move semantics.
+   * This overload allows efficient transfer of temporary vectors.
+   * @param inputs A vector of MultimodalInput objects (moved).
+   * @return The error code. KV cache position is tracked internally in pos_.
+   */
+  virtual ::executorch::runtime::Error prefill(
+      std::vector<MultimodalInput>&& inputs);
+
   inline void stop() {
     text_token_generator_->stop();
   }