Fix text_llm_runner kv cache pos count and use it for generate() (#15295)

pytorchbot · kirklandsign · web-flow · commit 4b1855598b1b · 2025-10-21T17:11:48.000-07:00
### Summary pos_ should advance by prefill and generated prompt size. ### Test plan CI cc @larryliu0820 @mergennachin @cccclai @helunwencser @jackzhxng Co-authored-by: Hansong Zhang <107070759+kirklandsign@users.noreply.github.com>
diff --git a/extension/llm/runner/text_llm_runner.cpp b/extension/llm/runner/text_llm_runner.cpp
@@ -183,11 +183,13 @@ Error TextLLMRunner::generate(
   // Generate max_new_tokens - 1 because prefill already generated 1 token.
   int64_t num_generated_tokens = ET_UNWRAP(text_token_generator_->generate(
       prompt_tokens,
-      num_prompt_tokens,
+      pos_,
       max_new_tokens - 1,
       temperature_ == -1.0f ? config.temperature : temperature_,
       wrapped_callback));
 
+  pos_ += num_generated_tokens;
+
   stats_->inference_end_ms = time_in_ms();
   if (!config.warming) {
     printf("\n");