fix: fix a bug in flashinfer

niushengxiao · niushengxiao · commit 087ca04d1fec · 2025-08-04T13:51:34.000+08:00
diff --git a/lightllm/models/llama/flashinfer_struct.py b/lightllm/models/llama/flashinfer_struct.py
@@ -81,8 +81,8 @@ def init_some_extra_state(self, model, input_ids: torch.Tensor):
                     self.req_manager.req_to_token_indexs,
                     self.b_req_idx,
                     self.b_seq_len,
-                    kv_starts,
-                    self.max_len_in_batch,
+                    kv_starts[:-1],
+                    self.max_kv_seq_len,
                     kv_indices,
                 )
                 self.prefill_wrapper = flashinfer.prefill.BatchPrefillWithPagedKVCacheWrapper(