fix: fix a bug in flashinfer

niushengxiao · niushengxiao · commit a561c63231b5 · 2025-08-01T17:26:58.000+08:00
diff --git a/lightllm/models/deepseek2/flashinfer_struct.py b/lightllm/models/deepseek2/flashinfer_struct.py
@@ -38,7 +38,7 @@ def init_some_extra_state(self, model, input_ids: torch.Tensor):
                     self.b_req_idx,
                     self.b_seq_len,
                     self.b_start_loc,
-                    self.max_len_in_batch,
+                    self.max_kv_seq_len,
                     self.kv_indices,
                 )
                 if self.decode_wrapper is None:
diff --git a/lightllm/models/llama/flashinfer_struct.py b/lightllm/models/llama/flashinfer_struct.py
@@ -41,7 +41,7 @@ def init_some_extra_state(self, model, input_ids: torch.Tensor):
                     self.b_req_idx,
                     self.b_seq_len,
                     self.b_start_loc,
-                    self.max_len_in_batch,
+                    self.max_kv_seq_len,
                     self.kv_indices,
                 )
                 self.kv_starts = self.b1_cu_kv_seq_len.int()
@@ -81,8 +81,8 @@ def init_some_extra_state(self, model, input_ids: torch.Tensor):
                     self.req_manager.req_to_token_indexs,
                     self.b_req_idx,
                     self.b_seq_len,
-                    kv_starts,
-                    self.max_len_in_batch,
+                    kv_starts[:-1],
+                    self.max_kv_seq_len,
                     kv_indices,
                 )
                 self.prefill_wrapper = flashinfer.prefill.BatchPrefillWithPagedKVCacheWrapper(

Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,7 @@ def init_some_extra_state(self, model, input_ids: torch.Tensor):`
`38`	`38`	`self.b_req_idx,`
`39`	`39`	`self.b_seq_len,`
`40`	`40`	`self.b_start_loc,`
`41`		`- self.max_len_in_batch,`
	`41`	`+ self.max_kv_seq_len,`
`42`	`42`	`self.kv_indices,`
`43`	`43`	`)`
`44`	`44`	`if self.decode_wrapper is None:`