fix cudagraph

sufubao · sufubao · commit 68e1cee3dc1c · 2025-12-11T04:11:54.000Z
diff --git a/lightllm/models/qwen3next/mem_manager.py b/lightllm/models/qwen3next/mem_manager.py
@@ -68,6 +68,7 @@ def __init__(
         self.ssm_state_shape = ssm_state_shape
 
         assert linear_attn_cache_size is not None
+        self.HOLD_BUFFER_INDEX = linear_attn_cache_size
         self.conv_state_mem_manager = LayerCacheMemoryManager(
             linear_attn_cache_size, conv_state_dtype, conv_state_shape, self.linear_attn_layer_num, "conv_state"
         )
diff --git a/lightllm/models/qwen3next/req_manager.py b/lightllm/models/qwen3next/req_manager.py
@@ -11,7 +11,8 @@ def __init__(self, max_request_num, max_sequence_length, mem_manager: Qwen3NextM
         super().__init__(max_request_num, max_sequence_length, mem_manager)
         self.EMPTY_BUFFER_INDEX = -1
         self.req_to_buffer_indexes = torch.zeros((self.max_request_num + 1), dtype=torch.int32, device="cuda")
-        self.req_to_buffer_indexes[:] = self.EMPTY_BUFFER_INDEX
+        self.req_to_buffer_indexes[:-1] = self.EMPTY_BUFFER_INDEX
+        self.req_to_buffer_indexes[-1] = self.mem_manager.HOLD_BUFFER_INDEX
 
     @override
     def free(self, free_req_indexes: List[int], free_token_index):
@@ -20,7 +21,7 @@ def free(self, free_req_indexes: List[int], free_token_index):
 
     @override
     def free_all(self):
-        self.req_to_buffer_indexes[:] = self.EMPTY_BUFFER_INDEX
+        self.req_to_buffer_indexes[:-1] = self.EMPTY_BUFFER_INDEX
         super().free_all()
         return
 

Original file line number	Diff line number	Diff line change
`@@ -68,6 +68,7 @@ def __init__(`
`68`	`68`	`self.ssm_state_shape = ssm_state_shape`
`69`	`69`
`70`	`70`	`assert linear_attn_cache_size is not None`
	`71`	`+ self.HOLD_BUFFER_INDEX = linear_attn_cache_size`
`71`	`72`	`self.conv_state_mem_manager = LayerCacheMemoryManager(`
`72`	`73`	`linear_attn_cache_size, conv_state_dtype, conv_state_shape, self.linear_attn_layer_num, "conv_state"`
`73`	`74`	`)`