fix

hiworldwzj · hiworldwzj · commit b22f77a7faa0 · 2025-07-11T09:17:19.000Z
diff --git a/lightllm/server/router/model_infer/mode_backend/base_backend.py b/lightllm/server/router/model_infer/mode_backend/base_backend.py
@@ -398,31 +398,6 @@ def _post_handle(
         )
         return
 
-    # 一些可以复用的通用功能函数
-    def _overlap_req_init_and_filter(
-        self, uninit_reqs: List[InferReq], ok_finished_reqs: List[InferReq], clear_list=False
-    ):
-        if uninit_reqs or ok_finished_reqs:
-            # 利用推理的时间，延迟折叠下一个请求的初始化和退出操作
-            with torch.cuda.stream(g_infer_context.get_overlap_stream()):
-                if ok_finished_reqs:
-                    g_infer_state_lock.acquire()
-                    g_infer_context.filter_reqs(ok_finished_reqs)
-                    g_infer_state_lock.release()
-
-                if uninit_reqs:
-                    g_infer_state_lock.acquire()
-                    self._post_init_reqs(uninit_reqs)
-                    g_infer_state_lock.release()
-
-            torch.cuda.current_stream().wait_stream(g_infer_context.get_overlap_stream())
-
-            if clear_list:
-                uninit_reqs.clear()
-                ok_finished_reqs.clear()
-
-        return
-
     # 一些可以复用的通用功能函数
     def _filter_reqs(self, reqs: List[InferReq]):
         if reqs:
diff --git a/lightllm/server/router/model_infer/mode_backend/chunked_prefill/impl.py b/lightllm/server/router/model_infer/mode_backend/chunked_prefill/impl.py
@@ -86,7 +86,7 @@ def normal_decode(
 
         # 第二阶段
         event_pack.notify_post_handle_and_wait_pre_post_handle()
-        update_packs = self._pre_post_handle(run_reqs, is_chuncked_mode=not self.disable_chunked_prefill)
+        update_packs = self._pre_post_handle(run_reqs, is_chuncked_mode=False)
 
         # 第三阶段
         event_pack.notify_forward_and_wait_post_handle()