ModelTC
diff --git a/‎lightllm/server/core/objs/req.py‎
Lines changed: 3 additions & 5 deletions b/‎lightllm/server/core/objs/req.py‎
Lines changed: 3 additions & 5 deletions
diff --git a/‎lightllm/server/router/model_infer/mode_backend/__init__.py‎
Lines changed: 0 additions & 1 deletion b/‎lightllm/server/router/model_infer/mode_backend/__init__.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎lightllm/server/router/model_infer/mode_backend/chunked_prefill/impl.py‎
Lines changed: 1 addition & 1 deletion b/‎lightllm/server/router/model_infer/mode_backend/chunked_prefill/impl.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lightllm/server/router/model_infer/mode_backend/splitfuse/__init__.py‎ b/‎lightllm/server/router/model_infer/mode_backend/splitfuse/__init__.py‎
diff --git a/‎lightllm/server/router/model_infer/mode_backend/splitfuse/impl.py‎
Lines changed: 0 additions & 93 deletions b/‎lightllm/server/router/model_infer/mode_backend/splitfuse/impl.py‎
Lines changed: 0 additions & 93 deletions
diff --git a/‎lightllm/server/router/model_infer/mode_backend/splitfuse/pre_process.py‎
Lines changed: 0 additions & 83 deletions b/‎lightllm/server/router/model_infer/mode_backend/splitfuse/pre_process.py‎
Lines changed: 0 additions & 83 deletions
diff --git a/‎lightllm/server/router/model_infer/model_rpc.py‎
Lines changed: 0 additions & 4 deletions b/‎lightllm/server/router/model_infer/model_rpc.py‎
Lines changed: 0 additions & 4 deletions
@@ -287,11 +287,9 @@ def post_init(
 class ChunkedPrefillReq(Req):
     _pack_ = 4
 
-    def post_init(self):
-        args = get_env_start_args()
-        self.max_waiting_token = args.router_max_wait_tokens
-
     def get_tuple_tokens(self, is_busy, router_max_new_token_len):
+        args = get_env_start_args()
+        max_waiting_token = args.router_max_wait_tokens
         has_out_len = self.shm_cur_output_len
         if self.sample_params.ignore_eos:
             cur_max_new_token_len = self.sample_params.max_new_tokens
@@ -306,7 +304,7 @@ def get_tuple_tokens(self, is_busy, router_max_new_token_len):
         b_len = (
             (self.input_len + has_out_len - self.shm_cur_kv_len + self.chunked_prefill_size - 1)
             // self.chunked_prefill_size
-            * (self.max_waiting_token + 1)
+            * (max_waiting_token + 1)
             + cur_max_new_token_len
             - has_out_len
             - 1
 
@@ -2,7 +2,6 @@
 from .continues_batch.impl_for_return_all_prompt_logprobs import ReturnPromptLogProbBackend
 from .continues_batch.impl_for_reward_model import RewardModelBackend
 from .chunked_prefill.impl import ChunkedPrefillBackend
-from .splitfuse.impl import SplitFuseBackend
 from .diverse_backend.impl import DiversehBackend
 from .continues_batch.impl_for_token_healing import TokenHealingBackend
 from .continues_batch.impl_for_simple_constraint_mode import SimpleConstraintBackend
 
@@ -54,7 +54,7 @@ def post_handel(self, run_reqs: List[InferReq], next_token_ids, next_token_logpr
 
             req_obj.cur_kv_len = len(req_obj.get_chuncked_input_token_ids())
             if req_obj.cur_kv_len < req_obj.get_cur_total_len():
-                return
+                continue
 
             req_obj.set_next_gen_token_id(next_token_id, next_token_logprob)
             req_obj.cur_output_len += 1
 
@@ -9,7 +9,6 @@
 from lightllm.server.router.model_infer.mode_backend import (
     ContinuesBatchBackend,
     ReturnPromptLogProbBackend,
-    SplitFuseBackend,
     ChunkedPrefillBackend,
     DiversehBackend,
     RewardModelBackend,
@@ -100,7 +99,6 @@ def init_model(self, kvargs):
         # 填充真正的 rank_id 参数
         kvargs["rank_id"] = self.tp_rank
         self.world_size = kvargs["world_size"]
-        is_splitfuse_mode = kvargs.get("is_splitfuse_mode", False)
         enable_chunked_prefill = kvargs.get("enable_chunked_prefill", False)
         return_all_prompt_logprobs = kvargs.get("return_all_prompt_logprobs", False)
         use_reward_model = kvargs.get("use_reward_model", False)
@@ -124,8 +122,6 @@ def init_model(self, kvargs):
             self.backend = ChunkedPrefillBackend()
         elif use_reward_model:
             self.backend = RewardModelBackend()
-        elif is_splitfuse_mode:
-            self.backend = SplitFuseBackend()
         elif return_all_prompt_logprobs:
             self.backend = ReturnPromptLogProbBackend()
         elif diverse_mode: