Merge branch 'dp_balancer' of https://github.com/ModelTC/lightllm into dp_balancer

root · root · commit 2f62a866968e · 2025-08-25T13:55:38.000+08:00
diff --git a/lightllm/server/api_cli.py b/lightllm/server/api_cli.py
@@ -119,7 +119,7 @@ def make_argument_parser() -> argparse.ArgumentParser:
         help="tool call parser type",
     )
     parser.add_argument(
-        "--running_max_req_size", type=int, default=2048, help="the max size for forward requests in the same time"
+        "--running_max_req_size", type=int, default=1000, help="the max size for forward requests in the same time"
     )
     parser.add_argument("--nnodes", type=int, default=1, help="the number of nodes")
     parser.add_argument("--node_rank", type=int, default=0, help="the rank of the current node")
diff --git a/lightllm/server/router/model_infer/mode_backend/base_backend.py b/lightllm/server/router/model_infer/mode_backend/base_backend.py
@@ -446,11 +446,9 @@ def _get_classed_reqs(
             else:
                 token_num = req_obj.prefill_need_token_num(is_chuncked_prefill=not self.disable_chunked_prefill)
                 if prefill_tokens + token_num > self.batch_max_tokens:
-                    # 跳过等下次prefill，避免oom
-                    prefill_tokens = 0
-                    break
-                prefill_tokens += token_num
+                    continue
                 if token_num <= can_alloc_token_num:
+                    prefill_tokens += token_num
                     prefill_reqs.append(req_obj)
                     can_alloc_token_num -= token_num
                 else:
diff --git a/lightllm/server/router/req_queue/chunked_prefill/impl.py b/lightllm/server/router/req_queue/chunked_prefill/impl.py
@@ -69,7 +69,6 @@ def generate_new_batch(self, current_batch: Batch):
         new_batch_first_router_need_tokens = (
             0 if current_batch is None else current_batch.get_batch_decode_need_tokens()[self.dp_index]
         )
-        print(f"new_batch_first_router_need_tokens: {new_batch_first_router_need_tokens}")
 
         self._init_cache_list(current_batch, is_busy)
         can_run_list = []

Original file line number	Diff line number	Diff line change
`@@ -119,7 +119,7 @@ def make_argument_parser() -> argparse.ArgumentParser:`
`119`	`119`	`help="tool call parser type",`
`120`	`120`	`)`
`121`	`121`	`parser.add_argument(`
`122`		`- "--running_max_req_size", type=int, default=2048, help="the max size for forward requests in the same time"`
	`122`	`+ "--running_max_req_size", type=int, default=1000, help="the max size for forward requests in the same time"`
`123`	`123`	`)`
`124`	`124`	`parser.add_argument("--nnodes", type=int, default=1, help="the number of nodes")`
`125`	`125`	`parser.add_argument("--node_rank", type=int, default=0, help="the rank of the current node")`
Original file line number	Diff line number	Diff line change
`@@ -69,7 +69,6 @@ def generate_new_batch(self, current_batch: Batch):`
`69`	`69`	`new_batch_first_router_need_tokens = (`
`70`	`70`	`0 if current_batch is None else current_batch.get_batch_decode_need_tokens()[self.dp_index]`
`71`	`71`	`)`
`72`		`- print(f"new_batch_first_router_need_tokens: {new_batch_first_router_need_tokens}")`
`73`	`72`
`74`	`73`	`self._init_cache_list(current_batch, is_busy)`
`75`	`74`	`can_run_list = []`