Fix repeatedly update_defs, disable -> enable

WANDY666 · WANDY666 · commit 5e7f2d9d4b32 · 2025-11-06T06:32:44.000Z
diff --git a/lightllm/server/api_cli.py b/lightllm/server/api_cli.py
@@ -538,9 +538,9 @@ def make_argument_parser() -> argparse.ArgumentParser:
         "--disk_cache_storage_size", type=float, default=10, help="""The capacity of disk cache. GB used."""
     )
     parser.add_argument(
-        "--disable_dp_prompt_cache_fetch",
+        "--enable_dp_prompt_cache_fetch",
         action="store_true",
         default=False,
-        help="""Disable prefix prompt cache fetch for data parallel inference, enabled by default.""",
+        help="""Enable prefix prompt cache fetch for data parallel inference, disabled by default.""",
     )
     return parser
diff --git a/lightllm/server/api_start.py b/lightllm/server/api_start.py
@@ -270,11 +270,11 @@ def normal_or_p_d_start(args):
 
     send_and_receive_node_ip(args)  # 多机用于收发node ip
     # PD 分离模式下必须禁用 DP prompt cache fetch，且 dp 必须 > 1
-    if not args.disable_dp_prompt_cache_fetch and args.dp <= 1:
-        args.disable_dp_prompt_cache_fetch = True
+    if args.enable_dp_prompt_cache_fetch and args.dp <= 1:
+        args.enable_dp_prompt_cache_fetch = False
         logger.warning(
             """dp <= 1 does not support dp_prompt_cache_fetch;
-            overriding disable_dp_prompt_cache_fetch to True"""
+            overriding enable_dp_prompt_cache_fetch to False"""
         )
 
     set_env_start_args(args)
diff --git a/lightllm/server/core/objs/start_args_type.py b/lightllm/server/core/objs/start_args_type.py
@@ -111,7 +111,7 @@ class StartArgs:
     cpu_cache_token_page_size: int = field(default=64)
     enable_disk_cache: bool = field(default=False)
     disk_cache_storage_size: float = field(default=10)
-    disable_dp_prompt_cache_fetch: bool = field(default=False)
+    enable_dp_prompt_cache_fetch: bool = field(default=False)
     # zmp ports
     router_port: int = field(default=None)
     detokenization_port: int = field(default=None)
diff --git a/lightllm/server/router/model_infer/mode_backend/dp_backend/impl.py b/lightllm/server/router/model_infer/mode_backend/dp_backend/impl.py
@@ -38,7 +38,7 @@ def __init__(self, mem_queue: mp.Queue, mem_queues: List[mp.Queue] = None) -> No
 
         # 用于控制每一步是执行prefill 和 decode 还是跳过
         self.control_state_machine = DPControlState(backend=self)
-        self.disable_dp_prompt_cache_fetch = get_env_start_args().disable_dp_prompt_cache_fetch
+        self.enable_dp_prompt_cache_fetch = get_env_start_args().enable_dp_prompt_cache_fetch
         self.min_trans_token_num = min_trans_token_num
 
         # 在 mtp 模式下切换绑定的prefill 和 decode 函数
@@ -72,9 +72,6 @@ def __init__(self, mem_queue: mp.Queue, mem_queues: List[mp.Queue] = None) -> No
         return
 
     def init_custom(self):
-        self.enable_dp_prompt_cache_fetch = (
-            not self.disable_dp_prompt_cache_fetch and self.dp_size_in_node > 1 and self.mem_queues is not None
-        )
         if self.enable_dp_prompt_cache_fetch:
             torch.cuda.set_device(get_current_device_id())
 
@@ -116,7 +113,7 @@ def _match_radix_cache(self, shm_req):
         input_token_ids = shm_req.shm_prompt_ids.arr[0 : shm_req.input_len]
         key = torch.tensor(input_token_ids, dtype=torch.int64, device="cpu")
         key = key[0 : len(key) - 1]  # 最后一个不需要，因为需要一个额外的token，让其在prefill的时候输出下一个token的值
-        _, kv_len, value_tensor = g_infer_context.radix_cache.match_prefix(key, update_refs=True)
+        _, kv_len, value_tensor = g_infer_context.radix_cache.match_prefix(key, update_refs=False)
         return kv_len, value_tensor
 
     def _post_init_reqs(self, infer_reqs: List[InferReq], other_reqs: List[Tuple] = []):

Original file line number	Diff line number	Diff line change
`@@ -538,9 +538,9 @@ def make_argument_parser() -> argparse.ArgumentParser:`
`538`	`538`	`"--disk_cache_storage_size", type=float, default=10, help="""The capacity of disk cache. GB used."""`
`539`	`539`	`)`
`540`	`540`	`parser.add_argument(`
`541`		`- "--disable_dp_prompt_cache_fetch",`
	`541`	`+ "--enable_dp_prompt_cache_fetch",`
`542`	`542`	`action="store_true",`
`543`	`543`	`default=False,`
`544`		`- help="""Disable prefix prompt cache fetch for data parallel inference, enabled by default.""",`
	`544`	`+ help="""Enable prefix prompt cache fetch for data parallel inference, disabled by default.""",`
`545`	`545`	`)`
`546`	`546`	`return parser`