fix

liujiacheng · liujiacheng · commit 4cc6d08d9283 · 2025-08-11T06:43:10.000Z
diff --git a/lightllm/server/api_start.py b/lightllm/server/api_start.py
@@ -217,7 +217,7 @@ def normal_or_p_d_start(args):
 
     node_world_size = args.tp // args.nnodes
     can_use_ports = alloc_can_use_network_port(
-        num=7 + node_world_size + args.visual_dp * args.visual_tp, used_nccl_ports=already_uesd_ports
+        num=8 + node_world_size + args.visual_dp * args.visual_tp, used_nccl_ports=already_uesd_ports
     )
     logger.info(f"alloced ports: {can_use_ports}")
     (
@@ -228,8 +228,9 @@ def normal_or_p_d_start(args):
         audio_port,
         cache_port,
         metric_port,
-    ) = can_use_ports[0:7]
-    can_use_ports = can_use_ports[7:]
+        multi_level_kv_cache_port,
+    ) = can_use_ports[0:8]
+    can_use_ports = can_use_ports[8:]
 
     visual_model_tp_ports = []
     for _ in range(args.visual_dp):
@@ -245,6 +246,7 @@ def normal_or_p_d_start(args):
     args.audio_port = audio_port
     args.cache_port = cache_port
     args.metric_port = metric_port
+    args.multi_level_kv_cache_port = multi_level_kv_cache_port
 
     # 申请在 p d 分离模式下，会用的端口
     args.pd_node_infer_rpyc_ports = can_use_ports[0:node_world_size]
diff --git a/lightllm/server/audioserver/manager.py b/lightllm/server/audioserver/manager.py
@@ -26,8 +26,13 @@ def __init__(
         infer_batch_size=4,
     ):
         context = zmq.asyncio.Context(2)
-        self.send_to_router = context.socket(zmq.PUSH)
-        self.send_to_router.connect(f"{args.zmq_mode}127.0.0.1:{args.router_port}")
+
+        if args.enable_cpu_cache:
+            self.send_to_next_module = context.socket(zmq.PUSH)
+            self.send_to_next_module.connect(f"{args.zmq_mode}127.0.0.1:{args.multi_level_kv_cache_port}")
+        else:
+            self.send_to_next_module = context.socket(zmq.PUSH)
+            self.send_to_next_module.connect(f"{args.zmq_mode}127.0.0.1:{args.router_port}")
 
         self.zmq_recv_socket = context.socket(zmq.PULL)
         self.zmq_recv_socket.bind(f"{args.zmq_mode}127.0.0.1:{args.audio_port}")
@@ -87,7 +92,7 @@ async def loop_for_fwd(self):
                         # 因为连接断开 aborted 掉的请求也需要传输到后续的模块进行处理
                         # 因为采用 shm 来映射所有的 req 对象以后，引用管理情况复杂了
                         # 需要一些一致的流程来保证不出现异步问题。
-                        self.send_to_router.send_pyobj(group_req_indexes, protocol=pickle.HIGHEST_PROTOCOL)
+                        self.send_to_next_module.send_pyobj(group_req_indexes, protocol=pickle.HIGHEST_PROTOCOL)
                         continue
 
                     multimodal_params = group_req_indexes.multimodal_params
@@ -103,18 +108,20 @@ async def loop_for_fwd(self):
                             await self.infer_audios(audios_need_infer)
                             audios_need_infer = []
                             for _group_req_indexes in processing_group_reqs:
-                                self.send_to_router.send_pyobj(_group_req_indexes, protocol=pickle.HIGHEST_PROTOCOL)
+                                self.send_to_next_module.send_pyobj(
+                                    _group_req_indexes, protocol=pickle.HIGHEST_PROTOCOL
+                                )
                             processing_group_reqs = []
 
                     if len(audios_need_infer) == 0:
-                        self.send_to_router.send_pyobj(group_req_indexes, protocol=pickle.HIGHEST_PROTOCOL)
+                        self.send_to_next_module.send_pyobj(group_req_indexes, protocol=pickle.HIGHEST_PROTOCOL)
                     else:
                         processing_group_reqs.append(group_req_indexes)
 
                 if len(audios_need_infer) > 0:
                     await self.infer_audios(audios_need_infer)
                     for _group_req_indexes in processing_group_reqs:
-                        self.send_to_router.send_pyobj(_group_req_indexes, protocol=pickle.HIGHEST_PROTOCOL)
+                        self.send_to_next_module.send_pyobj(_group_req_indexes, protocol=pickle.HIGHEST_PROTOCOL)
                     processing_group_reqs = []
                     audios_need_infer = []
 
diff --git a/lightllm/server/core/objs/start_args_type.py b/lightllm/server/core/objs/start_args_type.py
@@ -110,6 +110,7 @@ class StartArgs:
     cache_port: int = field(default=None)
     metric_port: int = field(default=None)
     multinode_httpmanager_port: int = field(default=12345)
+    multi_level_kv_cache_port: int = field(default=None)
     # multi_modal
     enable_multimodal: bool = field(default=False)
     enable_multimodal_audio: bool = field(default=False)
diff --git a/lightllm/server/httpserver/manager.py b/lightllm/server/httpserver/manager.py
@@ -79,6 +79,9 @@ def __init__(
             self.cache_client = rpyc.connect("localhost", args.cache_port, config={"allow_pickle": True})
             self.send_to_visual = context.socket(zmq.PUSH)
             self.send_to_visual.connect(f"{args.zmq_mode}127.0.0.1:{args.visual_port}")
+        if args.enable_cpu_cache and not self.args.enable_multimodal:
+            self.send_to_multi_level_kv_cache = context.socket(zmq.PUSH)
+            self.send_to_multi_level_kv_cache.connect(f"{args.zmq_mode}127.0.0.1:{args.multi_level_kv_cache_port}")
 
         self.shm_req_manager = ShmReqManager()
 
@@ -432,38 +435,33 @@ async def transfer_to_next_module(
         group_req_objs: Optional[GroupReqObjs] = None,
     ):
 
-        if self.pd_mode == NodeRole.P:
+        if self.pd_mode.is_P_or_NORMAL():
             if self.enable_multimodal:
                 self.send_to_visual.send_pyobj(
                     group_req_objs.to_group_req_index(),
                     protocol=pickle.HIGHEST_PROTOCOL,
                 )
-            else:
-                self.send_to_router.send_pyobj(
+                return
+
+            if self.args.enable_cpu_cache:
+                self.send_to_multi_level_kv_cache.send_pyobj(
                     group_req_objs.to_group_req_index(),
                     protocol=pickle.HIGHEST_PROTOCOL,
                 )
-            return
+                return
 
-        if self.pd_mode == NodeRole.D:
-            # 在 D 模式下，不需要传输真的多模态参数，因为其已经被 P 处理好了, 传输一个空的即可
             self.send_to_router.send_pyobj(
                 group_req_objs.to_group_req_index(),
                 protocol=pickle.HIGHEST_PROTOCOL,
             )
             return
 
-        if self.pd_mode == NodeRole.NORMAL:
-            if self.enable_multimodal:
-                self.send_to_visual.send_pyobj(
-                    group_req_objs.to_group_req_index(),
-                    protocol=pickle.HIGHEST_PROTOCOL,
-                )
-            else:
-                self.send_to_router.send_pyobj(
-                    group_req_objs.to_group_req_index(),
-                    protocol=pickle.HIGHEST_PROTOCOL,
-                )
+        if self.pd_mode == NodeRole.D:
+            # 在 D 模式下，不需要传输真的多模态参数，因为其已经被 P 处理好了
+            self.send_to_router.send_pyobj(
+                group_req_objs.to_group_req_index(),
+                protocol=pickle.HIGHEST_PROTOCOL,
+            )
             return
 
         assert False, "dead code path"
diff --git a/lightllm/server/multi_level_kv_cache/manager.py b/lightllm/server/multi_level_kv_cache/manager.py
@@ -1,5 +1,6 @@
 import uvloop
 import asyncio
+import collections
 
 asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
 import zmq
@@ -8,7 +9,7 @@
 import time
 import threading
 import concurrent.futures
-from typing import List
+from typing import List, Deque
 from lightllm.server.core.objs import ShmReqManager, Req, StartArgs
 from lightllm.server.core.objs.io_objs import GroupReqIndexes
 from lightllm.utils.graceful_utils import graceful_registry
@@ -21,18 +22,16 @@
 class MultiLevelKVCacheManager:
     def __init__(
         self,
-        args,
-        detokenization_port,
-        router_port,
+        args: StartArgs,
     ):
         self.args: StartArgs = args
         context = zmq.Context(2)
-        self.recv_from_pre_module = context.socket(zmq.PULL)
-        self.recv_from_pre_module.bind(f"{args.zmq_mode}127.0.0.1:{detokenization_port}")
+        self.zmq_recv_socket = context.socket(zmq.PULL)
+        self.zmq_recv_socket.bind(f"{args.zmq_mode}127.0.0.1:{args.multi_level_kv_cache_port}")
 
         self.send_to_router = context.socket(zmq.PUSH)
-        self.send_to_router.bind(f"{args.zmq_mode}127.0.0.1:{router_port}")
-        logger.info(f"pub_to_httpserver sendhwm {self.send_to_router.getsockopt(zmq.SNDHWM)}")
+        self.send_to_router.bind(f"{args.zmq_mode}127.0.0.1:{args.router_port}")
+        logger.info(f"send_to_router sendhwm {self.send_to_router.getsockopt(zmq.SNDHWM)}")
         self.cpu_cache_client = CpuKvCacheClient(init_shm_data=True)
         self.shm_req_manager = ShmReqManager()
         # 控制同时进行cpu cache 匹配操作的数量。
@@ -42,7 +41,7 @@ def __init__(
         self.cpu_cache_time_out = 0.3
         # lock 用于控制对 recv_queue 和 transfer_queue 的访问。
         self.queue_lock = threading.Lock()
-        self.recv_queue: List[GroupReqIndexes] = []
+        self.recv_queue: Deque[GroupReqIndexes] = collections.deque()
         self.transfer_queue: List[GroupReqIndexes] = []
         self.transfer_thread = threading.Thread(target=self.transfer_loop, daemon=True)
         self.transfer_thread.start()
@@ -58,8 +57,7 @@ def cpu_cache_hanle_loop(self):
                     continue
 
                 with self.queue_lock:
-                    current_group_req = self.recv_queue[0]
-                    self.recv_queue = self.recv_queue[1:]
+                    current_group_req = self.recv_queue.popleft()
 
                 self.executor.submit(self._handle_group_req_cpu_cache_match, current_group_req, time.time())
             except BaseException as e:
@@ -146,7 +144,7 @@ def recv_loop(self):
                 try:
                     # 一次最多从 zmq 中取 recv_max_count 个请求，防止 zmq 队列中请求数量过多导致阻塞了主循环。
                     for _ in range(recv_max_count):
-                        recv_obj: GroupReqIndexes = self.recv_from_pre_module.recv_pyobj(zmq.NOBLOCK)
+                        recv_obj: GroupReqIndexes = self.zmq_recv_socket.recv_pyobj(zmq.NOBLOCK)
                         assert isinstance(recv_obj, GroupReqIndexes)
                         recv_objs.append(recv_obj)
 
@@ -166,15 +164,13 @@ def recv_loop(self):
         return
 
 
-def start_detokenization_process(args, detokenization_port, router_port, pipe_writer):
+def start_multi_level_kv_cache_manager(args, pipe_writer):
     # 注册graceful 退出的处理
     graceful_registry(inspect.currentframe().f_code.co_name)
 
     try:
         manager = MultiLevelKVCacheManager(
             args=args,
-            detokenization_port=detokenization_port,
-            router_port=router_port,
         )
     except Exception as e:
         pipe_writer.send(str(e))
diff --git a/lightllm/server/visualserver/manager.py b/lightllm/server/visualserver/manager.py
@@ -28,12 +28,17 @@ def __init__(
         visual_model_rpc_ports,
     ):
         context = zmq.Context(2)
+
         if args.enable_multimodal_audio:
-            self.send_to_next_module = context.socket(zmq.PUSH)  # router or audio server (if --enable_multimodal_audio)
+            self.send_to_next_module = context.socket(zmq.PUSH)
             self.send_to_next_module.connect(f"{args.zmq_mode}127.0.0.1:{args.audio_port}")
         else:
-            self.send_to_next_module = context.socket(zmq.PUSH)  # router or audio server (if --enable_multimodal_audio)
-            self.send_to_next_module.connect(f"{args.zmq_mode}127.0.0.1:{args.router_port}")
+            if args.enable_cpu_cache:
+                self.send_to_next_module = context.socket(zmq.PUSH)
+                self.send_to_next_module.connect(f"{args.zmq_mode}127.0.0.1:{args.multi_level_kv_cache_port}")
+            else:
+                self.send_to_next_module = context.socket(zmq.PUSH)
+                self.send_to_next_module.connect(f"{args.zmq_mode}127.0.0.1:{args.router_port}")
 
         self.zmq_recv_socket = context.socket(zmq.PULL)
         self.zmq_recv_socket.bind(f"{args.zmq_mode}127.0.0.1:{args.visual_port}")