support dp for pd_nixl

Weichao Luo · Weichao Luo · commit 2c06cf4abe75 · 2025-04-24T16:46:48.000+08:00
diff --git a/lightllm/server/pd_io_struct.py b/lightllm/server/pd_io_struct.py
@@ -127,6 +127,14 @@ class RemotePrefillServerInfo:
     prefill_server_ip: str
     prefill_server_port: int
 
+@dataclass
+class DistInfo:
+    world_size: int
+    nnodes: int
+    dp_size: int
+    dp_world_size: int
+    dp_size_in_node: int
+    node_world_size: int
 
 @dataclass
 class PDTransLeaveInfo:
diff --git a/lightllm/server/router/manager.py b/lightllm/server/router/manager.py
@@ -34,6 +34,7 @@
 from lightllm.utils.graceful_utils import graceful_registry
 from lightllm.utils.process_check import start_parent_check_thread
 from lightllm.utils.envs_utils import get_unique_server_name
+from lightllm.server.pd_io_struct import DistInfo
 
 logger = init_logger(__name__)
 
@@ -49,6 +50,7 @@ def __init__(self, args, router_port, detokenization_port, metric_port):
         self.dp_size = args.dp
         # 兼容多机纯tp的运行模式，这时候 1 // 2 == 0, 需要兼容
         self.dp_size_in_node = max(1, args.dp // self.nnodes)
+        self.dp_world_size = self.world_size // self.dp_size
         self.is_multinode_tp = args.nnodes > 1 and args.dp == 1
         self.is_multinode_and_multidp = args.nnodes > 1 and args.dp > 1
         # 判断是否是保守调度，保守调度不会发生暂停 req 的情况，但是有些场景可能影响吞吐
@@ -116,9 +118,9 @@ async def wait_to_model_ready(self):
         # 用于 kv move 管理进程 和 推理进程进行task信息的交互。
         self.info_queue: mp.Queue = mp.Queue()
         self.mem_queues: List[torch.multiprocessing.Queue] = [
-            torch.multiprocessing.Queue() for _ in range(self.world_size)
+            torch.multiprocessing.Queue() for _ in range(self.node_world_size)
         ]
-        self.result_queues: List[mp.Queue] = [mp.Queue() for _ in range(self.world_size)]
+        self.result_queues: List[mp.Queue] = [mp.Queue() for _ in range(self.node_world_size)]
         self.rpc_event = multiprocessing.Event()
         self.rpc_finished_event = multiprocessing.Event()
 
@@ -134,8 +136,8 @@ async def wait_to_model_ready(self):
                 rpc_event=self.rpc_event,
                 rpc_finished_event=self.rpc_finished_event,
                 info_queue=self.info_queue,
-                result_queue=self.result_queues[rank_id],
-                mem_queue=self.mem_queues[rank_id],
+                result_queue=self.result_queues[rank_id % node_world_size],
+                mem_queue=self.mem_queues[rank_id % node_world_size],
                 router_lock=self.router_lock,
             )
             self.model_rpc_servers.append(rpc_model)
@@ -190,7 +192,7 @@ async def wait_to_model_ready(self):
                 get_unique_server_name(),
                 self.max_total_token_num,
                 node_world_size=self.node_world_size,
-                dp_world_size=self.world_size // self.dp_size,
+                dp_world_size=self.dp_world_size,
             )
         self.req_queue = build_req_queue(self.args, self, self.dp_size_in_node)
         logger.info(f"use req queue {self.req_queue.__class__.__name__}")
@@ -208,8 +210,12 @@ async def wait_to_model_ready(self):
                 start_pd_remote_prefill_server_process,
             )
 
+            dist_info = DistInfo(self.world_size, self.nnodes, self.dp_size,
+                                 self.dp_world_size, self.dp_size_in_node, self.node_world_size)
+
             start_pd_remote_prefill_server_process(
                 self.args.pd_node_id,
+                dist_info = dist_info,
                 http_server_port=self.args.pd_remote_prefill_http_port,
                 server_port=self.args.pd_remote_prefill_port,
                 from_backend_queue=self.info_queue,
@@ -229,9 +235,12 @@ async def wait_to_model_ready(self):
             from lightllm.server.router.model_infer.mode_backend.pd_nixl.pd_remote_prefill import (
                 start_pd_remote_prefill_client_process,
             )
+            dist_info = DistInfo(self.world_size, self.nnodes, self.dp_size,
+                                 self.dp_world_size, self.dp_size_in_node, self.node_world_size)
 
             start_pd_remote_prefill_client_process(
                 self.args.pd_node_id,
+                dist_info,
                 from_backend_queue=self.info_queue,
                 to_backend_queues=self.result_queues,
                 agent_meta_queues=self.mem_queues,
@@ -246,7 +255,7 @@ def add_req(self, group_req_indexes: GroupReqIndexes):
             req.multimodal_params = group_req_indexes.multimodal_params
             req.start_time = group_req_indexes.time_mark
             if isinstance(req, PDChunkedPrefillReq):
-                req.dp_world_size = self.world_size
+                req.dp_world_size = self.dp_world_size
             req_group.append(req)
 
             logger.info(f"router recive req id {req.request_id} cost time {time.time() - req.start_time} s")
diff --git a/lightllm/server/router/model_infer/mode_backend/__init__.py b/lightllm/server/router/model_infer/mode_backend/__init__.py
@@ -14,3 +14,5 @@
 from .continues_batch.pd_mode.decode_node_impl.decode_impl_for_dp import DPForDecodeNode
 from .pd_nixl.impl_for_pd_prefill import PDNIXLBackendForPrefillNode
 from .pd_nixl.impl_for_pd_decode import PDNIXLBackendForDecodeNode
+from .pd_nixl.impl_for_pd_decode_dp import PDNIXLDPBackendForDecodeNode
+from .pd_nixl.impl_for_pd_prefill_dp import PDNIXLDPBackendForPrefillNode
diff --git a/lightllm/server/router/model_infer/mode_backend/pd_nixl/impl_for_pd_base.py b/lightllm/server/router/model_infer/mode_backend/pd_nixl/impl_for_pd_base.py
@@ -41,7 +41,7 @@ def __init__(self, to_remote_queue: mp.Queue, from_remote_queue: mp.Queue, nixl_
         self.inflght_transfer_requests: ThreadSafeDict = ThreadSafeDict()
 
     def init_custom(self):
-        self.nixl_agent = NixlKVTransporter(self.args.pd_node_id, self.tp_rank)
+        self.nixl_agent = NixlKVTransporter(self.args.pd_node_id, self.rank_in_node)
         self.nixl_agent.register_kv_buffer(self.model.mem_manager.kv_buffer)
         self.nixl_meta_queue.put(
             (self.nixl_agent.agent_metadata, self.nixl_agent.num_tokens, self.nixl_agent.local_mem_desc)
@@ -243,11 +243,11 @@ def _prepare_remote_prefill_inputs(self, req_objs: List[InferReq]):
         nopad_b_start_loc.append(start_loc)  # last request
 
         input_ids = np.concatenate(input_ids, dtype=np.int64)
-        # g_infer_state_lock.acquire() # I don't think it's needed
+
         if g_infer_context.radix_cache is not None:
             g_infer_context.radix_cache.free_radix_cache_to_get_enough_token(input_ids.shape[0])
         mem_indexes = g_infer_context.req_manager.mem_manager.alloc(input_ids.shape[0])
-        # g_infer_state_lock.release()
+
         kwargs = {
             "batch_size": len(run_reqs),
             "input_ids": input_ids,
diff --git a/lightllm/server/router/model_infer/mode_backend/pd_nixl/impl_for_pd_decode.py b/lightllm/server/router/model_infer/mode_backend/pd_nixl/impl_for_pd_decode.py
@@ -81,7 +81,6 @@ def decode(self):
                 self.remote_prefilled_reqs[shm_req.group_req_id] = run_req
 
         if decode_reqs:
-            # print(f"decode req: {self.rank_in_dp}: {len(decode_reqs)}")
             kwargs, run_reqs = prepare_decode_inputs(decode_reqs)
             logits = self.model.forward(**kwargs)
 
diff --git a/lightllm/server/router/model_infer/mode_backend/pd_nixl/impl_for_pd_decode_dp.py b/lightllm/server/router/model_infer/mode_backend/pd_nixl/impl_for_pd_decode_dp.py
@@ -0,0 +1,121 @@
+import time
+import torch
+import torch.multiprocessing as mp
+import torch.distributed as dist
+from typing import List
+from lightllm.server.router.model_infer.infer_batch import g_infer_context, InferReq
+from lightllm.server.core.objs.req import PDChunkedPrefillReq
+from lightllm.utils.log_utils import init_logger
+from lightllm.server.router.model_infer.mode_backend.generic_post_process import sample
+from lightllm.utils.envs_utils import get_env_start_args
+from lightllm.server.router.model_infer.mode_backend.dp_backend.pre_process import padded_prepare_decode_inputs
+
+from .impl_for_pd_decode import PDNIXLBackendForDecodeNode
+
+logger = init_logger(__name__)
+
+
+class PDNIXLDPBackendForDecodeNode(PDNIXLBackendForDecodeNode):
+    def __init__(self, prefill_task_queue: mp.Queue, prefill_done_queue: mp.Queue, nix_meta_queue: mp.Queue) -> None:
+        super().__init__(prefill_task_queue, prefill_done_queue, nix_meta_queue)
+        self.enable_decode_microbatch_overlap = get_env_start_args().enable_decode_microbatch_overlap
+
+    def init_custom(self):
+        super().init_custom()
+
+        self.reduce_tensor = torch.tensor([0], dtype=torch.int32, device="cuda", requires_grad=False)
+        from lightllm.server.router.model_infer.mode_backend.dp_backend.pre_process import padded_prepare_prefill_inputs
+        kwargs, run_reqs, padded_req_num = padded_prepare_prefill_inputs([], 1, is_multimodal=self.is_multimodal)
+        self.model.forward(**kwargs)
+        assert len(run_reqs) == 0 and padded_req_num == 1
+
+        return
+
+    def decode(self):
+
+        uninit_reqs, aborted_reqs, ok_finished_reqs, prefill_reqs, decode_reqs = self._get_classed_reqs(
+            g_infer_context.infer_req_ids,
+            no_decode=False,
+        )
+        # filter out remote prefilling reqs
+        prefill_reqs, aborted_reqs, decode_reqs, _ = self._decode_filter_reqs(prefill_reqs, aborted_reqs, decode_reqs)
+
+        self._filter_reqs(aborted_reqs)
+
+        # allocate kv cache, do remote prefill
+        if prefill_reqs:
+            # TODO: we could allocate cache later after remote prefill done and get a signal from remote
+            #       but it will have a risk to not have enough cache for this request.
+            kwargs, run_reqs = self._prepare_remote_prefill_inputs(prefill_reqs)
+            for idx, run_req in enumerate(run_reqs):
+                run_req: InferReq = run_req
+                shm_req: PDChunkedPrefillReq = run_req.shm_req
+                # forward each req to remote prefill
+                # since the token index are the same across TPs, we only need to trigger prefill on master
+                if self.is_master_in_dp:
+                    run_req.remote_prefill_start = time.time()
+                    self.to_remote_queue.put(self._build_remote_prefill_task(idx, kwargs, run_req))
+
+                shm_req.set_pd_req_rank_state(self.rank_in_dp, 0)  # set in progress state
+                run_req.in_prefill_or_transfer = True
+                self.remote_prefilled_reqs[shm_req.group_req_id] = run_req
+
+        self.reduce_tensor.fill_(len(decode_reqs))
+        dist.all_reduce(self.reduce_tensor, op=dist.ReduceOp.MAX)
+        max_decode_num = self.reduce_tensor.item()
+        if max_decode_num != 0:
+            if not self.enable_decode_microbatch_overlap:
+                self.normal_decode(decode_reqs, max_decode_num, uninit_reqs, ok_finished_reqs)
+            else:
+                self.overlap_decode(decode_reqs, max_decode_num, uninit_reqs, ok_finished_reqs)
+        self._overlap_req_init_and_filter(uninit_reqs=uninit_reqs, ok_finished_reqs=ok_finished_reqs, clear_list=True)
+        return
+
+    def normal_decode(self, decode_reqs: List[InferReq], max_decode_num: int, uninit_reqs, ok_finished_reqs):
+
+        kwargs, run_reqs, padded_req_num = padded_prepare_decode_inputs(
+            decode_reqs, max_decode_num, is_multimodal=self.is_multimodal
+        )
+        logits = self.model.forward(**kwargs)
+        self._overlap_req_init_and_filter(uninit_reqs=uninit_reqs, ok_finished_reqs=ok_finished_reqs, clear_list=True)
+        if len(run_reqs) != 0:
+            logits = logits[0 : len(run_reqs), :]
+            next_token_ids, next_token_probs = sample(logits, run_reqs, self.eos_id)
+            next_token_ids = next_token_ids.detach().cpu().numpy()
+            next_token_logprobs = torch.log(next_token_probs).detach().cpu().numpy()
+            self._post_handle(
+                run_reqs, next_token_ids, next_token_logprobs, is_chuncked_mode=False, do_filter_finished_reqs=False
+            )
+        return
+
+    def overlap_decode(self, decode_reqs: List[InferReq], max_decode_num: int, uninit_reqs, ok_finished_reqs):
+        from lightllm.server.router.model_infer.mode_backend.dp_backend.pre_process import (
+            padded_overlap_prepare_decode_inputs,
+        )
+
+        (
+            micro_batch,
+            run_reqs,
+            padded_req_num,
+            micro_batch1,
+            run_reqs1,
+            padded_req_num1,
+        ) = padded_overlap_prepare_decode_inputs(decode_reqs, max_decode_num, is_multimodal=self.is_multimodal)
+
+        logits, logits1 = self.model.microbatch_overlap_decode(micro_batch, micro_batch1)
+        self._overlap_req_init_and_filter(uninit_reqs=uninit_reqs, ok_finished_reqs=ok_finished_reqs, clear_list=True)
+        req_num, req_num1 = len(run_reqs), len(run_reqs1)
+        all_logits = torch.empty((req_num + req_num1, logits.shape[1]), dtype=logits.dtype, device=logits.device)
+
+        all_logits[0:req_num, :].copy_(logits[0:req_num, :], non_blocking=True)
+        all_logits[req_num : (req_num + req_num1), :].copy_(logits1[0:req_num1, :], non_blocking=True)
+
+        all_run_reqs = run_reqs + run_reqs1
+        if all_run_reqs:
+            next_token_ids, next_token_probs = sample(all_logits, all_run_reqs, self.eos_id)
+            next_token_ids = next_token_ids.detach().cpu().numpy()
+            next_token_logprobs = torch.log(next_token_probs).detach().cpu().numpy()
+            self._post_handle(
+                all_run_reqs, next_token_ids, next_token_logprobs, is_chuncked_mode=False, do_filter_finished_reqs=False
+            )
+        return
diff --git a/lightllm/server/router/model_infer/mode_backend/pd_nixl/impl_for_pd_prefill_dp.py b/lightllm/server/router/model_infer/mode_backend/pd_nixl/impl_for_pd_prefill_dp.py
@@ -0,0 +1,109 @@
+import threading
+import torch
+import torch.multiprocessing as mp
+import torch.distributed as dist
+from typing import List, Tuple
+from lightllm.utils.infer_utils import calculate_time, mark_start, mark_end
+from lightllm.server.router.model_infer.infer_batch import InferReq, g_infer_context
+from lightllm.utils.log_utils import init_logger
+from lightllm.server.router.model_infer.mode_backend.generic_pre_process import prepare_prefill_inputs
+from lightllm.server.router.model_infer.mode_backend.generic_post_process import sample
+from lightllm.utils.envs_utils import get_env_start_args
+from lightllm.server.router.model_infer.mode_backend.dp_backend.pre_process import padded_prepare_prefill_inputs
+
+from .impl_for_pd_base import PDNIXLBackendBase
+from .impl_for_pd_prefill import PDNIXLBackendForPrefillNode
+
+logger = init_logger(__name__)
+
+
+class PDNIXLDPBackendForPrefillNode(PDNIXLBackendForPrefillNode):
+    def __init__(self, transfer_task_queue: mp.Queue, transfer_done_queue: mp.Queue, nixl_meta_queue: mp.Queue) -> None:
+        super().__init__(transfer_task_queue, transfer_done_queue, nixl_meta_queue)
+        self.enable_prefill_microbatch_overlap = get_env_start_args().enable_prefill_microbatch_overlap
+
+    def init_custom(self):
+        super().init_custom()
+        self.reduce_tensor = torch.tensor([0], dtype=torch.int32, device="cuda", requires_grad=False)
+        return
+
+    def decode(self):
+        uinit_reqs, aborted_reqs, ok_finished_reqs, prefill_reqs, decode_reqs = self._get_classed_reqs(
+            g_infer_context.infer_req_ids,
+            no_decode=True,
+        )
+
+        ok_finished_reqs, aborted_reqs, _ = self._prefill_filter_reqs(ok_finished_reqs, aborted_reqs)
+
+        assert len(uinit_reqs) == 0
+        assert len(decode_reqs) == 0
+
+        self._prefill_abort_remote(aborted_reqs)
+        self._filter_reqs(aborted_reqs)
+
+        if ok_finished_reqs:
+            for req in ok_finished_reqs:
+                self._transfer_kv_to_remote(req)
+            self._filter_reqs(ok_finished_reqs)
+            ok_finished_reqs.clear()
+
+        current_dp_prefill_num = len(prefill_reqs)
+        self.reduce_tensor.fill_(current_dp_prefill_num)
+        dist.all_reduce(self.reduce_tensor, op=dist.ReduceOp.MAX, group=None, async_op=False)
+        max_prefill_num = self.reduce_tensor.item()
+        if max_prefill_num != 0:
+            if not self.enable_prefill_microbatch_overlap:
+                self.normal_prefill_reqs(prefill_reqs, max_prefill_num, uinit_reqs, ok_finished_reqs)
+            else:
+                self.overlap_prefill_reqs(prefill_reqs, max_prefill_num, uinit_reqs, ok_finished_reqs)
+
+        self._overlap_req_init_and_filter(uninit_reqs=uinit_reqs, ok_finished_reqs=ok_finished_reqs, clear_list=True)
+        return
+
+    def normal_prefill_reqs(self, prefill_reqs: List[InferReq], max_prefill_num: int, uninit_reqs, ok_finished_reqs):
+
+        kwargs, run_reqs, padded_req_num = padded_prepare_prefill_inputs(
+            prefill_reqs, max_prefill_num, is_multimodal=self.is_multimodal
+        )
+        logits = self.model.forward(**kwargs)
+        self._overlap_req_init_and_filter(uninit_reqs=uninit_reqs, ok_finished_reqs=ok_finished_reqs, clear_list=True)
+        if len(run_reqs) != 0:
+            logits = logits[0 : len(run_reqs), :]
+            next_token_ids, next_token_probs = sample(logits, run_reqs, self.eos_id)
+            next_token_ids = next_token_ids.detach().cpu().numpy()
+            next_token_logprobs = torch.log(next_token_probs).detach().cpu().numpy()
+            self._post_handle(
+                run_reqs, next_token_ids, next_token_logprobs, is_chuncked_mode=True, do_filter_finished_reqs=False,
+                extra_post_req_handle_func=lambda req, _1, _2: self._transfer_kv_to_remote(req),
+            )
+
+    def overlap_prefill_reqs(self, prefill_reqs: List[InferReq], max_prefill_num: int, uninit_reqs, ok_finished_reqs):
+        from lightllm.server.router.model_infer.mode_backend.dp_backend.pre_process import (
+            padded_overlap_prepare_prefill_inputs,
+        )
+
+        (
+            micro_batch,
+            run_reqs,
+            padded_req_num,
+            micro_batch1,
+            run_reqs1,
+            padded_req_num1,
+        ) = padded_overlap_prepare_prefill_inputs(prefill_reqs, max_prefill_num, is_multimodal=self.is_multimodal)
+        logits, logits1 = self.model.microbatch_overlap_prefill(micro_batch, micro_batch1)
+        self._overlap_req_init_and_filter(uninit_reqs=uninit_reqs, ok_finished_reqs=ok_finished_reqs, clear_list=True)
+        req_num, req_num1 = len(run_reqs), len(run_reqs1)
+        all_logits = torch.empty((req_num + req_num1, logits.shape[1]), dtype=logits.dtype, device=logits.device)
+
+        all_logits[0:req_num, :].copy_(logits[0:req_num, :], non_blocking=True)
+        all_logits[req_num : (req_num + req_num1), :].copy_(logits1[0:req_num1, :], non_blocking=True)
+
+        all_run_reqs = run_reqs + run_reqs1
+        if all_run_reqs:
+            next_token_ids, next_token_probs = sample(all_logits, all_run_reqs, self.eos_id)
+            next_token_ids = next_token_ids.detach().cpu().numpy()
+            next_token_logprobs = torch.log(next_token_probs).detach().cpu().numpy()
+            self._post_handle(
+                all_run_reqs, next_token_ids, next_token_logprobs, is_chuncked_mode=True, do_filter_finished_reqs=False,
+                extra_post_req_handle_func=lambda req, _1, _2: self._transfer_kv_to_remote(req),
+            )
diff --git a/lightllm/server/router/model_infer/mode_backend/pd_nixl/pd_remote_prefill.py b/lightllm/server/router/model_infer/mode_backend/pd_nixl/pd_remote_prefill.py
diff --git a/lightllm/server/router/model_infer/mode_backend/pd_nixl/pd_remote_prefill_obj.py b/lightllm/server/router/model_infer/mode_backend/pd_nixl/pd_remote_prefill_obj.py
diff --git a/lightllm/server/router/model_infer/model_rpc.py b/lightllm/server/router/model_infer/model_rpc.py