fix

wangzaijun · wangzaijun · commit 2d650fdbe299 · 2025-11-18T08:18:00.000Z
diff --git a/lightllm/common/mem_manager.py b/lightllm/common/mem_manager.py
@@ -16,6 +16,7 @@
 from lightllm.utils.dist_utils import get_current_device_id
 from lightllm.utils.config_utils import get_num_key_value_heads
 from lightllm.common.kv_trans_kernel.nixl_kv_trans import page_io
+from lightllm.utils.device_utils import kv_trans_use_p2p
 from lightllm.utils.shm_utils import create_or_link_shm
 from multiprocessing.reduction import ForkingPickler
 
@@ -432,13 +433,22 @@ def copy_kv_from_other_dp_ranks(
             rank_in_dp=rank_in_dp,
         )
 
-    def write_to_shm(self):
+    def write_to_shm(self, req_manager):
         """
         将 mem manager 写入到 shm中，方便pd分离等特性直接从中读取，不依赖进程间队列。
         """
-        from lightllm.server.router.model_infer.mode_backend.continues_batch.pd_mode.p2p_fix import reduce_tensor
+        if kv_trans_use_p2p():
+            from lightllm.server.router.model_infer.mode_backend.continues_batch.pd_mode.p2p_fix import reduce_tensor
 
-        mp.reductions.reduce_tensor.__code__ = reduce_tensor.__code__
+            mp.reductions.reduce_tensor.__code__ = reduce_tensor.__code__
+
+        from lightllm.common.req_manager import ReqManager
+
+        req_manager: ReqManager = req_manager
+
+        # 这个地方是一个不太优雅的设计，但是暂时这么做，可以让dp shared kv swap模块直接访问 req_manager 中的 req_to_token_indexs
+        # 避免过多无用的数据复制和传输开销。
+        self.req_to_token_indexs: torch.Tensor = req_manager.req_to_token_indexs
 
         shm_name = f"{get_unique_server_name()}_mem_manager_{get_current_rank_in_node()}"
         obj_bytes = ForkingPickler.dumps(self).tobytes()
diff --git a/lightllm/server/router/model_infer/mode_backend/base_backend.py b/lightllm/server/router/model_infer/mode_backend/base_backend.py
@@ -224,7 +224,7 @@ def init_model(self, kvargs):
             self.args.run_mode in ["nixl_prefill", "nixl_decode", "prefill", "decode"]
             or self.args.enable_dp_prompt_cache_fetch
         ):
-            self.model.mem_manager.write_to_shm()
+            self.model.mem_manager.write_to_shm(req_manager=self.model.req_manager)
 
         # 启动infer_loop_thread, 启动两个线程进行推理，对于具备双batch推理折叠得场景
         # 可以降低 cpu overhead，大幅提升gpu得使用率。
diff --git a/lightllm/server/router/model_infer/mode_backend/dp_backend/dp_shared_kv_trans.py b/lightllm/server/router/model_infer/mode_backend/dp_backend/dp_shared_kv_trans.py
@@ -0,0 +1,136 @@
+# 该文件用于提供在数据dp并行的推理模式下，共享kv cache trans相关的功能函数模块
+import numpy as np
+import dataclasses
+import torch
+from typing import List
+from lightllm.common.mem_manager import MemoryManager
+from lightllm.utils.envs_utils import get_unique_server_name, get_env_start_args
+from lightllm.utils.dist_utils import get_dp_rank_in_node
+from lightllm.server.core.objs.shm_array import ShmArray
+from ...infer_batch import InferReq
+
+
+class DPKVSharedMoudle:
+    _KV_LEN_INDEX = 0
+    _REQ_IDX_INDEX = 1
+
+    def __init__(self, max_req_num: int, max_req_seq_len: int, dp_size_in_node: int, backend):
+        from .impl import DPChunkedPrefillBackend
+
+        self.backend: DPChunkedPrefillBackend = backend
+        self.max_req_num = max_req_num
+        self.max_req_seq_len = max_req_seq_len
+
+        # 0 代表 kv_len, 1 代表 radix_cache_len
+        self.shared_req_infos = ShmArray(
+            name=f"{get_unique_server_name()}_dp_shared_req_infos",
+            shape=(self.max_req_num, dp_size_in_node, 2),
+            dtype=np.int64,
+        )
+        self.shared_req_infos.create_shm()
+        self.dp_rank_in_node = get_dp_rank_in_node()
+        assert get_env_start_args().diverse_mode is False
+
+    def fill_reqs_info(
+        self,
+        reqs: List[InferReq],
+        req_dp_ranks: List[int],
+    ):
+        """
+        填充请求的 kv 信息到共享内存中
+        """
+        self.backend.node_nccl_group.barrier()
+        self.shared_req_infos.arr[0 : len(reqs), self.dp_rank_in_node, self._KV_LEN_INDEX] = [
+            req.cur_kv_len for req in reqs
+        ]
+        self.shared_req_infos.arr[0 : len(reqs), self.dp_rank_in_node, self._REQ_IDX_INDEX] = [
+            req.req_idx for req in reqs
+        ]
+        return
+
+    def build_shared_kv_trans_tasks(
+        self,
+        reqs: List[InferReq],
+        req_dp_ranks: List[int],
+    ) -> List["TransTask"]:
+        """
+        构建共享kv交换信息
+        """
+        from lightllm.server.router.model_infer.infer_batch import g_infer_context
+
+        self.backend.node_nccl_group.barrier()
+
+        trans_tasks: List[TransTask] = []
+        rank_max_radix_cache_lens = np.max(
+            self.shared_req_infos.arr[0 : len(reqs), :, self._KV_LEN_INDEX], axis=1, keepdims=False
+        )
+        # 如果发现自己是dp_rank 最小， radix_cache_len 最长的请求，则将数据写入到共享内存中。
+        for req_index, req, max_req_radix_cache_len, req_dp_rank in zip(
+            list(range(len(reqs))), reqs, rank_max_radix_cache_lens, req_dp_ranks
+        ):
+            # 当前请求是本 dp_rank 负责的
+            is_current_dp_handle = req_dp_rank == self.dp_rank_in_node
+            trans_size = max_req_radix_cache_len - req.cur_kv_len
+
+            if is_current_dp_handle and trans_size > 0 and g_infer_context.get_can_alloc_token_num() > trans_size:
+                g_infer_context.radix_cache.free_radix_cache_to_get_enough_token(trans_size)
+                mem_indexes = self.backend.model.mem_manager.alloc(trans_size)
+                max_kv_len_dp_rank = self.shared_req_infos.arr[req_index, :, self._KV_LEN_INDEX].argmax()
+                max_kv_len_req_idx = int(self.shared_req_infos.arr[req_index, max_kv_len_dp_rank, self._REQ_IDX_INDEX])
+                max_kv_len_mem_manager_index = (
+                    max_kv_len_dp_rank * self.backend.dp_world_size + self.backend.dp_rank_in_node
+                )
+                max_kv_len_mem_manager: MemoryManager = self.backend.mem_managers[max_kv_len_mem_manager_index]
+                max_kv_len_mem_indexes = max_kv_len_mem_manager.req_to_token_indexs[
+                    max_kv_len_req_idx, req.cur_kv_len : max_req_radix_cache_len
+                ]
+                trans_tasks.append(
+                    TransTask(
+                        req=req,
+                        mem_indexes=mem_indexes,
+                        max_kv_len_dp_rank=int(max_kv_len_dp_rank),
+                        max_kv_len_mem_manager_index=int(max_kv_len_mem_manager_index),
+                        max_kv_len_mem_indexes=max_kv_len_mem_indexes,
+                    )
+                )
+
+        return trans_tasks
+
+    def kv_trans(self, trans_tasks: List["TransTask"]):
+        from lightllm.server.router.model_infer.infer_batch import g_infer_context
+
+        self.backend.node_nccl_group.barrier()
+        # kv 传输
+
+        # move_token_indexes = torch.tensor(move_token_indexes, dtype=torch.int64, device="cuda")
+        # token_dp_indexes = torch.tensor(token_dp_indexes, dtype=torch.int32, device="cuda")
+
+        # self.model.mem_manager.copy_kv_from_other_dp_ranks(
+        #     mem_managers=self.mem_managers,
+        #     move_token_indexes=move_token_indexes,
+        #     token_dp_indexes=token_dp_indexes,
+        #     mem_indexes=mem_indexes,
+        #     dp_size_in_node=self.dp_size_in_node,
+        #     rank_in_dp=self.rank_in_dp,
+        # )
+        # self.logger.info(f"dp_i {self.dp_rank_in_node} transfer kv tokens num: {alloc_size}")
+
+        self.backend.node_nccl_group.barrier()
+        for trans_task in trans_tasks:
+            g_infer_context.req_manager.req_to_token_indexs[
+                trans_task.req.req_idx,
+                trans_task.req.cur_kv_len : (trans_task.req.cur_kv_len + len(trans_task.mem_indexes)),
+            ] = trans_task.mem_indexes
+            trans_task.req.cur_kv_len += len(trans_task.mem_indexes)
+            if self.backend.is_master_in_dp:
+                trans_task.req.shm_req.shm_cur_kv_len = trans_task.req.cur_kv_len
+        self.backend.node_nccl_group.barrier()
+
+
+@dataclasses
+class TransTask:
+    req: InferReq
+    mem_indexes: torch.Tensor
+    max_kv_len_dp_rank: int
+    max_kv_len_mem_manager_index: int
+    max_kv_len_mem_indexes: torch.Tensor
diff --git a/lightllm/server/router/model_infer/mode_backend/dp_backend/impl.py b/lightllm/server/router/model_infer/mode_backend/dp_backend/impl.py