ModelTC
diff --git a/‎lightllm/common/basemodel/basemodel.py‎
Lines changed: 9 additions & 0 deletions b/‎lightllm/common/basemodel/basemodel.py‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎lightllm/common/basemodel/triton_kernel/kv_cache_offload.py‎
Lines changed: 36 additions & 19 deletions b/‎lightllm/common/basemodel/triton_kernel/kv_cache_offload.py‎
Lines changed: 36 additions & 19 deletions
diff --git a/‎lightllm/server/api_cli.py‎
Lines changed: 2 additions & 2 deletions b/‎lightllm/server/api_cli.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎lightllm/server/core/objs/atomic_array_lock.py‎
Lines changed: 12 additions & 0 deletions b/‎lightllm/server/core/objs/atomic_array_lock.py‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎lightllm/server/core/objs/atomic_lock.py‎
Lines changed: 12 additions & 0 deletions b/‎lightllm/server/core/objs/atomic_lock.py‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎lightllm/server/core/objs/rpc_shm.py‎
Lines changed: 31 additions & 2 deletions b/‎lightllm/server/core/objs/rpc_shm.py‎
Lines changed: 31 additions & 2 deletions
diff --git a/‎lightllm/server/core/objs/shm_array.py‎
Lines changed: 20 additions & 0 deletions b/‎lightllm/server/core/objs/shm_array.py‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎lightllm/server/core/objs/shm_objs_io_buffer.py‎
Lines changed: 23 additions & 0 deletions b/‎lightllm/server/core/objs/shm_objs_io_buffer.py‎
Lines changed: 23 additions & 0 deletions
@@ -61,6 +61,8 @@ def __init__(self, kvargs):
         self.finetune_config = kvargs.get("finetune_config", None)
         self.max_req_num = kvargs.get("max_req_num", 1000)
         self.max_seq_length = kvargs.get("max_seq_length", 1024 * 5)
+        # 用于做外部初始化等待（如 CPU KV Cache 注册完成）
+        self.waiting_hook = kvargs.get("waiting_hook", None)
         # is_token_healing 和 return_all_prompt_logics 是有排斥关系的两个模式，只能单独有一个生效
         # 主要是在prefill阶段返回多少个token的用于后续处理相关。
         self.is_token_healing = kvargs.get("is_token_healing", False)
@@ -110,12 +112,19 @@ def __init__(self, kvargs):
         self._init_inferstate_cls()
         self._autotune_warmup()
         self._init_padded_req()
+        # wait必须在init cudagraph之前，避免错误捕获
+        self._run_waiting_hook()
         self._init_cudagraph()
         self._check_max_len_infer()
         torch.cuda.empty_cache()
         set_model_init_status(True)
         return
 
+    def _run_waiting_hook(self):
+        if self.waiting_hook is not None:
+            self.waiting_hook()
+        return
+
     def _init_config(self):
         with open(os.path.join(self.weight_dir_, "config.json"), "r") as json_file:
             self.config = json.load(json_file)
 
@@ -2,6 +2,7 @@
 
 import triton
 import triton.language as tl
+from lightllm.utils.dist_utils import get_current_rank_in_dp, get_dp_world_size
 
 
 @triton.jit
@@ -22,6 +23,7 @@ def _offload_gpu_kv_to_cpu(
     page_readies_ptr,
     layer_num,
     head_all_dim,
+    cpu_head_offset,
     BLOCK_HEAD_ALL_DIM: tl.constexpr,
     TOKEN_BLOCK: tl.constexpr,
 ):
@@ -38,12 +40,10 @@ def _offload_gpu_kv_to_cpu(
     token_indexes = tl.load(token_indexes_ptr + token_range).to(tl.int64)
     head_all_dim_range = tl.arange(0, BLOCK_HEAD_ALL_DIM)
 
-    gpu_stride0 = tl.cast(gpu_stride0, dtype=tl.int64)
-
     for layer_index in range(layer_num):
         gpu_ptr = (
             gpu_kv_cache_ptr
-            + layer_index * gpu_stride0
+            + layer_index.to(tl.int64) * gpu_stride0
             + token_indexes[:, None] * gpu_stride1
             + head_all_dim_range[None, :]
         )
@@ -53,7 +53,7 @@ def _offload_gpu_kv_to_cpu(
             + cpu_page_index * cpu_stride0
             + layer_index * cpu_stride1
             + tl.arange(0, TOKEN_BLOCK)[:, None] * cpu_stride2
-            + head_all_dim_range[None, :]
+            + (cpu_head_offset + head_all_dim_range[None, :])
         )
         tl.store(
             cpu_ptr,
@@ -88,6 +88,18 @@ def offload_gpu_kv_to_cpu(
     head_all_dim = gpu_kv_cache.shape[-1] * gpu_kv_cache.shape[-2]
     BLOCK_HEAD_ALL_DIM = triton.next_power_of_2(gpu_kv_cache.shape[-1] * gpu_kv_cache.shape[-2])
 
+    # Calculate head offset for tensor parallelism
+    tp_rank = get_current_rank_in_dp()
+    tp_num = get_dp_world_size()
+    gpu_heads = gpu_kv_cache.shape[2]
+    gpu_head_dim = gpu_kv_cache.shape[3]
+    cpu_heads = cpu_kv_cache.shape[3]
+    factor = (tp_num * gpu_heads) // cpu_heads
+    cpu_head_offset = (tp_rank // factor) * gpu_heads * gpu_head_dim
+    if tp_rank % factor != 0:
+        # redundant kv does not need to offload
+        return
+
     grid = (page_num,)
     num_warps = 4
 
@@ -108,6 +120,7 @@ def offload_gpu_kv_to_cpu(
         page_readies_ptr=page_readies,
         layer_num=gpu_kv_cache.shape[0],
         head_all_dim=head_all_dim,
+        cpu_head_offset=cpu_head_offset,
         BLOCK_HEAD_ALL_DIM=BLOCK_HEAD_ALL_DIM,
         TOKEN_BLOCK=token_block_size,
         num_warps=num_warps,
@@ -133,7 +146,7 @@ def _load_cpu_cache_to_gpu(
     page_indexes_ptr,
     layer_num,
     head_all_dim,
-    all_move_token_num,
+    cpu_head_offset,
     BLOCK_HEAD_ALL_DIM: tl.constexpr,
     TOKEN_BLOCK: tl.constexpr,
 ):
@@ -142,38 +155,32 @@ def _load_cpu_cache_to_gpu(
     if cpu_page_index == -1:
         return
 
-    gpu_stride0 = tl.cast(gpu_stride0, dtype=tl.int64)
-    padded_size = TOKEN_BLOCK * tl.num_programs(0) - all_move_token_num
-    head_all_dim_range = tl.arange(0, BLOCK_HEAD_ALL_DIM)
     token_range = block_index * TOKEN_BLOCK + tl.arange(0, TOKEN_BLOCK)
-    token_range = token_range - padded_size
-
-    token_mask = token_range >= 0
+    token_indexes = tl.load(token_indexes_ptr + token_range).to(tl.int64)
+    head_all_dim_range = tl.arange(0, BLOCK_HEAD_ALL_DIM)
     head_dim_mask = head_all_dim_range < head_all_dim
 
-    token_indexes = tl.load(token_indexes_ptr + token_range, mask=token_mask, other=0).to(tl.int64)
-
-    cpu_page_index = tl.load(page_indexes_ptr + block_index)
+    cpu_page_index = tl.load(page_indexes_ptr + block_index).to(tl.int64)
     for layer_index in range(layer_num):
         cpu_ptr = (
             cpu_kv_cache_ptr
             + cpu_page_index * cpu_stride0
             + layer_index * cpu_stride1
             + tl.arange(0, TOKEN_BLOCK)[:, None] * cpu_stride2
-            + head_all_dim_range[None, :]
+            + (cpu_head_offset + head_all_dim_range[None, :])
         )
         cpu_data = tl.load(cpu_ptr, mask=head_dim_mask[None, :], other=0.0)
 
         gpu_ptr = (
             gpu_kv_cache_ptr
-            + layer_index * gpu_stride0
+            + layer_index.to(tl.int64) * gpu_stride0
             + token_indexes[:, None] * gpu_stride1
             + head_all_dim_range[None, :]
         )
         tl.store(
             gpu_ptr,
             cpu_data,
-            mask=token_mask[:, None] & head_dim_mask[None, :],
+            mask=head_dim_mask[None, :],
         )
     return
 
@@ -197,12 +204,22 @@ def load_cpu_kv_to_gpu(
     token_num = page_indexes.shape[0] * token_block_size
     assert mem_indexes.shape[0] >= token_num
     page_num = page_indexes.shape[0]
+    assert len(mem_indexes) == page_num * token_block_size
     BLOCK_HEAD_ALL_DIM = triton.next_power_of_2(gpu_kv_cache.shape[-1] * gpu_kv_cache.shape[-2])
 
+    # Calculate head offset for tensor parallelism
+    tp_rank = get_current_rank_in_dp()
+    tp_num = get_dp_world_size()
+    gpu_heads = gpu_kv_cache.shape[2]
+    gpu_head_dim = gpu_kv_cache.shape[3]
+    cpu_heads = cpu_kv_cache.shape[3]
+    factor = (tp_num * gpu_heads) // cpu_heads
+    cpu_head_offset = (tp_rank // factor) * gpu_heads * gpu_head_dim
+
     grid = (page_num,)
     num_warps = 1
 
-    _offload_gpu_kv_to_cpu[grid](
+    _load_cpu_cache_to_gpu[grid](
         token_indexes_ptr=mem_indexes,
         gpu_kv_cache_ptr=gpu_kv_cache,
         gpu_stride0=gpu_kv_cache.stride(0),
@@ -218,7 +235,7 @@ def load_cpu_kv_to_gpu(
         page_indexes_ptr=page_indexes,
         layer_num=gpu_kv_cache.shape[0],
         head_all_dim=gpu_kv_cache.shape[-1] * gpu_kv_cache.shape[-2],
-        all_move_token_num=len(mem_indexes),
+        cpu_head_offset=cpu_head_offset,
         BLOCK_HEAD_ALL_DIM=BLOCK_HEAD_ALL_DIM,
         TOKEN_BLOCK=token_block_size,
         num_warps=num_warps,
 
@@ -522,7 +522,7 @@ def make_argument_parser() -> argparse.ArgumentParser:
     parser.add_argument(
         "--enable_cpu_cache",
         action="store_true",
-        help="""enable cpu cache to store kv cache.""",
+        help="""enable cpu cache to store kv cache. prefer to use hugepages for better performance.""",
     )
     parser.add_argument(
         "--cpu_cache_storage_size",
@@ -533,7 +533,7 @@ def make_argument_parser() -> argparse.ArgumentParser:
     parser.add_argument(
         "--cpu_cache_token_page_size",
         type=int,
-        default=256,
+        default=64,
         help="""The token page size of cpu cache""",
     )
     parser.add_argument("--enable_disk_cache", action="store_true", help="""enable disk cache to store kv cache.""")
 
@@ -3,6 +3,7 @@
 from multiprocessing import shared_memory
 from lightllm.utils.log_utils import init_logger
 from lightllm.utils.shm_utils import create_or_link_shm
+from lightllm.utils.auto_shm_cleanup import register_posix_shm_for_cleanup
 
 logger = init_logger(__name__)
 
@@ -18,6 +19,17 @@ def __init__(self, lock_name: str, lock_num: int):
             self.shm.buf.cast("i")[index] = 0
         return
 
+    def _init_shm(self):
+        try:
+            shm = shared_memory.SharedMemory(name=self.lock_name, create=True, size=self.dest_size)
+            register_posix_shm_for_cleanup(self.lock_name)
+            logger.info(f"create lock shm {self.lock_name}")
+        except:
+            shm = shared_memory.SharedMemory(name=self.lock_name, create=False, size=self.dest_size)
+            logger.info(f"link lock shm {self.lock_name}")
+        self.shm = shm
+        return
+
     def get_lock_context(self, lock_index: int) -> "AtomicLockItem":
         assert lock_index < self.lock_num
         return AtomicLockItem(self, lock_index)
 
@@ -3,6 +3,7 @@
 from multiprocessing import shared_memory
 from lightllm.utils.log_utils import init_logger
 from lightllm.utils.shm_utils import create_or_link_shm
+from lightllm.utils.auto_shm_cleanup import register_posix_shm_for_cleanup
 
 logger = init_logger(__name__)
 
@@ -16,6 +17,17 @@ def __init__(self, lock_name: str):
         self.shm.buf.cast("i")[0] = 0
         return
 
+    def _init_shm(self):
+        try:
+            shm = shared_memory.SharedMemory(name=self.lock_name, create=True, size=self.dest_size)
+            logger.info(f"create lock shm {self.lock_name}")
+            register_posix_shm_for_cleanup(self.lock_name)
+        except:
+            shm = shared_memory.SharedMemory(name=self.lock_name, create=False, size=self.dest_size)
+            logger.info(f"link lock shm {self.lock_name}")
+        self.shm = shm
+        return
+
     def __enter__(self):
         with atomics.atomicview(buffer=self.shm.buf, atype=atomics.INT) as a:
             while not a.cmpxchg_weak(0, 1):
 
@@ -6,6 +6,7 @@
 from lightllm.utils.envs_utils import get_unique_server_name
 from lightllm.utils.log_utils import init_logger
 from lightllm.utils.shm_utils import create_or_link_shm
+from lightllm.utils.auto_shm_cleanup import register_posix_shm_for_cleanup
 
 logger = init_logger(__name__)
 
@@ -20,8 +21,13 @@ def __init__(self):
 
     def create_or_link_shm(self):
         self.shm = create_or_link_shm(self.name, LIGHTLLM_RPC_BYTE_SIZE)
+        try:
+            shm = shared_memory.SharedMemory(name=self.name, create=True, size=LIGHTLLM_RPC_BYTE_SIZE)
+            register_posix_shm_for_cleanup(self.name)
+        except:
+            shm = shared_memory.SharedMemory(name=self.name, create=False, size=LIGHTLLM_RPC_BYTE_SIZE)
 
-        return
+        return shm
 
     def write_func_params(self, func_name, args):
         objs_bytes = pickle.dumps((func_name, args))
@@ -42,6 +48,24 @@ def __init__(self):
 
     def create_or_link_shm(self):
         self.shm = create_or_link_shm(self.name, LIGHTLLM_RPC_RESULT_BYTE_SIZE)
+        try:
+            shm = shared_memory.SharedMemory(name=self.name, create=True, size=LIGHTLLM_RPC_RESULT_BYTE_SIZE)
+            register_posix_shm_for_cleanup(self.name)
+        except:
+            shm = shared_memory.SharedMemory(name=self.name, create=False, size=LIGHTLLM_RPC_RESULT_BYTE_SIZE)
+
+        if shm.size != LIGHTLLM_RPC_RESULT_BYTE_SIZE:
+            logger.warning(f"size not same, unlink shm {self.name} and create again")
+            shm.close()
+            shm.unlink()
+            try:
+                shm = shared_memory.SharedMemory(name=self.name, create=True, size=LIGHTLLM_RPC_RESULT_BYTE_SIZE)
+                logger.info(f"create shm {self.name}")
+            except:
+                shm = shared_memory.SharedMemory(name=self.name, create=False, size=LIGHTLLM_RPC_RESULT_BYTE_SIZE)
+                logger.info(f"link shm {self.name}")
+
+        self.shm = shm
         return
 
     def write_func_result(self, func_name, ret):
@@ -68,12 +92,17 @@ def __init__(self, world_size):
 
     def create_or_link_shm(self):
         self.shm = create_or_link_shm(self.name, self.dest_size)
+        try:
+            shm = shared_memory.SharedMemory(name=self.name, create=True, size=self.dest_size)
+            register_posix_shm_for_cleanup(self.name)
+        except:
+            shm = shared_memory.SharedMemory(name=self.name, create=False, size=self.dest_size)
 
         self.arr = np.ndarray(self.shape, dtype=self.dtype, buffer=self.shm.buf)
         self.arr[:] = 0
         self.arr0 = self.arr[0 : self.world_size]
         self.arr1 = self.arr[self.world_size : 2 * self.world_size]
-        return
+        return shm
 
     def add_mark(self, tp_rank: int):
         self.arr0[tp_rank] += 1
 
@@ -1,5 +1,6 @@
 import numpy as np
 from multiprocessing import shared_memory
+from lightllm.utils.auto_shm_cleanup import register_posix_shm_for_cleanup
 from lightllm.utils.log_utils import init_logger
 from lightllm.utils.shm_utils import create_or_link_shm
 
@@ -18,6 +19,25 @@ def __init__(self, name, shape, dtype):
 
     def create_shm(self):
         self.shm = create_or_link_shm(self.name, self.dest_size)
+        try:
+            shm = shared_memory.SharedMemory(name=self.name, create=True, size=self.dest_size)
+            register_posix_shm_for_cleanup(self.name)
+        except:
+            shm = shared_memory.SharedMemory(name=self.name, create=False, size=self.dest_size)
+
+        if shm.size != self.dest_size:
+            logger.warning(f"size not same, unlink shm {self.name} and create again")
+            shm.close()
+            shm.unlink()
+            try:
+                shm = shared_memory.SharedMemory(name=self.name, create=True, size=self.dest_size)
+                logger.info(f"create shm {self.name}")
+                register_posix_shm_for_cleanup(self.name)
+            except:
+                shm = shared_memory.SharedMemory(name=self.name, create=False, size=self.dest_size)
+                logger.info(f"link shm {self.name}")
+
+        self.shm = shm  # SharedMemory 对象一定要被持有，否则会被释放
         self.arr = np.ndarray(self.shape, dtype=self.dtype, buffer=self.shm.buf)
 
     def link_shm(self):
 
@@ -5,6 +5,8 @@
 from lightllm.utils.envs_utils import get_unique_server_name
 from lightllm.utils.log_utils import init_logger
 from lightllm.utils.shm_utils import create_or_link_shm
+from lightllm.utils.auto_shm_cleanup import register_posix_shm_for_cleanup
+from multiprocessing import shared_memory
 
 LIGHTLLM_REQS_BUFFER_BYTE_SIZE = int(os.getenv("LIGHTLLM_REQS_BUFFER_BYTE_SIZE", 64 * 1024 * 1024))  # 默认64M buf
 
@@ -53,6 +55,27 @@ def read_obj(self):
 
     def _create_or_link_shm(self):
         self.shm = create_or_link_shm(self.name, LIGHTLLM_REQS_BUFFER_BYTE_SIZE)
+        try:
+            shm = shared_memory.SharedMemory(name=self.name, create=True, size=LIGHTLLM_REQS_BUFFER_BYTE_SIZE)
+            logger.info(f"create shm {self.name}")
+            register_posix_shm_for_cleanup(self.name)
+        except:
+            shm = shared_memory.SharedMemory(name=self.name, create=False, size=LIGHTLLM_REQS_BUFFER_BYTE_SIZE)
+            logger.info(f"link shm {self.name}")
+
+        if shm.size != LIGHTLLM_REQS_BUFFER_BYTE_SIZE:
+            logger.warning(f"size not same, unlink shm {self.name} and create again")
+            shm.close()
+            shm.unlink()
+            try:
+                shm = shared_memory.SharedMemory(name=self.name, create=True, size=LIGHTLLM_REQS_BUFFER_BYTE_SIZE)
+                logger.info(f"create shm {self.name}")
+                register_posix_shm_for_cleanup(self.name)
+            except:
+                shm = shared_memory.SharedMemory(name=self.name, create=False, size=LIGHTLLM_REQS_BUFFER_BYTE_SIZE)
+                logger.info(f"link shm {self.name}")
+
+        self.shm = shm
         self.int_view = self.shm.buf.cast("i")
         # 前4个字节是特殊的计数用途，router写入后，被各个推理进程在拿去所有数据后，减1后归0
         self.int_view[0] = 0