rm nouse code

wangzaijun · wangzaijun · commit 7a470d5d5fb6 · 2025-10-10T09:02:54.000Z
diff --git a/lightllm/common/basemodel/triton_kernel/gen_prefill_params.py b/lightllm/common/basemodel/triton_kernel/gen_prefill_params.py
@@ -102,65 +102,3 @@ def gen_prefill_params(input_token_num: int, b_ready_cache_len: torch.Tensor, b_
     )
     b_kv_seq_len = b_seq_len
     return b_q_seq_len, b1_cu_q_seq_len, b_kv_seq_len, b1_cu_kv_seq_len, position_ids
-
-
-@triton.jit
-def fill_req_to_token_indexes_kernel(
-    req_to_token_indexs_ptr,  # [num_req, max_len]
-    b_req_idx_ptr,  # [B]
-    b_seq_len_ptr,  # [B]
-    b_ready_cache_len_ptr,  # [B]
-    b_start_loc_ptr,  # [B]
-    alloc_mem_index_ptr,  # [total_new_tokens]
-    req_to_token_indexs_stride0,
-    req_to_token_indexs_stride1,
-    BLOCK: tl.constexpr,
-):
-    pid = tl.program_id(0)  # batch id
-    req_idx = tl.load(b_req_idx_ptr + pid)
-    cur_seq_len = tl.load(b_seq_len_ptr + pid)
-    cur_ready_cache_len = tl.load(b_ready_cache_len_ptr + pid)
-    start_loc = tl.load(b_start_loc_ptr + pid)
-
-    copy_len = cur_seq_len - cur_ready_cache_len
-    if copy_len <= 0:
-        return
-
-    # 一次 BLOCK 个线程
-    offs = tl.arange(0, BLOCK)
-    for base in range(0, copy_len, BLOCK):
-        idx = base + offs
-        mask = idx < copy_len
-        vals = tl.load(alloc_mem_index_ptr + start_loc + idx, mask=mask, other=0)
-
-        out_ptrs = (
-            req_to_token_indexs_ptr
-            + req_idx * req_to_token_indexs_stride0
-            + (cur_ready_cache_len + idx) * req_to_token_indexs_stride1
-        )
-        tl.store(out_ptrs, vals, mask=mask)
-
-
-def init_req_to_token_indexes_triton(
-    req_to_token_indexs: torch.Tensor,  # [num_req, max_len]
-    b_req_idx: torch.Tensor,  # [B]
-    b_seq_len: torch.Tensor,  # [B]
-    b_ready_cache_len: torch.Tensor,  # [B]
-    b_start_loc: torch.Tensor,  # [B], alloc_mem_index 的 prefix sum 起点
-    alloc_mem_index: torch.Tensor,  # [total_new_tokens]
-    max_q_seq_len: int,
-):
-    BLOCK = 128
-    batch_size = b_seq_len.shape[0]
-    grid = (batch_size,)
-    fill_req_to_token_indexes_kernel[grid](
-        req_to_token_indexs,
-        b_req_idx,
-        b_seq_len,
-        b_ready_cache_len,
-        b_start_loc,
-        alloc_mem_index,
-        req_to_token_indexs.stride(0),
-        req_to_token_indexs.stride(1),
-        BLOCK=BLOCK,
-    )