chunked for diversemode

shihaobai · shihaobai · commit aa8539583d27 · 2025-04-21T16:24:23.000+08:00
diff --git a/lightllm/server/router/model_infer/mode_backend/diverse_backend/impl.py b/lightllm/server/router/model_infer/mode_backend/diverse_backend/impl.py
@@ -24,21 +24,24 @@ def __init__(self) -> None:
     def init_custom(self):
         pass
 
-    def build_group(self, req_ids: List[int]):
-        for r_id in req_ids:
-            req: InferReq = g_infer_context.requests_mapping[r_id]
+    def build_group(self, reqs: List[InferReq]):
+        for req in reqs:
             group_req_id = req.shm_req.group_req_id
             if group_req_id not in g_infer_context.group_mapping:
                 g_infer_context.group_mapping[group_req_id] = InferReqGroup(group_req_id=group_req_id)
-            g_infer_context.group_mapping[group_req_id].add_req(r_id)
+            g_infer_context.group_mapping[group_req_id].add_req(req.req_id)
 
     def diverse_copy(self, groups: List[InferReqGroup]):
         batch_idx = []
         run_reqs = []
         for i in range(len(groups)):
             req_group = groups[i]
             best_of = req_group.best_of()
-            if best_of > 1:
+            _0_req_obj = req_group.get_req(0)
+            if (
+                best_of > 1 and 
+                _0_req_obj.get_chuncked_input_token_len() == _0_req_obj.get_cur_total_len()
+            ):
                 req_group.diverse_copy(g_infer_context.req_manager, is_prefill=True)
                 batch_idx.extend([i for _ in range(best_of)])
             else:
@@ -47,46 +50,69 @@ def diverse_copy(self, groups: List[InferReqGroup]):
         return batch_idx, run_reqs
 
     def prefill(self, reqs: List[Tuple]):
-        req_ids = self._init_reqs(reqs)
-        self.build_group(req_ids)
-        group_reqs = [
-            g_infer_context.requests_mapping[req_id]
-            for req_id in req_ids
-            if convert_sub_id_to_group_id(req_id) == req_id
-        ]
-        groups = [
-            g_infer_context.group_mapping[req_id] for req_id in req_ids if convert_sub_id_to_group_id(req_id) == req_id
-        ]
-        kwargs, group_run_reqs = prepare_prefill_inputs(
-            group_reqs, is_chuncked_mode=False, is_multimodal=self.is_multimodal
-        )
-        logits = self.model.forward(**kwargs)
-        batch_idx, run_reqs = self.diverse_copy(groups)
-        logits = logits[batch_idx]
-        next_token_ids, next_token_probs = sample(logits, run_reqs, self.eos_id)
-        next_token_ids = next_token_ids.detach().cpu().numpy()
-        next_token_logprobs = torch.log(next_token_probs).detach().cpu().numpy()
+        req_ids = self._init_reqs(reqs, init_req_obj=False)
+        # group_reqs = [
+        #     g_infer_context.requests_mapping[req_id]
+        #     for req_id in req_ids
+        #     if convert_sub_id_to_group_id(req_id) == req_id
+        # ]
+        # groups = [
+        #     g_infer_context.group_mapping[req_id] for req_id in req_ids if convert_sub_id_to_group_id(req_id) == req_id
+        # ]
+        # kwargs, group_run_reqs = prepare_prefill_inputs(
+        #     group_reqs, is_chuncked_mode=True, is_multimodal=self.is_multimodal
+        # )
+        # logits = self.model.forward(**kwargs)
+        # batch_idx, run_reqs = self.diverse_copy(groups)
+        # logits = logits[batch_idx]
+        # next_token_ids, next_token_probs = sample(logits, run_reqs, self.eos_id)
+        # next_token_ids = next_token_ids.detach().cpu().numpy()
+        # next_token_logprobs = torch.log(next_token_probs).detach().cpu().numpy()
 
-        self._post_handle(
-            run_reqs, next_token_ids, next_token_logprobs, is_chuncked_mode=False, do_filter_finished_reqs=False
-        )
+        # self._post_handle(
+        #     run_reqs, next_token_ids, next_token_logprobs, is_chuncked_mode=True, do_filter_finished_reqs=False
+        # )
         return
 
     def decode(self):
         uninit_reqs, aborted_reqs, ok_finished_reqs, prefill_reqs, decode_reqs = self._get_classed_reqs(
             g_infer_context.infer_req_ids
         )
-        assert len(uninit_reqs) == 0
-        assert len(prefill_reqs) == 0
 
         if aborted_reqs:
             g_infer_context.filter_reqs(aborted_reqs)
 
+        if prefill_reqs:
+            group_reqs = [
+                g_infer_context.requests_mapping[req.req_id]
+                for req in prefill_reqs
+                if convert_sub_id_to_group_id(req.req_id) == req.req_id
+            ]
+            groups = [
+                g_infer_context.group_mapping[req.req_id] for req in prefill_reqs if convert_sub_id_to_group_id(req.req_id) == req.req_id
+            ]
+            kwargs, group_run_reqs = prepare_prefill_inputs(
+                group_reqs, is_chuncked_mode=True, is_multimodal=self.is_multimodal
+            )
+            logits = self.model.forward(**kwargs)
+            self._overlap_req_init_and_filter(uninit_reqs=uninit_reqs, ok_finished_reqs=ok_finished_reqs, clear_list=False)
+            self.build_group(uninit_reqs)
+            batch_idx, run_reqs = self.diverse_copy(groups)
+            logits = logits[batch_idx]
+            next_token_ids, next_token_probs = sample(logits, run_reqs, self.eos_id)
+            next_token_ids = next_token_ids.detach().cpu().numpy()
+            next_token_logprobs = torch.log(next_token_probs).detach().cpu().numpy()
+
+            self._post_handle(
+                run_reqs, next_token_ids, next_token_logprobs, is_chuncked_mode=True, do_filter_finished_reqs=False
+            )
+
         if decode_reqs:
             kwargs, run_reqs = prepare_decode_inputs(decode_reqs)
             logits = self.model.forward(**kwargs)
 
-            self._overlap_req_init_and_filter(uninit_reqs=[], ok_finished_reqs=ok_finished_reqs, clear_list=True)
+            self._overlap_req_init_and_filter(uninit_reqs=uninit_reqs, ok_finished_reqs=ok_finished_reqs, clear_list=False)
+            self.build_group(uninit_reqs)
 
             next_token_ids, next_token_probs = sample(logits, run_reqs, self.eos_id)
             next_token_ids = next_token_ids.detach().cpu().numpy()
@@ -95,6 +121,8 @@ def decode(self):
             self._post_handle(
                 run_reqs, next_token_ids, next_token_logprobs, is_chuncked_mode=False, do_filter_finished_reqs=False
             )
-
-        self._overlap_req_init_and_filter(uninit_reqs=[], ok_finished_reqs=ok_finished_reqs, clear_list=True)
+        self._overlap_req_init_and_filter(uninit_reqs=uninit_reqs, ok_finished_reqs=ok_finished_reqs, clear_list=False)
+        self.build_group(uninit_reqs)
+        uninit_reqs.clear()
+        ok_finished_reqs.clear()
         return
diff --git a/lightllm/server/router/req_queue/continues_batch/beam_impl.py b/lightllm/server/router/req_queue/continues_batch/beam_impl.py
@@ -46,8 +46,7 @@ def _can_add_new_group_reqs(self, cur_handle_group_reqs: List[Req], is_busy, new
         # prefill token 计算
         for req in cur_handle_group_reqs:
             new_batch_first_router_need_tokens += req.shm_cur_output_len
-        new_batch_first_router_need_tokens += req.input_len
-
+        new_batch_first_router_need_tokens += req.get_first_router_need_tokens()
         ok_token_num = (
             need_max_token_num + self.router.shared_token_load.get_frozened_token_count(self.dp_index)
             < self.max_total_tokens