vllm-project
diff --git a/‎tests/ut/core/test_scheduler.py
Lines changed: 136 additions & 69 deletions b/‎tests/ut/core/test_scheduler.py
Lines changed: 136 additions & 69 deletions
diff --git a/‎tests/ut/worker/test_input_batch.py
Lines changed: 1 addition & 0 deletions b/‎tests/ut/worker/test_input_batch.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎vllm_ascend/core/scheduler.py
Lines changed: 38 additions & 17 deletions b/‎vllm_ascend/core/scheduler.py
Lines changed: 38 additions & 17 deletions
@@ -295,24 +295,25 @@ def test_stop_via_update_from_output(self):
             scheduler.running.append(req)
             req.status = RequestStatus.RUNNING
 
-        scheduler_output = SchedulerOutput(scheduled_new_reqs=[],
-                                           scheduled_cached_reqs=[],
-                                           num_scheduled_tokens={
-                                               requests[0].request_id: 1,
-                                               requests[1].request_id: 2
-                                           },
-                                           total_num_scheduled_tokens=3,
-                                           scheduled_encoder_inputs={},
-                                           scheduled_spec_decode_tokens={
-                                               requests[0].request_id: [],
-                                               requests[1].request_id: [10]
-                                           },
-                                           num_common_prefix_blocks=0,
-                                           finished_req_ids=set(),
-                                           free_encoder_input_ids=[],
-                                           structured_output_request_ids={},
-                                           grammar_bitmask=None)
         if vllm_version_is("0.10.1.1"):
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 1,
+                    requests[1].request_id: 2
+                },
+                total_num_scheduled_tokens=3,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [],
+                    requests[1].request_id: [10]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_input_ids=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
             model_output = ModelRunnerOutput(
                 req_ids=[req.request_id for req in requests],
                 req_id_to_index={
@@ -327,6 +328,24 @@ def test_stop_via_update_from_output(self):
                 prompt_logprobs_dict={},
                 pooler_output=[])
         else:
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 1,
+                    requests[1].request_id: 2
+                },
+                total_num_scheduled_tokens=3,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [],
+                    requests[1].request_id: [10]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_mm_hashes=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
             model_output = ModelRunnerOutput(
                 req_ids=[req.request_id for req in requests],
                 req_id_to_index={
@@ -363,25 +382,25 @@ def test_stop_via_update_from_output(self):
             scheduler.running.append(req)
             req.status = RequestStatus.RUNNING
 
-        scheduler_output = SchedulerOutput(scheduled_new_reqs=[],
-                                           scheduled_cached_reqs=[],
-                                           num_scheduled_tokens={
-                                               requests[0].request_id: 3,
-                                               requests[1].request_id: 2
-                                           },
-                                           total_num_scheduled_tokens=5,
-                                           scheduled_encoder_inputs={},
-                                           scheduled_spec_decode_tokens={
-                                               requests[0].request_id:
-                                               [10, 42],
-                                               requests[1].request_id: [13]
-                                           },
-                                           num_common_prefix_blocks=0,
-                                           finished_req_ids=set(),
-                                           free_encoder_input_ids=[],
-                                           structured_output_request_ids={},
-                                           grammar_bitmask=None)
         if vllm_version_is("0.10.1.1"):
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 3,
+                    requests[1].request_id: 2
+                },
+                total_num_scheduled_tokens=5,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [10, 42],
+                    requests[1].request_id: [13]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_input_ids=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
             model_output = ModelRunnerOutput(
                 req_ids=[req.request_id for req in requests],
                 req_id_to_index={
@@ -395,6 +414,24 @@ def test_stop_via_update_from_output(self):
                 prompt_logprobs_dict={},
                 pooler_output=[])
         else:
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 3,
+                    requests[1].request_id: 2
+                },
+                total_num_scheduled_tokens=5,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [10, 42],
+                    requests[1].request_id: [13]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_mm_hashes=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
             model_output = ModelRunnerOutput(
                 req_ids=[req.request_id for req in requests],
                 req_id_to_index={
@@ -429,26 +466,25 @@ def test_stop_via_update_from_output(self):
             scheduler.running.append(req)
             req.status = RequestStatus.RUNNING
 
-        scheduler_output = SchedulerOutput(scheduled_new_reqs=[],
-                                           scheduled_cached_reqs=[],
-                                           num_scheduled_tokens={
-                                               requests[0].request_id: 3,
-                                               requests[1].request_id: 1
-                                           },
-                                           total_num_scheduled_tokens=4,
-                                           scheduled_encoder_inputs={},
-                                           scheduled_spec_decode_tokens={
-                                               requests[0].request_id:
-                                               [10, 11],
-                                               requests[1].request_id: []
-                                           },
-                                           num_common_prefix_blocks=0,
-                                           finished_req_ids=set(),
-                                           free_encoder_input_ids=[],
-                                           structured_output_request_ids={},
-                                           grammar_bitmask=None)
-
         if vllm_version_is("0.10.1.1"):
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 3,
+                    requests[1].request_id: 1
+                },
+                total_num_scheduled_tokens=4,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [10, 11],
+                    requests[1].request_id: []
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_input_ids=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
             model_output = ModelRunnerOutput(
                 req_ids=[req.request_id for req in requests],
                 req_id_to_index={
@@ -462,6 +498,24 @@ def test_stop_via_update_from_output(self):
                 prompt_logprobs_dict={},
                 pooler_output=[])
         else:
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 3,
+                    requests[1].request_id: 1
+                },
+                total_num_scheduled_tokens=4,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [10, 11],
+                    requests[1].request_id: []
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_mm_hashes=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
             model_output = ModelRunnerOutput(
                 req_ids=[req.request_id for req in requests],
                 req_id_to_index={
@@ -493,22 +547,21 @@ def test_stop_via_update_from_output(self):
         scheduler.requests[requests[0].request_id] = requests[0]
         scheduler.running.append(requests[0])
 
-        scheduler_output = SchedulerOutput(
-            scheduled_new_reqs=[],
-            scheduled_cached_reqs=[],
-            num_scheduled_tokens={requests[0].request_id: 3},
-            total_num_scheduled_tokens=3,
-            scheduled_encoder_inputs={},
-            scheduled_spec_decode_tokens={
-                requests[0].request_id: [EOS_TOKEN_ID, 10]
-            },
-            num_common_prefix_blocks=0,
-            finished_req_ids=set(),
-            free_encoder_input_ids=[],
-            structured_output_request_ids={},
-            grammar_bitmask=None)
-
         if vllm_version_is("0.10.1.1"):
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={requests[0].request_id: 3},
+                total_num_scheduled_tokens=3,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [EOS_TOKEN_ID, 10]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_input_ids=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
             model_output = ModelRunnerOutput(
                 req_ids=[requests[0].request_id],
                 req_id_to_index={requests[0].request_id: 0},
@@ -519,6 +572,20 @@ def test_stop_via_update_from_output(self):
                 pooler_output=[])
 
         else:
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={requests[0].request_id: 3},
+                total_num_scheduled_tokens=3,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [EOS_TOKEN_ID, 10]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_mm_hashes=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
             model_output = ModelRunnerOutput(
                 req_ids=[requests[0].request_id],
                 req_id_to_index={requests[0].request_id: 0},
 
@@ -215,6 +215,7 @@ def _construct_cached_request_state(req_id_suffix: int):
         generator=None,
         num_computed_tokens=len(output_token_ids),
         output_token_ids=output_token_ids,
+        mm_hashes=None,
     )
 
 
 
@@ -385,23 +385,44 @@ def skip_cur_request():
                 req_to_new_blocks)
         scheduled_cached_reqs = cached_reqs_data
 
-        scheduler_output = SchedulerOutput(
-            scheduled_new_reqs=new_reqs_data,
-            scheduled_cached_reqs=scheduled_cached_reqs,
-            num_scheduled_tokens=num_scheduled_tokens,
-            total_num_scheduled_tokens=total_num_scheduled_tokens,
-            scheduled_spec_decode_tokens=scheduled_spec_decode_tokens,
-            scheduled_encoder_inputs={},
-            num_common_prefix_blocks=num_common_prefix_blocks,
-            # finished_req_ids is an existing state in the scheduler,
-            # instead of being newly scheduled in this step.
-            # It contains the request IDs that are finished in between
-            # the previous and the current steps.
-            finished_req_ids=self.finished_req_ids,  # type: ignore
-            free_encoder_input_ids=self.encoder_cache_manager.get_freed_ids(),
-            structured_output_request_ids={},
-            grammar_bitmask=None,
-        )
+        if vllm_version_is("0.10.1.1"):
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=new_reqs_data,
+                scheduled_cached_reqs=scheduled_cached_reqs,
+                num_scheduled_tokens=num_scheduled_tokens,
+                total_num_scheduled_tokens=total_num_scheduled_tokens,
+                scheduled_spec_decode_tokens=scheduled_spec_decode_tokens,
+                scheduled_encoder_inputs={},
+                num_common_prefix_blocks=num_common_prefix_blocks,
+                # finished_req_ids is an existing state in the scheduler,
+                # instead of being newly scheduled in this step.
+                # It contains the request IDs that are finished in between
+                # the previous and the current steps.
+                finished_req_ids=self.finished_req_ids,  # type: ignore
+                free_encoder_input_ids=self.encoder_cache_manager.
+                get_freed_ids(),
+                structured_output_request_ids={},
+                grammar_bitmask=None,
+            )
+        else:
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=new_reqs_data,
+                scheduled_cached_reqs=scheduled_cached_reqs,
+                num_scheduled_tokens=num_scheduled_tokens,
+                total_num_scheduled_tokens=total_num_scheduled_tokens,
+                scheduled_spec_decode_tokens=scheduled_spec_decode_tokens,
+                scheduled_encoder_inputs={},
+                num_common_prefix_blocks=num_common_prefix_blocks,
+                # finished_req_ids is an existing state in the scheduler,
+                # instead of being newly scheduled in this step.
+                # It contains the request IDs that are finished in between
+                # the previous and the current steps.
+                finished_req_ids=self.finished_req_ids,  # type: ignore
+                free_encoder_mm_hashes=self.encoder_cache_manager.
+                get_freed_mm_hashes(),
+                structured_output_request_ids={},
+                grammar_bitmask=None,
+            )
 
         # NOTE(Kuntai): this function is designed for multiple purposes:
         # 1. Plan the KV cache store
Original file line number	Diff line number	Diff line change
`@@ -215,6 +215,7 @@ def _construct_cached_request_state(req_id_suffix: int):`
`215`	`215`	`generator=None,`
`216`	`216`	`num_computed_tokens=len(output_token_ids),`
`217`	`217`	`output_token_ids=output_token_ids,`
	`218`	`+ mm_hashes=None,`
`218`	`219`	`)`
`219`	`220`
`220`	`221`