[Core][Bookkeeping Optimization] Update against numpy view of is_token_ids tensor (#27618)

Jialin · web-flow · commit b46e4a06f1aa · 2025-10-28T08:13:10.000Z
Signed-off-by: Jialin Ouyang &lt;Jialin.Ouyang@gmail.com&gt;
diff --git a/vllm/v1/worker/gpu_input_batch.py b/vllm/v1/worker/gpu_input_batch.py
@@ -108,9 +108,10 @@ def __init__(
             pin_memory=False,
         )
         self.token_ids_cpu = self.token_ids_cpu_tensor.numpy()
-        self.is_token_ids = torch.zeros(
+        self.is_token_ids_tensor = torch.zeros(
             (max_num_reqs, max_model_len), device="cpu", dtype=bool, pin_memory=False
         )
+        self.is_token_ids = self.is_token_ids_tensor.numpy()
         # Store prompt embeddings per request to avoid OOM from large upfront
         # allocation if max_model_len is big.
         # Maps req_index -> tensor of shape (num_prompt_tokens, hidden_size)
diff --git a/vllm/v1/worker/gpu_model_runner.py b/vllm/v1/worker/gpu_model_runner.py
@@ -1103,7 +1103,7 @@ def _prepare_inputs(
             out=self.input_ids.cpu[:total_num_scheduled_tokens],
         )
         if self.enable_prompt_embeds:
-            is_token_ids = self.input_batch.is_token_ids.flatten()
+            is_token_ids = self.input_batch.is_token_ids_tensor.flatten()
             torch.index_select(
                 is_token_ids,
                 0,

Original file line number	Diff line number	Diff line change
`@@ -108,9 +108,10 @@ def __init__(`
`108`	`108`	`pin_memory=False,`
`109`	`109`	`)`
`110`	`110`	`self.token_ids_cpu = self.token_ids_cpu_tensor.numpy()`
`111`		`- self.is_token_ids = torch.zeros(`
	`111`	`+ self.is_token_ids_tensor = torch.zeros(`
`112`	`112`	`(max_num_reqs, max_model_len), device="cpu", dtype=bool, pin_memory=False`
`113`	`113`	`)`
	`114`	`+ self.is_token_ids = self.is_token_ids_tensor.numpy()`
`114`	`115`	`# Store prompt embeddings per request to avoid OOM from large upfront`
`115`	`116`	`# allocation if max_model_len is big.`
`116`	`117`	`# Maps req_index -> tensor of shape (num_prompt_tokens, hidden_size)`
Original file line number	Diff line number	Diff line change
`@@ -1103,7 +1103,7 @@ def _prepare_inputs(`
`1103`	`1103`	`out=self.input_ids.cpu[:total_num_scheduled_tokens],`
`1104`	`1104`	`)`
`1105`	`1105`	`if self.enable_prompt_embeds:`
`1106`		`- is_token_ids = self.input_batch.is_token_ids.flatten()`
	`1106`	`+ is_token_ids = self.input_batch.is_token_ids_tensor.flatten()`
`1107`	`1107`	`torch.index_select(`
`1108`	`1108`	`is_token_ids,`
`1109`	`1109`	`0,`