[KV offload] Offloading connector async scheduling support (vllm-project#27648)

Yue Zhang · njhill · web-flow · commit 685c99ee77b4 · 2025-11-01T21:08:56.000Z
Signed-off-by: KevinCheung2259 &lt;2651309292@qq.com&gt;
Co-authored-by: Nick Hill &lt;nhill@redhat.com&gt;
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py b/vllm/distributed/kv_transfer/kv_connector/v1/offloading_connector.py
@@ -274,8 +274,8 @@ def _get_reqs_to_store(self, scheduler_output: SchedulerOutput):
             if num_new_blocks <= 0:
                 continue
 
-            num_gpu_blocks = num_blocks * self.block_size_factor
-            assert len(req.block_hashes) >= num_gpu_blocks
+            # NOTE: In async scheduling, placeholders may temporarily make
+            # len(req.block_hashes) < num_blocks * self.block_size_factor.
 
             new_block_hashes = self._get_block_hashes(
                 req, start_idx=start_block_idx, end_idx=num_blocks