vllm-project · weiguihua2 · Mar 25, 2026 · Mar 25, 2026 · gemini-code-assist · Mar 25, 2026
@@ -257,8 +257,8 @@ def _execute_sparse_flash_attention_process(
         return self._align_to_graph_bucket_tokens(attn_output, attn_metadata)
 
     def _align_to_graph_bucket_tokens(self, attn_output: torch.Tensor | None, attn_metadata: M) -> torch.Tensor | None:
-        if attn_output is None:
-            return None
+        if attn_output is None or self.pcp_size == 1:
+            return attn_output
         # In graph/piecewise mode, output buffer uses graph bucket token size
         # (forward_context.num_tokens), while PCP path may compute only valid
         # tokens. Align to the larger one to avoid later write-back mismatch.

@@ -583,7 +583,7 @@ def _propose(
                     - 1
                 )
                 num_accept_tokens = query_lens_d.to(self.device) - num_reject_tokens
-                ori_seq_len = attn_metadata_i.seq_lens[:batch_size].clone()
+                ori_seq_len = attn_metadata_i.seq_lens[:batch_size].clone().to(device="cpu")
-                ori_seq_len = attn_metadata_i.seq_lens[:batch_size].clone().to(device="cpu")
+                ori_seq_len = attn_metadata_i.seq_lens[:batch_size].clone()
-                ori_seq_len = attn_metadata_i.seq_lens[:batch_size].clone().to(device="cpu")
+                ori_seq_len = attn_metadata_i.seq_lens[:batch_size].clone()
                 mtp_slot_mapping = self.runner.pcp_manager.mtp_slot_pad
 
                 # slot_mapping index base offset:
@@ -1223,7 +1223,8 @@ def attn_update_stack_num_spec_norm(
 
         if self.pcp_size * self.dcp_size > 1:
             if self.vllm_config.model_config.use_mla:
-                attn_metadata.decode.cp_seq_len = cp_seq_len
+                if getattr(attn_metadata, "decode", None):
+                    attn_metadata.decode.cp_seq_len = cp_seq_len
             else:
                 attn_metadata.decode_meta.num_computed_tokens_of_pcp_dcp = num_computed_tokens_of_pcp_dcp