Implement chunked prefill for MLA

yessen-deepinfra · pathorn · commit 65571ba4bd72 · 2025-02-11T00:10:36.000Z
Fix alignment and modulo error in remainder for _gather_kv_cache
Only use block_tables on chunked prefill
Allow enabling chunked prefill

Signed-off-by: Patrick Reiter Horn &lt;patrick.horn@gmail.com&gt;
Signed-off-by: Yessen Kanapin &lt;yessen@deepinfra.com&gt;
diff --git a/vllm/attention/backends/mla/utils.py b/vllm/attention/backends/mla/utils.py
@@ -409,8 +409,9 @@ def get_and_maybe_dequant_weights(layer: LinearBase):
     def _forward_prefill(
         self,
         q: torch.Tensor,
-        kv_c_normed: torch.Tensor,
+        kv_c: torch.Tensor,
         k_pe: torch.Tensor,
+        kv_c_and_k_pe_cache: torch.Tensor,
         attn_metadata: T,
     ) -> torch.Tensor:
         raise NotImplementedError
@@ -446,22 +447,25 @@ def forward(
         k_pe = k_pe.unsqueeze(1)
         assert hasattr(attn_metadata, "input_positions")
 
+        num_prefill_tokens: int = attn_metadata.num_prefill_tokens
+
         if is_decode:
-            q_nope = self._q_proj_and_k_up_proj(hidden_states_or_q_c)
-            q_pe = torch.matmul(hidden_states_or_q_c, self.W_QR)\
+            decode_q_nope = self._q_proj_and_k_up_proj(
+                hidden_states_or_q_c[num_prefill_tokens:])
+            decode_q_pe = torch.matmul(hidden_states_or_q_c[num_prefill_tokens:], self.W_QR)\
                 .view(-1, self.num_heads, self.qk_rope_head_dim)
-            q_pe, k_pe = self.rotary_emb(attn_metadata.input_positions, q_pe,
-                                         k_pe)
-        else:
-            assert is_prefill
-            q = self.q_proj(hidden_states_or_q_c)[0]\
+            decode_q_pe, k_pe[num_prefill_tokens:] = \
+                self.rotary_emb(attn_metadata.input_positions[num_prefill_tokens:],
+                                decode_q_pe, k_pe[num_prefill_tokens:])
+        if is_prefill:
+            prefill_q = self.q_proj(hidden_states_or_q_c[:num_prefill_tokens])[0]\
                 .view(-1, self.num_heads, self.qk_head_dim)
 
             # TODO(lucas): there must be a nicer way to write this line
-            q[..., self.qk_nope_head_dim:], k_pe = \
+            prefill_q[..., self.qk_nope_head_dim:], k_pe[:num_prefill_tokens] = \
                 self.rotary_emb(
-                    attn_metadata.input_positions,
-                    q[..., self.qk_nope_head_dim:], k_pe)
+                    attn_metadata.input_positions[:num_prefill_tokens],
+                    prefill_q[..., self.qk_nope_head_dim:], k_pe[:num_prefill_tokens])
 
         # write the latent and rope to kv cache
         if kv_cache.numel() > 0:
@@ -473,13 +477,25 @@ def forward(
                 kv_cache_dtype=self.kv_cache_dtype,
                 scale=layer._k_scale,
             )
+        output = torch.empty(attn_metadata.num_prefill_tokens +
+                             attn_metadata.num_decode_tokens,
+                             self.o_proj.output_size,
+                             device=hidden_states_or_q_c.device,
+                             dtype=hidden_states_or_q_c.dtype)
+        # output shape: [2048, 16, 512]
+
+        if is_prefill:
+            # forward prefill output shape: [2048, 7168]
+            output[:num_prefill_tokens] = self._forward_prefill(
+                prefill_q, k_c_normed[:num_prefill_tokens].contiguous(),
+                k_pe[:num_prefill_tokens].contiguous(), kv_cache,
+                attn_metadata)
 
-        if attn_metadata.prefill_metadata is not None:
-            return self._forward_prefill(q, k_c_normed, k_pe, kv_cache,
-                                         attn_metadata)
+        if is_decode:
+            output[num_prefill_tokens:] = self._forward_decode(
+                decode_q_nope, decode_q_pe, kv_cache, attn_metadata)
 
-        if attn_metadata.decode_metadata is not None:
-            return self._forward_decode(q_nope, q_pe, kv_cache, attn_metadata)
+        return output
 
     # Optional common flash-attn based prefill
     def _forward_prefill_flash(
@@ -489,6 +505,8 @@ def _forward_prefill_flash(
         k_pe: torch.Tensor,
         seq_start_loc: torch.Tensor,
         max_prefill_seq_len: int,
+        query_start_loc: torch.Tensor,
+        max_query_len: int,
     ) -> torch.Tensor:
 
         kv_nope = self.kv_b_proj(k_c_normed)[0]\
@@ -507,9 +525,9 @@ def _forward_prefill_flash(
             q=q,
             k=k,
             v=v_padded,
-            cu_seqlens_q=seq_start_loc,
+            cu_seqlens_q=query_start_loc,
             cu_seqlens_k=seq_start_loc,
-            max_seqlen_q=max_prefill_seq_len,
+            max_seqlen_q=max_query_len,
             max_seqlen_k=max_prefill_seq_len,
             softmax_scale=self.scale,
             causal=True,
diff --git a/vllm/attention/backends/triton_mla.py b/vllm/attention/backends/triton_mla.py
@@ -657,7 +657,6 @@ def _gather_kv_cache(
     block_tables,  # (batch_size, max_blocks_per_seq)
     block_table_stride,
     kv_cache,  # (num_blocks, block_size, head_size)
-    kv_page_stride,
     kv_out,
     CACHE_PAGE_SIZE: tl.constexpr,
     CACHE_ENTRY_SIZE: tl.constexpr,
@@ -684,16 +683,17 @@ def _gather_kv_cache(
     cache_page_mask = cache_page_range < CACHE_PAGE_SIZE
     for i in range(pages_to_copy - 1):
         page = tl.load(block_table + i)
-        page_start = kv_cache + page * kv_page_stride
+        page_start = kv_cache + page * CACHE_PAGE_SIZE
         page_data = tl.load(page_start + cache_page_range,
                             mask=cache_page_mask)
         tl.store(kv_out + i * CACHE_PAGE_SIZE + cache_page_range,
                  page_data,
                  mask=cache_page_mask)
 
-    last_page_len = seq_len % CACHE_ENTRIES_PER_PAGE
+    last_page_len = (seq_len + CACHE_ENTRIES_PER_PAGE -
+                     1) % CACHE_ENTRIES_PER_PAGE + 1
     last_page = tl.load(block_table + pages_to_copy - 1)
-    last_page_start = kv_cache + last_page * kv_page_stride
+    last_page_start = kv_cache + last_page * CACHE_PAGE_SIZE
 
     cache_entry_range = tl.arange(0, CACHE_ENTRY_SIZE_POW_2)
     cache_entry_mask = cache_entry_range < CACHE_ENTRY_SIZE
@@ -753,37 +753,62 @@ def _forward_prefill(
     ) -> torch.Tensor:
         assert isinstance(attn_metadata, TritonMLAMetadata)
 
-        if attn_metadata.prefill_metadata.context_lens_tensor is not None and \
-            max(attn_metadata.prefill_metadata.context_lens_tensor) > 0:
-            entries_total = attn_metadata.prefill_metadata.seq_start_loc[-1]
-            kv_c_k_pe_cache = torch.empty(
+        prefill_meta = attn_metadata.prefill_metadata
+        assert prefill_meta is not None
+
+        if kv_c_and_k_pe_cache.numel() > 0 and \
+            prefill_meta.block_tables is not None and \
+            prefill_meta.block_tables.numel() > 0:
+            assert prefill_meta.seq_start_loc is not None
+            assert prefill_meta.max_query_len is not None
+
+            entries_total = prefill_meta.seq_start_loc[-1]
+            kv_c_k_pe_cache = torch.empty_strided(
                 (entries_total, kv_c_and_k_pe_cache.shape[-1]),
+                (kv_c_and_k_pe_cache.stride(1), 1),
                 dtype=kv_c_and_k_pe_cache.dtype,
                 device=kv_c_and_k_pe_cache.device,
             )
 
             assert kv_c_and_k_pe_cache.shape[-1] == 576
             assert kv_c_and_k_pe_cache.shape[-2] == 16
             _gather_kv_cache[(attn_metadata.num_prefills, )](
-                attn_metadata.prefill_metadata.seq_start_loc,
-                attn_metadata.prefill_metadata.block_tables,
-                attn_metadata.prefill_metadata.block_tables.stride(0),
+                prefill_meta.seq_start_loc,
+                prefill_meta.block_tables,
+                prefill_meta.block_tables.stride(0),
                 kv_c_and_k_pe_cache,
-                kv_c_and_k_pe_cache.stride(0),
                 kv_c_k_pe_cache,
-                CACHE_PAGE_SIZE=576 * 16,
-                CACHE_ENTRY_SIZE=576,
-                CACHE_ENTRIES_PER_PAGE=16,
-                CACHE_ENTRY_SIZE_POW_2=triton.next_power_of_2(576),
-                CACHE_PAGE_SIZE_POW_2=triton.next_power_of_2(576 * 16),
+                CACHE_PAGE_SIZE=kv_c_and_k_pe_cache.stride(0),
+                CACHE_ENTRY_SIZE=kv_c_and_k_pe_cache.stride(1),
+                CACHE_ENTRIES_PER_PAGE=kv_c_and_k_pe_cache.shape[1],
+                CACHE_ENTRY_SIZE_POW_2=triton.next_power_of_2(
+                    kv_c_and_k_pe_cache.stride(1)),
+                CACHE_PAGE_SIZE_POW_2=triton.next_power_of_2(
+                    kv_c_and_k_pe_cache.stride(0)),
             )
 
-            kv_c = kv_c_k_pe_cache[..., :self.kv_lora_rank].unsqueeze(1)
-            k_pe = kv_c_k_pe_cache[..., self.kv_lora_rank:].unsqueeze(1)
-
-        return self._forward_prefill_flash(q, kv_c, k_pe,
-                                           attn_metadata.seq_start_loc,
-                                           attn_metadata.max_prefill_seq_len)
+            kv_c = kv_c_k_pe_cache[..., :self.kv_lora_rank].unsqueeze(
+                1).contiguous()
+            k_pe = kv_c_k_pe_cache[..., self.kv_lora_rank:].unsqueeze(
+                1).contiguous()
+
+            return self._forward_prefill_flash(
+                q,
+                kv_c,
+                k_pe,
+                seq_start_loc=prefill_meta.seq_start_loc,
+                max_prefill_seq_len=prefill_meta.max_prefill_seq_len,
+                query_start_loc=prefill_meta.query_start_loc,
+                max_query_len=prefill_meta.max_query_len)
+        else:
+            return self._forward_prefill_flash(
+                q,
+                kv_c,
+                k_pe,
+                seq_start_loc=prefill_meta.seq_start_loc,
+                max_prefill_seq_len=prefill_meta.max_prefill_seq_len,
+                query_start_loc=prefill_meta.seq_start_loc,
+                max_query_len=prefill_meta.max_prefill_seq_len)
 
     def _forward_decode(
         self,
diff --git a/vllm/config.py b/vllm/config.py
@@ -3264,16 +3264,6 @@ def __post_init__(self):
 
         current_platform.check_and_update_config(self)
 
-        # If MLA is enabled, force disable chunked prefill and prefix caching
-        if self.model_config and self.model_config.use_mla:
-            logger.info("MLA is enabled; forcing chunked prefill and prefix "
-                        "caching to be disabled.")
-            self.scheduler_config.enable_chunked_prefill = False
-            self.scheduler_config.chunked_prefill_enabled = False
-
-            if self.cache_config is not None:
-                self.cache_config.enable_prefix_caching = False
-
         if not self.instance_id:
             self.instance_id = random_uuid()[:5]