[0.9.1][BUGFIX] FIX FIA input when mtp is enabled in pd Disaggregation scenario (#2509)

JC-ut0 · web-flow · commit a5ca6a567b59 · 2025-08-25T16:37:40.000+08:00
### What this PR does / why we need it?
This bug can be triggered by receving over 16 requests at one time from
prefill node for one decode node, since
torch_npu.npu_fused_infer_attention_score can only accept 16 sequence
length for query in one batch.

### How was this patch tested?
4P1D:
P:
```
vllm serve /mnt/nfs/levis/DeepSeek-R1_w8a8_vllm \
  --host 0.0.0.0 \
  --port 20002 \
  --data-parallel-size 2 \
  --data-parallel-size-local 2 \
  --data-parallel-address 141.61.39.149 \
  --data-parallel-rpc-port 13348 \
  --tensor-parallel-size 8 \
  --max-num-seqs 512 \
  --seed 1024 \
  --served-model-name ds_r1 \
  --max-model-len 17000 \
  --max-num-batched-tokens 16384 \
  --trust-remote-code \
  --gpu-memory-utilization 0.9  \
  --quantization ascend \
  --speculative-config '{"num_speculative_tokens": 1, "method":"deepseek_mtp"}' \
  --enable-expert-parallel \
  --enforce-eager \
  --kv-transfer-config  \
  '{"kv_connector": "LLMDataDistCMgrConnector",
  "kv_buffer_device": "npu",
  "kv_role": "kv_producer",
  "kv_parallel_size": 1,
  "kv_port": "20001",
  "engine_id": "0",
  "kv_connector_module_path": "vllm_ascend.distributed.llmdatadist_c_mgr_connector"
  }'  \
  --additional-config \
  '{"ascend_scheduler_config":{"enabled":false}, "torchair_graph_config":{"enabled":false,"enable_multistream_shared_expert":false},"chunked_prefill_for_mla":true,"enable_weight_nz_layout":true,"enable_prefill_optimizations":true}'

```

D：
```
vllm serve /mnt/nfs/levis/DeepSeek-R1_w8a8_vllm \
  --host 0.0.0.0 \
  --port 20002 \
  --data-parallel-size 64 \
  --data-parallel-size-local 16 \
  --data-parallel-address 141.61.39.165 \
  --data-parallel-rpc-port 13348 \
  --tensor-parallel-size 1 \
  --seed 1024 \
  --served-model-name ds_r1 \
  --max-model-len 17000 \
  --max-num-batched-tokens 256 \
  --max-num-seqs 28 \
  --quantization ascend \
  --trust-remote-code \
  --speculative-config '{"num_speculative_tokens": 1, "method":"deepseek_mtp"}' \
  --gpu-memory-utilization 0.9  \
  --enable-expert-parallel \
  --kv-transfer-config  \
  '{"kv_connector": "LLMDataDistCMgrConnector",
  "kv_buffer_device": "npu",
  "kv_role": "kv_consumer",
  "kv_parallel_size": 1,
  "kv_port": "20001",
  "engine_id": "0",
  "kv_connector_module_path": "vllm_ascend.distributed.llmdatadist_c_mgr_connector"
  }'  \
  --additional-config \
  '{"ascend_scheduler_config":{"enabled":false},"torchair_graph_config":{"enabled":true,"enable_multistream_mla":true,"enable_multistream_moe":true,"graph_batch_sizes":[28], "enable_super_kernel":true, "use_cached_graph":true},"chunked_prefill_for_mla":true,"enable_weight_nz_layout":true}'
```

Signed-off-by: xuyexiong &lt;xuyexiong@huawei.com&gt;
diff --git a/vllm_ascend/attention/mla_v1.py b/vllm_ascend/attention/mla_v1.py
@@ -543,8 +543,9 @@ def build(
                                                device=input_positions.device)
                 input_positions = torch.cat(
                     [input_positions, position_padding])
-                actual_seq_lengths_q = actual_seq_lengths_q + self.runner.actual_seq_lengths_q[
-                    num_reqs:num_reqs + num_reqs_pad_size]
+
+                actual_seq_lengths_q = self.pad_actual_seq_len_q(
+                    num_reqs_pad_size, num_reqs, actual_seq_lengths_q)
             else:
                 seq_lens_list = seq_lens.tolist()
             # mtp torchair + PD scenario, last element of actual_seq_lengths_q must equal to batch_size(num_tokens)
@@ -588,6 +589,30 @@ def build(
             enable_dbo_across_dp=common_attn_metadata.enable_dbo_across_dp,
         )
 
+    def pad_actual_seq_len_q(self, num_reqs_pad_size, num_reqs,
+                             actual_seq_lengths_q):
+        need_padding = num_reqs_pad_size != 0 and \
+            len(self.runner.actual_seq_lengths_q) > num_reqs and \
+            self.runner.actual_seq_lengths_q[num_reqs] - actual_seq_lengths_q[-1] > 16
+        if need_padding:
+            padding_seq_len_q = self.runner.actual_seq_lengths_q[
+                num_reqs:num_reqs + num_reqs_pad_size]
+            start_val = actual_seq_lengths_q[-1]
+            end_val = padding_seq_len_q[-1]
+
+            num_step = len(padding_seq_len_q)
+            interpolated = np.round(
+                np.linspace(start_val, end_val,
+                            num_step + 1)[1:]).astype(int).tolist()
+            assert interpolated[-1] == end_val
+            assert len(interpolated) == len(padding_seq_len_q)
+            actual_seq_lengths_q = actual_seq_lengths_q + interpolated
+        else:
+            actual_seq_lengths_q = actual_seq_lengths_q + self.runner.actual_seq_lengths_q[
+                num_reqs:num_reqs + num_reqs_pad_size]
+
+        return actual_seq_lengths_q
+
 
 class AscendMLAImpl(MLAAttentionImpl):
     """