re-enable avoid torch slice fix when chunked prefill is disabled (#209)

sanyalington · web-flow · commit a5d87a12fdd9 · 2024-09-26T13:37:19.000-04:00
diff --git a/vllm/attention/backends/rocm_flash_attn.py b/vllm/attention/backends/rocm_flash_attn.py
@@ -573,7 +573,7 @@ def forward(
                 else:
                     out = output
                 ops.paged_attention_rocm(
-                    output[num_prefill_tokens:],
+                    out,
                     exp_sums,
                     max_logits,
                     tmp_output,