[V1] port xformers backend to v1 (#21342)

TheEpicDolphin · web-flow · commit 469b3ffaaadb · 2025-08-05T10:04:46.000-07:00
Signed-off-by: Giancarlo Delfin &lt;gdelfin@meta.com&gt;
diff --git a/tests/v1/attention/utils.py b/tests/v1/attention/utils.py
@@ -128,6 +128,8 @@ def get_attention_backend(backend_name: _Backend):
         "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend",
         _Backend.TREE_ATTN:
         "vllm.v1.attention.backends.tree_attn.TreeAttentionBackend",
+        _Backend.XFORMERS_VLLM_V1:
+        "vllm.v1.attention.backends.xformers.XFormersAttentionBackend",
     }
 
     if backend_name not in backend_map:
diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
@@ -1469,6 +1469,7 @@ def _is_v1_supported_oracle(self, model_config: ModelConfig) -> bool:
             "TORCH_SDPA_VLLM_V1",
             "FLEX_ATTENTION",
             "TREE_ATTN",
+            "XFORMERS_VLLM_V1",
         ]
         if (envs.is_set("VLLM_ATTENTION_BACKEND")
                 and envs.VLLM_ATTENTION_BACKEND not in V1_BACKENDS):
diff --git a/vllm/platforms/cuda.py b/vllm/platforms/cuda.py
@@ -271,6 +271,7 @@ def get_attn_backend_cls(cls, selected_backend, head_size, dtype,
             TRITON_ATTN_VLLM_V1 = "vllm.v1.attention.backends.triton_attn.TritonAttentionBackend"  # noqa: E501
             FLASH_ATTN_V1 = "vllm.v1.attention.backends.flash_attn.FlashAttentionBackend"  # noqa: E501
             TREE_ATTN_V1 = "vllm.v1.attention.backends.tree_attn.TreeAttentionBackend"  # noqa: E501
+            XFORMERS_V1 = "vllm.v1.attention.backends.xformers.XFormersAttentionBackend"  # noqa: E501
 
             if selected_backend == _Backend.FLASHINFER:
                 logger.info_once("Using FlashInfer backend on V1 engine.")
@@ -291,6 +292,9 @@ def get_attn_backend_cls(cls, selected_backend, head_size, dtype,
             elif selected_backend == _Backend.TREE_ATTN:
                 logger.info_once("Using Tree Attention backend on V1 engine.")
                 return TREE_ATTN_V1
+            elif selected_backend == _Backend.XFORMERS_VLLM_V1:
+                logger.info_once("Using XFormers backend on V1 engine.")
+                return XFORMERS_V1
 
             from vllm.attention.selector import is_attn_backend_supported
 
diff --git a/vllm/platforms/interface.py b/vllm/platforms/interface.py
@@ -63,6 +63,7 @@ class _Backend(enum.Enum):
     NO_ATTENTION = enum.auto()
     FLEX_ATTENTION = enum.auto()
     TREE_ATTN = enum.auto()
+    XFORMERS_VLLM_V1 = enum.auto()
 
 
 class PlatformEnum(enum.Enum):
diff --git a/vllm/v1/attention/backends/tree_attn.py b/vllm/v1/attention/backends/tree_attn.py
@@ -316,7 +316,6 @@ def __init__(
         logits_soft_cap: Optional[float] = None,
         attn_type: AttentionType = AttentionType.DECODER,
         kv_sharing_target_layer_name: Optional[str] = None,
-        use_irope: bool = False,
     ) -> None:
         self.num_heads = num_heads
         self.head_size = head_size
diff --git a/vllm/v1/attention/backends/xformers.py b/vllm/v1/attention/backends/xformers.py

Original file line number	Diff line number	Diff line change
`@@ -128,6 +128,8 @@ def get_attention_backend(backend_name: _Backend):`
`128`	`128`	`"vllm.v1.attention.backends.triton_attn.TritonAttentionBackend",`
`129`	`129`	`_Backend.TREE_ATTN:`
`130`	`130`	`"vllm.v1.attention.backends.tree_attn.TreeAttentionBackend",`
	`131`	`+ _Backend.XFORMERS_VLLM_V1:`
	`132`	`+ "vllm.v1.attention.backends.xformers.XFormersAttentionBackend",`
`131`	`133`	`}`
`132`	`134`
`133`	`135`	`if backend_name not in backend_map:`
Original file line number	Diff line number	Diff line change
`@@ -1469,6 +1469,7 @@ def _is_v1_supported_oracle(self, model_config: ModelConfig) -> bool:`
`1469`	`1469`	`"TORCH_SDPA_VLLM_V1",`
`1470`	`1470`	`"FLEX_ATTENTION",`
`1471`	`1471`	`"TREE_ATTN",`
	`1472`	`+ "XFORMERS_VLLM_V1",`
`1472`	`1473`	`]`
`1473`	`1474`	`if (envs.is_set("VLLM_ATTENTION_BACKEND")`
`1474`	`1475`	`and envs.VLLM_ATTENTION_BACKEND not in V1_BACKENDS):`