pfnet
diff --git a/‎docs/design/cuda_graphs.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/design/cuda_graphs.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/v1/attention/test_attention_backends.py‎
Lines changed: 1 addition & 2 deletions b/‎tests/v1/attention/test_attention_backends.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎tests/v1/attention/test_mla_backends.py‎
Lines changed: 1 addition & 1 deletion b/‎tests/v1/attention/test_mla_backends.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/v1/attention/utils.py‎
Lines changed: 3 additions & 3 deletions b/‎tests/v1/attention/utils.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎tests/v1/e2e/test_async_spec_decode.py‎
Lines changed: 1 addition & 1 deletion b/‎tests/v1/e2e/test_async_spec_decode.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/v1/spec_decode/test_tree_attention.py‎
Lines changed: 1 addition & 1 deletion b/‎tests/v1/spec_decode/test_tree_attention.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎vllm/model_executor/layers/attention/chunked_local_attention.py‎
Lines changed: 4 additions & 2 deletions b/‎vllm/model_executor/layers/attention/chunked_local_attention.py‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎vllm/model_executor/layers/attention/cross_attention.py‎
Lines changed: 1 addition & 1 deletion b/‎vllm/model_executor/layers/attention/cross_attention.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎vllm/model_executor/layers/attention/encoder_only_attention.py‎
Lines changed: 1 addition & 1 deletion b/‎vllm/model_executor/layers/attention/encoder_only_attention.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎vllm/model_executor/layers/attention/static_sink_attention.py‎
Lines changed: 1 addition & 1 deletion b/‎vllm/model_executor/layers/attention/static_sink_attention.py‎
Lines changed: 1 addition & 1 deletion
@@ -149,7 +149,7 @@ The CUDA Graphs wrapper no longer manages the warm-up logic. The warm-up process
 
 ## CUDA Graphs Compatibility of Attention Backends
 
-To signal the CUDA Graphs compatibility of the attention backends, we introduce a new enum type [AttentionCGSupport][vllm.v1.attention.backends.utils.AttentionCGSupport], which is an enum type that tracks the capability of the attention backend to support CUDA Graphs. The value is sorted in the order of the capability, i.e., `ALWAYS`> `UNIFORM_BATCH`> `UNIFORM_SINGLE_TOKEN_DECODE`> `NEVER`.
+To signal the CUDA Graphs compatibility of the attention backends, we introduce a new enum type [AttentionCGSupport][vllm.v1.attention.backend.AttentionCGSupport], which is an enum type that tracks the capability of the attention backend to support CUDA Graphs. The value is sorted in the order of the capability, i.e., `ALWAYS`> `UNIFORM_BATCH`> `UNIFORM_SINGLE_TOKEN_DECODE`> `NEVER`.
 
 ```python
 class AttentionCGSupport(enum.Enum):
 
@@ -23,10 +23,9 @@
     is_torch_equal_or_newer,
     set_random_seed,
 )
-from vllm.v1.attention.backend import AttentionType
+from vllm.v1.attention.backend import AttentionType, CommonAttentionMetadata
 from vllm.v1.attention.backends.registry import AttentionBackendEnum
 from vllm.v1.attention.backends.utils import (
-    CommonAttentionMetadata,
     set_kv_cache_layout,
 )
 from vllm.v1.kv_cache_interface import FullAttentionSpec
 
@@ -22,10 +22,10 @@
 from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
 from vllm.utils.math_utils import cdiv
 from vllm.utils.torch_utils import STR_DTYPE_TO_TORCH_DTYPE
+from vllm.v1.attention.backend import CommonAttentionMetadata
 from vllm.v1.attention.backends.fa_utils import flash_attn_supports_mla
 from vllm.v1.attention.backends.mla.common import QueryLenSupport
 from vllm.v1.attention.backends.registry import AttentionBackendEnum
-from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 from vllm.v1.attention.ops.flashmla import is_flashmla_dense_supported
 from vllm.v1.kv_cache_interface import FullAttentionSpec
 
 
@@ -18,12 +18,12 @@
     VllmConfig,
 )
 from vllm.config.model import ModelDType
-from vllm.v1.attention.backend import AttentionImpl
-from vllm.v1.attention.backends.registry import AttentionBackendEnum
-from vllm.v1.attention.backends.utils import (
+from vllm.v1.attention.backend import (
+    AttentionImpl,
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
 )
+from vllm.v1.attention.backends.registry import AttentionBackendEnum
 from vllm.v1.kv_cache_interface import FullAttentionSpec
 
 
 
@@ -19,7 +19,7 @@ def sync_tracker():
     Fixture that patches CommonAttentionMetadata.seq_lens_cpu to detect
     lazy init syncs. Prints stack traces immediately when syncs occur.
     """
-    from vllm.v1.attention.backends.utils import CommonAttentionMetadata
+    from vllm.v1.attention.backend import CommonAttentionMetadata
 
     # Shared counter for cross-process communication (inherited by fork)
     sync_count = multiprocessing.Value("i", 0)
 
@@ -12,9 +12,9 @@
     try_get_attention_backend,
 )
 from vllm.config import ParallelConfig, SpeculativeConfig
+from vllm.v1.attention.backend import CommonAttentionMetadata
 from vllm.v1.attention.backends.fa_utils import is_flash_attn_varlen_func_available
 from vllm.v1.attention.backends.registry import AttentionBackendEnum
-from vllm.v1.attention.backends.utils import CommonAttentionMetadata
 
 if not is_flash_attn_varlen_func_available():
     pytest.skip(
 
@@ -8,11 +8,13 @@
 from vllm.config import CacheConfig
 from vllm.config.vllm import VllmConfig
 from vllm.model_executor.layers.quantization import QuantizationConfig
-from vllm.v1.attention.backend import AttentionBackend
-from vllm.v1.attention.backends.utils import (
+from vllm.v1.attention.backend import (
+    AttentionBackend,
     AttentionCGSupport,
     AttentionMetadataBuilder,
     CommonAttentionMetadata,
+)
+from vllm.v1.attention.backends.utils import (
     make_local_attention_virtual_batches,
     subclass_attention_backend,
 )
 
@@ -14,9 +14,9 @@
     AttentionBackend,
     AttentionMetadata,
     AttentionType,
+    CommonAttentionMetadata,
 )
 from vllm.v1.attention.backends.utils import (
-    CommonAttentionMetadata,
     subclass_attention_backend,
 )
 from vllm.v1.attention.selector import get_attn_backend
 
@@ -12,9 +12,9 @@
     AttentionBackend,
     AttentionMetadata,
     AttentionType,
+    CommonAttentionMetadata,
 )
 from vllm.v1.attention.backends.utils import (
-    CommonAttentionMetadata,
     subclass_attention_backend,
 )
 from vllm.v1.attention.selector import get_attn_backend
 
@@ -15,9 +15,9 @@
     AttentionBackend,
     AttentionMetadata,
     AttentionType,
+    CommonAttentionMetadata,
 )
 from vllm.v1.attention.backends.utils import (
-    CommonAttentionMetadata,
     subclass_attention_backend,
 )
 from vllm.v1.attention.ops.triton_reshape_and_cache_flash import (
Original file line number	Diff line number	Diff line change
`@@ -23,10 +23,9 @@`
`23`	`23`	`is_torch_equal_or_newer,`
`24`	`24`	`set_random_seed,`
`25`	`25`	`)`
`26`		`-from vllm.v1.attention.backend import AttentionType`
	`26`	`+from vllm.v1.attention.backend import AttentionType, CommonAttentionMetadata`
`27`	`27`	`from vllm.v1.attention.backends.registry import AttentionBackendEnum`
`28`	`28`	`from vllm.v1.attention.backends.utils import (`
`29`		`- CommonAttentionMetadata,`
`30`	`29`	`set_kv_cache_layout,`
`31`	`30`	`)`
`32`	`31`	`from vllm.v1.kv_cache_interface import FullAttentionSpec`
Original file line number	Diff line number	Diff line change
`@@ -18,12 +18,12 @@`
`18`	`18`	`VllmConfig,`
`19`	`19`	`)`
`20`	`20`	`from vllm.config.model import ModelDType`
`21`		`-from vllm.v1.attention.backend import AttentionImpl`
`22`		`-from vllm.v1.attention.backends.registry import AttentionBackendEnum`
`23`		`-from vllm.v1.attention.backends.utils import (`
	`21`	`+from vllm.v1.attention.backend import (`
	`22`	`+ AttentionImpl,`
`24`	`23`	`AttentionMetadataBuilder,`
`25`	`24`	`CommonAttentionMetadata,`
`26`	`25`	`)`
	`26`	`+from vllm.v1.attention.backends.registry import AttentionBackendEnum`
`27`	`27`	`from vllm.v1.kv_cache_interface import FullAttentionSpec`
`28`	`28`
`29`	`29`
Original file line number	Diff line number	Diff line change
`@@ -14,9 +14,9 @@`
`14`	`14`	`AttentionBackend,`
`15`	`15`	`AttentionMetadata,`
`16`	`16`	`AttentionType,`
	`17`	`+ CommonAttentionMetadata,`
`17`	`18`	`)`
`18`	`19`	`from vllm.v1.attention.backends.utils import (`
`19`		`- CommonAttentionMetadata,`
`20`	`20`	`subclass_attention_backend,`
`21`	`21`	`)`
`22`	`22`	`from vllm.v1.attention.selector import get_attn_backend`
Original file line number	Diff line number	Diff line change
`@@ -12,9 +12,9 @@`
`12`	`12`	`AttentionBackend,`
`13`	`13`	`AttentionMetadata,`
`14`	`14`	`AttentionType,`
	`15`	`+ CommonAttentionMetadata,`
`15`	`16`	`)`
`16`	`17`	`from vllm.v1.attention.backends.utils import (`
`17`		`- CommonAttentionMetadata,`
`18`	`18`	`subclass_attention_backend,`
`19`	`19`	`)`
`20`	`20`	`from vllm.v1.attention.selector import get_attn_backend`
Original file line number	Diff line number	Diff line change
`@@ -15,9 +15,9 @@`
`15`	`15`	`AttentionBackend,`
`16`	`16`	`AttentionMetadata,`
`17`	`17`	`AttentionType,`
	`18`	`+ CommonAttentionMetadata,`
`18`	`19`	`)`
`19`	`20`	`from vllm.v1.attention.backends.utils import (`
`20`		`- CommonAttentionMetadata,`
`21`	`21`	`subclass_attention_backend,`
`22`	`22`	`)`
`23`	`23`	`from vllm.v1.attention.ops.triton_reshape_and_cache_flash import (`