Refactor Code of cpp backend and flatten head (#220)

lijinnn · web-flow · commit 9233922be63f · 2026-01-21T21:17:34.000+08:00
* refactor test code and flatten head logic

* refactor is_cpp_backend_enable logic to fix partial import problem

* change test_pipeline time to 900
diff --git a/magi_attention/__init__.py b/magi_attention/__init__.py
@@ -16,6 +16,24 @@
 import os
 import warnings
 
+from . import comm, config, functional
+from .dist_attn_runtime_mgr import (
+    init_dist_attn_runtime_key,
+    init_dist_attn_runtime_mgr,
+)
+
+if importlib.util.find_spec("magi_attention._version") is None:
+    warnings.warn(
+        "You are using magi_attention without installing it. This may cause some unexpected errors."
+    )
+    version = None
+else:
+    from ._version import __version__ as git_version
+
+    version = git_version
+
+__version__: str | None = version
+
 
 def is_sanity_check_enable() -> bool:
     """
@@ -85,17 +103,6 @@ def is_profile_mode_enable() -> bool:
     return os.environ.get("MAGI_ATTENTION_PROFILE_MODE", "0") == "1"
 
 
-def is_cpp_backend_enable() -> bool:
-    """
-    Toggle this env variable to ``1`` to enable C++ backend
-    for core data structures (AttnRange, AttnMaskType, etc.)
-    and fall back to Python implementation.
-
-    Default value is ``0``
-    """
-    return os.environ.get("MAGI_ATTENTION_CPP_BACKEND", "0") == "1"
-
-
 def dist_attn_runtime_dict_size() -> int:
     """
     Set the value of this env variable to control
@@ -106,31 +113,13 @@ def dist_attn_runtime_dict_size() -> int:
     return int(os.environ.get("MAGI_ATTENTION_DIST_ATTN_RUNTIME_DICT_SIZE", "1000"))
 
 
-from . import comm, config, functional  # noqa: E402
-from .dist_attn_runtime_mgr import (  # noqa: E402
-    init_dist_attn_runtime_key,
-    init_dist_attn_runtime_mgr,
-)
-
-if importlib.util.find_spec("magi_attention._version") is None:
-    warnings.warn(
-        "You are using magi_attention without installing it. This may cause some unexpected errors."
-    )
-    version = None
-else:
-    from ._version import __version__ as git_version
-
-    version = git_version
-
-__version__: str | None = version
-
 __all__ = [
     "init_dist_attn_runtime_key",
     "init_dist_attn_runtime_mgr",
     "is_sanity_check_enable",
     "is_flatten_head_groups_enable",
     "is_cuda_device_max_connections_one",
-    "is_cpp_backend_enable",
+    "dist_attn_runtime_dict_size",
     "config",
     "comm",
     "functional",
diff --git a/magi_attention/common/__init__.py b/magi_attention/common/__init__.py
@@ -12,14 +12,26 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from magi_attention import is_cpp_backend_enable
+import os
 
-from . import enum, jit, range_op
-from .mask import AttnMask
-from .range import AttnRange, RangeError
-from .ranges import AttnRanges
-from .rectangle import AttnRectangle
-from .rectangles import AttnRectangles
+
+def is_cpp_backend_enable() -> bool:
+    """
+    Toggle this env variable to ``1`` to enable C++ backend
+    for core data structures (AttnRange, AttnMaskType, etc.)
+    and fall back to Python implementation.
+
+    Default value is ``0``
+    """
+    return os.environ.get("MAGI_ATTENTION_CPP_BACKEND", "0") == "1"
+
+
+from . import enum, jit, range_op  # noqa: E402
+from .mask import AttnMask  # noqa: E402
+from .range import AttnRange, RangeError  # noqa: E402
+from .ranges import AttnRanges  # noqa: E402
+from .rectangle import AttnRectangle  # noqa: E402
+from .rectangles import AttnRectangles  # noqa: E402
 
 # Try to use C++ extensions for core data structures to avoid Python overhead
 # The submodules (range, ranges, rectangle, rectangles, enum) already handle
@@ -47,4 +59,5 @@
     "AttnRectangles",
     "range_op",
     "USE_CPP_BACKEND",
+    "is_cpp_backend_enable",
 ]
diff --git a/magi_attention/common/enum.py b/magi_attention/common/enum.py
@@ -17,6 +17,8 @@
 
 import torch
 
+from . import is_cpp_backend_enable
+
 GroupReduceOp: TypeAlias = Literal["sum", "avg", "lse"]
 
 OutMaybeWithLSE: TypeAlias = torch.Tensor | tuple[torch.Tensor, torch.Tensor]
@@ -124,8 +126,6 @@ class DynamicAttnAlgType(Enum):
     BINARY_GREEDY_PARALLEL = "binary_greedy_parallel"
 
 
-from magi_attention import is_cpp_backend_enable  # noqa: E402
-
 if is_cpp_backend_enable():
     try:
         from magi_attention.magi_attn_ext import AttnMaskType as _AttnMaskType
diff --git a/magi_attention/common/range.py b/magi_attention/common/range.py
@@ -14,6 +14,8 @@
 
 from typing import Any, TypeAlias, Union
 
+from . import is_cpp_backend_enable
+
 NaiveRange: TypeAlias = tuple[int, int] | list[int]
 
 
@@ -183,8 +185,6 @@ def __repr__(self) -> str:
         return f"[{self._start}, {self._end})"
 
 
-from magi_attention import is_cpp_backend_enable  # noqa: E402
-
 if is_cpp_backend_enable():
     try:
         from magi_attention.magi_attn_ext import AttnRange as _AttnRange
diff --git a/magi_attention/common/ranges.py b/magi_attention/common/ranges.py
@@ -19,6 +19,7 @@
 
 from magi_attention.utils import nvtx
 
+from . import is_cpp_backend_enable
 from .range import AttnRange, NaiveRange, RangeError
 
 NaiveRanges: TypeAlias = Sequence[NaiveRange]
@@ -782,8 +783,6 @@ def __repr__(self) -> str:
         return f"{self._ranges}"
 
 
-from magi_attention import is_cpp_backend_enable  # noqa: E402
-
 if is_cpp_backend_enable():
     try:
         from magi_attention.magi_attn_ext import AttnRanges as _AttnRanges
diff --git a/magi_attention/common/rectangle.py b/magi_attention/common/rectangle.py
@@ -14,6 +14,7 @@
 
 from typing import Any, Union
 
+from . import is_cpp_backend_enable
 from .enum import AttnMaskType
 from .range import AttnRange
 
@@ -510,8 +511,6 @@ def __repr__(self) -> str:
         return f"{self._q_range} x {self._k_range} x {self._d_range}"
 
 
-from magi_attention import is_cpp_backend_enable  # noqa: E402
-
 if is_cpp_backend_enable():
     try:
         from magi_attention.magi_attn_ext import AttnRectangle as _AttnRectangle
diff --git a/magi_attention/common/rectangles.py b/magi_attention/common/rectangles.py
@@ -14,6 +14,7 @@
 
 from typing import Any, Iterator, Sequence, TypeAlias, Union
 
+from . import is_cpp_backend_enable
 from .enum import AttnMaskType
 from .range import AttnRange, NaiveRange
 from .ranges import AttnRanges
@@ -252,8 +253,6 @@ def __repr__(self) -> str:
         return f"{self._rects}"
 
 
-from magi_attention import is_cpp_backend_enable  # noqa: E402
-
 if is_cpp_backend_enable():
     try:
         from magi_attention.magi_attn_ext import AttnRectangles as _AttnRectangles
diff --git a/magi_attention/meta/_make_attn_meta.py b/magi_attention/meta/_make_attn_meta.py
@@ -86,7 +86,6 @@ def make_attn_meta_from_dispatch_meta(
             q_ranges=q_ranges,
             k_ranges=k_ranges,
             attn_mask_type=attn_mask_type,
-            flatten_head_groups=magi_attention.is_flatten_head_groups_enable(),
         )
         # only for debug: visualize the buckets
         # if cp_group.rank() == 0:
@@ -107,7 +106,6 @@ def make_attn_meta_from_dispatch_meta(
             attn_mask_type=attn_mask_type,
             dispatch_meta_q=dispatch_meta_q,
             dispatch_meta_k=dispatch_meta_k,
-            flatten_head_groups=magi_attention.is_flatten_head_groups_enable(),
         )
 
     assert attn_solver.is_solved
diff --git a/magi_attention/meta/algorithms/binary_greedy_parallel.py b/magi_attention/meta/algorithms/binary_greedy_parallel.py
@@ -17,8 +17,12 @@
 
 import torch.distributed as dist
 
-from magi_attention import is_cpp_backend_enable
-from magi_attention.common import AttnRange, AttnRanges, AttnRectangles
+from magi_attention.common import (
+    AttnRange,
+    AttnRanges,
+    AttnRectangles,
+    is_cpp_backend_enable,
+)
 from magi_attention.common.enum import DynamicAttnAlgType
 
 from .base import DynamicAttnAlgorithm
diff --git a/magi_attention/meta/container/transfer_table.py b/magi_attention/meta/container/transfer_table.py
@@ -15,6 +15,7 @@
 from dataclasses import dataclass
 from typing import Any, Iterator
 
+from magi_attention.common import is_cpp_backend_enable
 from magi_attention.common.range import AttnRange
 from magi_attention.common.ranges import AttnRanges
 from magi_attention.utils import nvtx
@@ -81,8 +82,6 @@ def __iter__(self) -> Iterator[AttnRangeWithRank]:
         return iter(self._ranges)
 
 
-from magi_attention import is_cpp_backend_enable  # noqa: E402
-
 if is_cpp_backend_enable():
     try:
         from magi_attention.magi_attn_ext import AttnRangeWithRank as _AttnRangeWithRank
diff --git a/magi_attention/meta/solver/dist_attn_solver.py b/magi_attention/meta/solver/dist_attn_solver.py
@@ -24,10 +24,10 @@
 from torch.distributed.device_mesh import DeviceMesh
 
 import magi_attention
-from magi_attention import is_cpp_backend_enable
 from magi_attention.comm.primitive.grpcoll.utils import (
     sanity_check_for_group_cast_meta_args_per_rank,
 )
+from magi_attention.common import is_cpp_backend_enable
 from magi_attention.common.enum import AttnMaskType, AttnOverlapMode
 from magi_attention.common.range import AttnRange
 from magi_attention.common.ranges import AttnRanges
@@ -209,8 +209,8 @@ def solve(
         attn_mask_type: Union[list[int], list[AttnMaskType], AttnMaskType, int],
         dispatch_meta_q: DispatchMeta,
         dispatch_meta_k: DispatchMeta,
-        flatten_head_groups: bool = False,
     ) -> None:
+        flatten_head_groups = magi_attention.is_flatten_head_groups_enable()
         if flatten_head_groups:
             self.num_heads_group = self.num_heads_kv
             self.num_heads_q = self.num_heads_q // self.num_heads_group
diff --git a/magi_attention/meta/solver/dynamic_attn_solver.py b/magi_attention/meta/solver/dynamic_attn_solver.py
@@ -18,8 +18,12 @@
 from torch.distributed.device_mesh import DeviceMesh
 
 import magi_attention
-from magi_attention import is_cpp_backend_enable
-from magi_attention.common import AttnRange, AttnRanges, AttnRectangles
+from magi_attention.common import (
+    AttnRange,
+    AttnRanges,
+    AttnRectangles,
+    is_cpp_backend_enable,
+)
 from magi_attention.common.enum import AttnMaskType
 from magi_attention.meta.algorithms import DynamicAttnAlgorithm
 from magi_attention.meta.collection.calc_meta import AttnArg, CalcMeta
@@ -121,8 +125,8 @@ def solve(
         q_ranges: AttnRanges,
         k_ranges: AttnRanges,
         attn_mask_type: Union[list[int], list[AttnMaskType], AttnMaskType],
-        flatten_head_groups: bool = False,
     ):
+        flatten_head_groups = magi_attention.is_flatten_head_groups_enable()
         if flatten_head_groups:
             self.num_heads_group = self.num_heads_kv
             self.num_heads_q = self.num_heads_q // self.num_heads_group
@@ -186,11 +190,6 @@ def output_solve_result(
         visualize: bool = False,
         save_path: str | None = None,
     ) -> None:
-        # for rank in range(self.cp_size):
-        #     print(f"rank {rank} bucket:")
-        #     for rect in self.bucket_per_rank[rank]:
-        #         print(rect)
-
         if not visualize:
             return
 
diff --git a/tests/test_common/test_attn_range.py b/tests/test_common/test_attn_range.py
@@ -35,11 +35,15 @@ def reload_magi_modules():
 
 
 class TestAttnRange(TestCase):
+    @property
+    def use_cpp_backend(self):
+        return False
+
     def setUp(self):
-        # Ensure we are using the Python backend
+        # Ensure we are using the specified backend
         self.switch_back = switch_envvars(
             ["MAGI_ATTENTION_CPP_BACKEND"],
-            enable_dict={"MAGI_ATTENTION_CPP_BACKEND": False},
+            enable_dict={"MAGI_ATTENTION_CPP_BACKEND": self.use_cpp_backend},
         )
         reload_magi_modules()
 
@@ -304,18 +308,9 @@ def test_edge_cases(self):
 
 
 class TestCppAttnRange(TestAttnRange):
-    def setUp(self):
-        # Ensure we are using the C++ backend
-        self.switch_back = switch_envvars(
-            ["MAGI_ATTENTION_CPP_BACKEND"],
-            enable_dict={"MAGI_ATTENTION_CPP_BACKEND": True},
-        )
-        common = reload_magi_modules()
-        if not getattr(common, "USE_CPP_BACKEND", False):
-            self.skipTest("C++ backend is not available")
-
-    def tearDown(self):
-        self.switch_back()
+    @property
+    def use_cpp_backend(self):
+        return True
 
 
 if __name__ == "__main__":
diff --git a/tests/test_common/test_attn_ranges.py b/tests/test_common/test_attn_ranges.py
@@ -36,11 +36,15 @@ def reload_magi_modules():
 
 
 class TestAttnRanges(TestCase):
+    @property
+    def use_cpp_backend(self):
+        return False
+
     def setUp(self):
-        # Ensure we are using the Python backend
+        # Ensure we are using the specified backend
         self.switch_back = switch_envvars(
             ["MAGI_ATTENTION_CPP_BACKEND"],
-            enable_dict={"MAGI_ATTENTION_CPP_BACKEND": False},
+            enable_dict={"MAGI_ATTENTION_CPP_BACKEND": self.use_cpp_backend},
         )
         reload_magi_modules()
 
@@ -915,18 +919,9 @@ def test_union_size_with(self):
 
 
 class TestCppAttnRanges(TestAttnRanges):
-    def setUp(self):
-        # Ensure we are using the C++ backend
-        self.switch_back = switch_envvars(
-            ["MAGI_ATTENTION_CPP_BACKEND"],
-            enable_dict={"MAGI_ATTENTION_CPP_BACKEND": True},
-        )
-        common = reload_magi_modules()
-        if not getattr(common, "USE_CPP_BACKEND", False):
-            self.skipTest("C++ backend is not available")
-
-    def tearDown(self):
-        self.switch_back()
+    @property
+    def use_cpp_backend(self):
+        return True
 
 
 if __name__ == "__main__":
diff --git a/tests/test_common/test_rectangle.py b/tests/test_common/test_rectangle.py
diff --git a/tests/test_common/test_rectangles.py b/tests/test_common/test_rectangles.py
diff --git a/tests/test_dispatch/test_calc_self_attn_areas.py b/tests/test_dispatch/test_calc_self_attn_areas.py
diff --git a/tests/test_dispatch/test_gt_dispatcher.py b/tests/test_dispatch/test_gt_dispatcher.py
diff --git a/tests/test_pipeline.py b/tests/test_pipeline.py

Original file line number	Diff line number	Diff line change
`@@ -86,7 +86,6 @@ def make_attn_meta_from_dispatch_meta(`
`86`	`86`	`q_ranges=q_ranges,`
`87`	`87`	`k_ranges=k_ranges,`
`88`	`88`	`attn_mask_type=attn_mask_type,`
`89`		`- flatten_head_groups=magi_attention.is_flatten_head_groups_enable(),`
`90`	`89`	`)`
`91`	`90`	`# only for debug: visualize the buckets`
`92`	`91`	`# if cp_group.rank() == 0:`
`@@ -107,7 +106,6 @@ def make_attn_meta_from_dispatch_meta(`
`107`	`106`	`attn_mask_type=attn_mask_type,`
`108`	`107`	`dispatch_meta_q=dispatch_meta_q,`
`109`	`108`	`dispatch_meta_k=dispatch_meta_k,`
`110`		`- flatten_head_groups=magi_attention.is_flatten_head_groups_enable(),`
`111`	`109`	`)`
`112`	`110`
`113`	`111`	`assert attn_solver.is_solved`