fix(util): move is_primary_rank to distributed utils to avoid circular import

dest1n1s · dest1n1s · commit b9446c492da8 · 2026-03-03T16:05:16.000+08:00
diff --git a/src/lm_saes/abstract_sae.py b/src/lm_saes/abstract_sae.py
@@ -35,13 +35,10 @@
 from lm_saes.backend.language_model import LanguageModelConfig
 from lm_saes.config import BaseModelConfig
 from lm_saes.utils.auto import PretrainedSAEType, auto_infer_pretrained_sae_type
-from lm_saes.utils.distributed import DimMap, distributed_topk, item, mesh_dim_size
+from lm_saes.utils.distributed import DimMap, distributed_topk, is_primary_rank, item, mesh_dim_size
 from lm_saes.utils.distributed.utils import execute_and_broadcast
 from lm_saes.utils.logging import get_distributed_logger
 from lm_saes.utils.math import topk
-from lm_saes.utils.misc import (
-    is_primary_rank,
-)
 from lm_saes.utils.tensor_specs import TensorSpecs, apply_token_mask
 from lm_saes.utils.timer import timer
 
diff --git a/src/lm_saes/analysis/feature_analyzer.py b/src/lm_saes/analysis/feature_analyzer.py
@@ -16,9 +16,8 @@
 from lm_saes.crosscoder import CrossCoder
 from lm_saes.sparse_dictionary import SparseDictionary
 from lm_saes.utils.discrete import KeyedDiscreteMapper
-from lm_saes.utils.distributed import DimMap, masked_fill, to_local
+from lm_saes.utils.distributed import DimMap, is_primary_rank, masked_fill, to_local
 from lm_saes.utils.distributed.ops import item
-from lm_saes.utils.misc import is_primary_rank
 from lm_saes.utils.tensor_dict import concat_dict_of_tensor, sort_dict_of_tensor
 
 from .post_analysis import PostAnalysisProcessor, get_post_analysis_processor
diff --git a/src/lm_saes/analysis/post_analysis/lorsa.py b/src/lm_saes/analysis/post_analysis/lorsa.py
@@ -34,9 +34,9 @@
 from lm_saes.lorsa import LowRankSparseAttention
 from lm_saes.sparse_dictionary import SparseDictionary
 from lm_saes.utils.discrete import KeyedDiscreteMapper
+from lm_saes.utils.distributed import is_primary_rank
 from lm_saes.utils.distributed.ops import item
 from lm_saes.utils.logging import get_distributed_logger
-from lm_saes.utils.misc import is_primary_rank
 
 from .base import PostAnalysisProcessor, register_post_analysis_processor
 
diff --git a/src/lm_saes/runners/topk_to_jumprelu_conversion.py b/src/lm_saes/runners/topk_to_jumprelu_conversion.py
@@ -14,8 +14,8 @@
 from lm_saes.database import MongoClient, MongoDBConfig
 from lm_saes.resource_loaders import load_dataset, load_model
 from lm_saes.sparse_dictionary import SparseDictionary
+from lm_saes.utils.distributed import is_primary_rank
 from lm_saes.utils.logging import get_distributed_logger, setup_logging
-from lm_saes.utils.misc import is_primary_rank
 from lm_saes.utils.topk_to_jumprelu_conversion import topk_to_jumprelu_conversion
 
 from .utils import PretrainedSAE, load_config
diff --git a/src/lm_saes/runners/train.py b/src/lm_saes/runners/train.py
@@ -22,9 +22,8 @@
 from lm_saes.resource_loaders import load_dataset, load_model
 from lm_saes.sparse_dictionary import SparseDictionary, SparseDictionaryConfig
 from lm_saes.trainer import Trainer, TrainerConfig, WandbConfig
-from lm_saes.utils.distributed import mesh_rank
+from lm_saes.utils.distributed import is_primary_rank, mesh_rank
 from lm_saes.utils.logging import get_distributed_logger, setup_logging
-from lm_saes.utils.misc import is_primary_rank
 
 from .utils import PretrainedSAE, load_config
 
diff --git a/src/lm_saes/sparse_dictionary.py b/src/lm_saes/sparse_dictionary.py
@@ -35,13 +35,10 @@
 from lm_saes.backend.language_model import LanguageModelConfig
 from lm_saes.config import BaseModelConfig
 from lm_saes.utils.auto import PretrainedSAEType, auto_infer_pretrained_sae_type
-from lm_saes.utils.distributed import DimMap, distributed_topk, item, mesh_dim_size
+from lm_saes.utils.distributed import DimMap, distributed_topk, is_primary_rank, item, mesh_dim_size
 from lm_saes.utils.distributed.utils import execute_and_broadcast
 from lm_saes.utils.logging import get_distributed_logger
 from lm_saes.utils.math import topk
-from lm_saes.utils.misc import (
-    is_primary_rank,
-)
 from lm_saes.utils.tensor_specs import TensorSpecs, apply_token_mask
 from lm_saes.utils.timer import timer
 
diff --git a/src/lm_saes/trainer.py b/src/lm_saes/trainer.py
@@ -35,12 +35,12 @@
 )
 from lm_saes.optim import SparseAdam, clip_grad_norm, get_scheduler
 from lm_saes.sparse_dictionary import SparseDictionary
+from lm_saes.utils.distributed import is_primary_rank
 from lm_saes.utils.distributed.ops import item
 from lm_saes.utils.logging import get_distributed_logger, log_metrics
 from lm_saes.utils.misc import (
     convert_str_to_torch_dtype,
     convert_torch_dtype_to_str,
-    is_primary_rank,
 )
 from lm_saes.utils.tensor_specs import apply_token_mask
 from lm_saes.utils.timer import timer
diff --git a/src/lm_saes/utils/distributed/__init__.py b/src/lm_saes/utils/distributed/__init__.py
@@ -4,6 +4,7 @@
     all_gather_dict,
     all_gather_list,
     get_process_group,
+    is_primary_rank,
     mesh_dim_rank,
     mesh_dim_size,
     mesh_rank,
@@ -12,6 +13,7 @@
 
 __all__ = [
     "DimMap",
+    "is_primary_rank",
     "distributed_topk",
     "item",
     "masked_fill",
diff --git a/src/lm_saes/utils/distributed/utils.py b/src/lm_saes/utils/distributed/utils.py
@@ -7,7 +7,17 @@
 from torch.distributed.device_mesh import DeviceMesh
 from torch.distributed.tensor import Placement
 
-from lm_saes.utils.misc import is_primary_rank
+
+def is_primary_rank(device_mesh: DeviceMesh | None, dim_name: str = "sweep") -> bool:
+    """Check if the current rank is the primary rank for the given mesh dimension."""
+    if device_mesh is None:
+        return True
+    coord = device_mesh.get_coordinate()
+    mesh_dim_names = device_mesh.mesh_dim_names
+    if coord is None or mesh_dim_names is None:
+        return False
+    coord = [c for i, c in enumerate(coord) if dim_name not in mesh_dim_names or i != mesh_dim_names.index(dim_name)]
+    return all(c == 0 for c in coord)
 
 
 def all_gather_dict(
diff --git a/src/lm_saes/utils/misc.py b/src/lm_saes/utils/misc.py
@@ -18,17 +18,6 @@ def is_master() -> bool:
     return not dist.is_initialized() or dist.get_rank() == 0
 
 
-def is_primary_rank(device_mesh: DeviceMesh | None, dim_name: str = "sweep") -> bool:
-    if device_mesh is None:
-        return True
-    coord = device_mesh.get_coordinate()
-    mesh_dim_names = device_mesh.mesh_dim_names
-    if coord is None or mesh_dim_names is None:
-        return False
-    coord = [c for i, c in enumerate(coord) if dim_name not in mesh_dim_names or i != mesh_dim_names.index(dim_name)]
-    return all(c == 0 for c in coord)
-
-
 def print_once(
     *values: object,
     sep: str | None = " ",

Original file line number	Diff line number	Diff line change
`@@ -35,12 +35,12 @@`
`35`	`35`	`)`
`36`	`36`	`from lm_saes.optim import SparseAdam, clip_grad_norm, get_scheduler`
`37`	`37`	`from lm_saes.sparse_dictionary import SparseDictionary`
	`38`	`+from lm_saes.utils.distributed import is_primary_rank`
`38`	`39`	`from lm_saes.utils.distributed.ops import item`
`39`	`40`	`from lm_saes.utils.logging import get_distributed_logger, log_metrics`
`40`	`41`	`from lm_saes.utils.misc import (`
`41`	`42`	`convert_str_to_torch_dtype,`
`42`	`43`	`convert_torch_dtype_to_str,`
`43`		`- is_primary_rank,`
`44`	`44`	`)`
`45`	`45`	`from lm_saes.utils.tensor_specs import apply_token_mask`
`46`	`46`	`from lm_saes.utils.timer import timer`