Bump version to 0.4.2

yzhangcs · yzhangcs · commit 91d2f4689448 · 2025-12-25T08:19:47.000Z
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -16,3 +16,4 @@ repos:
   hooks:
   - id: ruff
     args: [--fix, --exit-non-zero-on-fix]
+  - id: ruff-format
diff --git a/fla/__init__.py b/fla/__init__.py
@@ -1,3 +1,4 @@
+# Copyright (c) 2023-2025, Songlin Yang, Yu Zhang
 
 from fla.layers import (
     ABCAttention,
@@ -79,32 +80,80 @@
 )
 
 __all__ = [
-    'ABCAttention', 'ABCForCausalLM', 'ABCModel',
-    'Attention', 'TransformerForCausalLM', 'TransformerModel',
-    'BasedLinearAttention',
-    'BitAttention', 'BitNetForCausalLM', 'BitNetModel',
-    'Comba', 'CombaForCausalLM', 'CombaModel',
-    'DeltaNet', 'DeltaNetForCausalLM', 'DeltaNetModel',
-    'DeltaFormerAttention', 'DeltaFormerForCausalLM', 'DeltaFormerModel',
-    'GatedDeltaNet', 'GatedDeltaNetForCausalLM', 'GatedDeltaNetModel',
-    'GatedDeltaProduct', 'GatedDeltaProductForCausalLM', 'GatedDeltaProductModel',
-    'GatedLinearAttention', 'GLAForCausalLM', 'GLAModel',
-    'GatedSlotAttention', 'GSAForCausalLM', 'GSAModel',
-    'HGRNAttention', 'HGRNForCausalLM', 'HGRNModel',
-    'HGRN2Attention', 'HGRN2ForCausalLM', 'HGRN2Model',
-    'LightNetAttention', 'LightNetForCausalLM', 'LightNetModel',
-    'LinearAttention', 'LinearAttentionForCausalLM', 'LinearAttentionModel',
-    'LogLinearMamba2', 'LogLinearMamba2ForCausalLM', 'LogLinearMamba2Model',
-    'MesaNet', 'MesaNetForCausalLM', 'MesaNetModel',
-    'MomAttention', 'MomForCausalLM', 'MomModel',
-    'MultiheadLatentAttention', 'MLAForCausalLM', 'MLAModel',
-    'MultiScaleRetention', 'RetNetForCausalLM', 'RetNetModel',
-    'NativeSparseAttention', 'NSAForCausalLM', 'NSAModel',
-    'PaTHAttention', 'PaTHAttentionForCausalLM', 'PaTHAttentionModel',
-    'ReBasedLinearAttention',
-    'RodimusAttention', 'RodimusForCausalLM', 'RodimusModel',
-    'RWKV6Attention', 'RWKV6ForCausalLM', 'RWKV6Model',
-    'RWKV7Attention', 'RWKV7ForCausalLM', 'RWKV7Model',
+    "ABCAttention",
+    "ABCForCausalLM",
+    "ABCModel",
+    "Attention",
+    "BasedLinearAttention",
+    "BitAttention",
+    "BitNetForCausalLM",
+    "BitNetModel",
+    "Comba",
+    "CombaForCausalLM",
+    "CombaModel",
+    "DeltaFormerAttention",
+    "DeltaFormerForCausalLM",
+    "DeltaFormerModel",
+    "DeltaNet",
+    "DeltaNetForCausalLM",
+    "DeltaNetModel",
+    "GLAForCausalLM",
+    "GLAModel",
+    "GSAForCausalLM",
+    "GSAModel",
+    "GatedDeltaNet",
+    "GatedDeltaNetForCausalLM",
+    "GatedDeltaNetModel",
+    "GatedDeltaProduct",
+    "GatedDeltaProductForCausalLM",
+    "GatedDeltaProductModel",
+    "GatedLinearAttention",
+    "GatedSlotAttention",
+    "HGRN2Attention",
+    "HGRN2ForCausalLM",
+    "HGRN2Model",
+    "HGRNAttention",
+    "HGRNForCausalLM",
+    "HGRNModel",
+    "LightNetAttention",
+    "LightNetForCausalLM",
+    "LightNetModel",
+    "LinearAttention",
+    "LinearAttentionForCausalLM",
+    "LinearAttentionModel",
+    "LogLinearMamba2",
+    "LogLinearMamba2ForCausalLM",
+    "LogLinearMamba2Model",
+    "MLAForCausalLM",
+    "MLAModel",
+    "MesaNet",
+    "MesaNetForCausalLM",
+    "MesaNetModel",
+    "MomAttention",
+    "MomForCausalLM",
+    "MomModel",
+    "MultiScaleRetention",
+    "MultiheadLatentAttention",
+    "NSAForCausalLM",
+    "NSAModel",
+    "NativeSparseAttention",
+    "PaTHAttention",
+    "PaTHAttentionForCausalLM",
+    "PaTHAttentionModel",
+    "RWKV6Attention",
+    "RWKV6ForCausalLM",
+    "RWKV6Model",
+    "RWKV7Attention",
+    "RWKV7ForCausalLM",
+    "RWKV7Model",
+    "ReBasedLinearAttention",
+    "RetNetForCausalLM",
+    "RetNetModel",
+    "RodimusAttention",
+    "RodimusForCausalLM",
+    "RodimusModel",
+    "TransformerForCausalLM",
+    "TransformerModel",
 ]
 
-__version__ = '0.4.1'
+__version__ = "0.4.2"
diff --git a/pyproject.toml b/pyproject.toml
@@ -33,10 +33,6 @@ Repository = "https://github.com/fla-org/flash-linear-attention"
 [build-system]
 requires = ["setuptools>=45", "wheel"]
 
-[tool.ruff.lint.isort]
-known-first-party = ["fla"]
-force-sort-within-sections = false
-
 [tool.pytest.ini_options]
 log_cli = true
 log_cli_level = "INFO"
@@ -50,6 +46,7 @@ line-length = 127
 
 [tool.ruff.format]
 docstring-code-format = true
+indent-style = "space"
 
 [tool.ruff.lint]
 select = [
@@ -87,10 +84,14 @@ ignore = [
 ]
 extend-select = ["RUF022"]
 
+[tool.ruff.lint.isort]
+known-first-party = ["fla"]
+force-sort-within-sections = false
+
 [tool.ruff.lint.per-file-ignores]
 "__init__.py" = ["F401"]
 "fla/utils.py" = ["TCH004"]
 "evals/harness.py" = ["I", "TCH"]
 "tests/*/*.py" = ["UP030"]
 "scripts/*.py" = ["C414"]
-"egacy/training/flame/*.py" = ["C408"]
+"legacy/training/flame/*.py" = ["C408"]