huggingface
diff --git a/‎src/transformers/models/arcee/modeling_arcee.py
Lines changed: 3 additions & 1 deletion b/‎src/transformers/models/arcee/modeling_arcee.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎src/transformers/models/aria/modeling_aria.py
Lines changed: 3 additions & 1 deletion b/‎src/transformers/models/aria/modeling_aria.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎src/transformers/models/bamba/modeling_bamba.py
Lines changed: 2 additions & 0 deletions b/‎src/transformers/models/bamba/modeling_bamba.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/transformers/models/bitnet/modeling_bitnet.py
Lines changed: 4 additions & 2 deletions b/‎src/transformers/models/bitnet/modeling_bitnet.py
Lines changed: 4 additions & 2 deletions
diff --git a/‎src/transformers/models/bitnet/modular_bitnet.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/bitnet/modular_bitnet.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/chameleon/modeling_chameleon.py
Lines changed: 2 additions & 0 deletions b/‎src/transformers/models/chameleon/modeling_chameleon.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/transformers/models/cohere/modeling_cohere.py
Lines changed: 3 additions & 1 deletion b/‎src/transformers/models/cohere/modeling_cohere.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎src/transformers/models/cohere/modular_cohere.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/cohere/modular_cohere.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/cohere2/modeling_cohere2.py
Lines changed: 2 additions & 0 deletions b/‎src/transformers/models/cohere2/modeling_cohere2.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/transformers/models/csm/modeling_csm.py
Lines changed: 3 additions & 1 deletion b/‎src/transformers/models/csm/modeling_csm.py
Lines changed: 3 additions & 1 deletion
@@ -82,6 +82,8 @@ def extra_repr(self):
 
 
 class ArceeRotaryEmbedding(nn.Module):
+    inv_freq: torch.Tensor  # fix linting for `register_buffer`
+
     def __init__(self, config: ArceeConfig, device=None):
         super().__init__()
         # BC: "rope_type" was originally "type"
@@ -278,7 +280,7 @@ def forward(
         cache_position: Optional[torch.LongTensor] = None,
         position_embeddings: Optional[tuple[torch.Tensor, torch.Tensor]] = None,  # necessary, but kept here for BC
         **kwargs: Unpack[TransformersKwargs],
-    ) -> tuple[torch.Tensor]:
+    ) -> torch.Tensor:
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
         # Self Attention
 
@@ -598,7 +598,7 @@ def forward(
         cache_position: Optional[torch.LongTensor] = None,
         position_embeddings: Optional[tuple[torch.Tensor, torch.Tensor]] = None,  # necessary, but kept here for BC
         **kwargs: Unpack[TransformersKwargs],
-    ) -> tuple[torch.Tensor]:
+    ) -> torch.Tensor:
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
         # Self Attention
@@ -668,6 +668,8 @@ def _init_weights(self, module):
 
 
 class AriaTextRotaryEmbedding(nn.Module):
+    inv_freq: torch.Tensor  # fix linting for `register_buffer`
+
     def __init__(self, config: AriaTextConfig, device=None):
         super().__init__()
         # BC: "rope_type" was originally "type"
 
@@ -189,6 +189,8 @@ def from_legacy_cache(cls, past_key_values: Optional[tuple[tuple[torch.FloatTens
 
 
 class BambaRotaryEmbedding(nn.Module):
+    inv_freq: torch.Tensor  # fix linting for `register_buffer`
+
     def __init__(self, config: BambaConfig, device=None):
         super().__init__()
         # BC: "rope_type" was originally "type"
 
@@ -184,7 +184,7 @@ def forward(
         past_key_value: Optional[Cache] = None,
         cache_position: Optional[torch.LongTensor] = None,
         **kwargs: Unpack[FlashAttentionKwargs],
-    ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         input_shape = hidden_states.shape[:-1]
         hidden_shape = (*input_shape, -1, self.head_dim)
 
@@ -243,7 +243,7 @@ def forward(
         cache_position: Optional[torch.LongTensor] = None,
         position_embeddings: Optional[tuple[torch.Tensor, torch.Tensor]] = None,  # necessary, but kept here for BC
         **kwargs: Unpack[TransformersKwargs],
-    ) -> tuple[torch.Tensor]:
+    ) -> torch.Tensor:
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
         # Self Attention
@@ -268,6 +268,8 @@ def forward(
 
 
 class BitNetRotaryEmbedding(nn.Module):
+    inv_freq: torch.Tensor  # fix linting for `register_buffer`
+
     def __init__(self, config: BitNetConfig, device=None):
         super().__init__()
         # BC: "rope_type" was originally "type"
 
@@ -66,7 +66,7 @@ def forward(
         past_key_value: Optional[Cache] = None,
         cache_position: Optional[torch.LongTensor] = None,
         **kwargs: Unpack[FlashAttentionKwargs],
-    ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         input_shape = hidden_states.shape[:-1]
         hidden_shape = (*input_shape, -1, self.head_dim)
 
 
@@ -67,6 +67,8 @@ def extra_repr(self):
 # copied from transformers.models.llama.modeling_llama.LlamaRotaryEmbedding with Llama->Chameleon
 # TODO(joao): add me back asap :)
 class ChameleonRotaryEmbedding(nn.Module):
+    inv_freq: torch.Tensor  # fix linting for `register_buffer`
+
     def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None, scaling_factor=1.0):
         super().__init__()
         self.scaling_factor = scaling_factor
 
@@ -65,6 +65,8 @@ def forward(self, hidden_states):
 
 
 class CohereRotaryEmbedding(nn.Module):
+    inv_freq: torch.Tensor  # fix linting for `register_buffer`
+
     def __init__(self, config: CohereConfig, device=None):
         super().__init__()
         # BC: "rope_type" was originally "type"
@@ -233,7 +235,7 @@ def forward(
         past_key_value: Optional[Cache] = None,
         cache_position: Optional[torch.LongTensor] = None,
         **kwargs: Unpack[FlashAttentionKwargs],
-    ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         input_shape = hidden_states.shape[:-1]
         hidden_shape = (*input_shape, -1, self.head_dim)
 
 
@@ -153,7 +153,7 @@ def forward(
         past_key_value: Optional[Cache] = None,
         cache_position: Optional[torch.LongTensor] = None,
         **kwargs: Unpack[FlashAttentionKwargs],
-    ) -> tuple[torch.Tensor, Optional[torch.Tensor], Optional[tuple[torch.Tensor]]]:
+    ) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
         input_shape = hidden_states.shape[:-1]
         hidden_shape = (*input_shape, -1, self.head_dim)
 
 
@@ -40,6 +40,8 @@
 
 
 class Cohere2RotaryEmbedding(nn.Module):
+    inv_freq: torch.Tensor  # fix linting for `register_buffer`
+
     def __init__(self, config: Cohere2Config, device=None):
         super().__init__()
         # BC: "rope_type" was originally "type"
 
@@ -118,6 +118,8 @@ def extra_repr(self):
 
 
 class CsmRotaryEmbedding(nn.Module):
+    inv_freq: torch.Tensor  # fix linting for `register_buffer`
+
     def __init__(self, config: CsmConfig, device=None):
         super().__init__()
         # BC: "rope_type" was originally "type"
@@ -330,7 +332,7 @@ def forward(
         cache_position: Optional[torch.LongTensor] = None,
         position_embeddings: Optional[tuple[torch.Tensor, torch.Tensor]] = None,  # necessary, but kept here for BC
         **kwargs: Unpack[TransformersKwargs],
-    ) -> tuple[torch.Tensor]:
+    ) -> torch.Tensor:
         residual = hidden_states
         hidden_states = self.input_layernorm(hidden_states)
         # Self Attention