huggingface
diff --git a/‎src/transformers/cache_utils.py
Lines changed: 331 additions & 254 deletions b/‎src/transformers/cache_utils.py
Lines changed: 331 additions & 254 deletions
diff --git a/‎src/transformers/generation/utils.py
Lines changed: 14 additions & 4 deletions b/‎src/transformers/generation/utils.py
Lines changed: 14 additions & 4 deletions
diff --git a/‎src/transformers/models/arcee/modeling_arcee.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/arcee/modeling_arcee.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/aria/modeling_aria.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/aria/modeling_aria.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/bitnet/modeling_bitnet.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/bitnet/modeling_bitnet.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/cohere/modeling_cohere.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/cohere/modeling_cohere.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/cohere2/modeling_cohere2.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/cohere2/modeling_cohere2.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/cohere2/modular_cohere2.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/cohere2/modular_cohere2.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/csm/modeling_csm.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/csm/modeling_csm.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/transformers/models/deepseek_v2/modeling_deepseek_v2.py
Lines changed: 1 addition & 1 deletion b/‎src/transformers/models/deepseek_v2/modeling_deepseek_v2.py
Lines changed: 1 addition & 1 deletion
@@ -1813,7 +1813,7 @@ def _get_initial_cache_position(self, seq_length, device, model_kwargs):
             # Support for BC tuple cache format
             if isinstance(cache, tuple):
                 past_length = cache[0][0].shape[2]
-            elif hasattr(cache, "get_seq_length") and cache.get_seq_length() is not None:
+            elif hasattr(cache, "get_seq_length"):
                 past_length = cache.get_seq_length()
 
             cache_position = cache_position[past_length:]
@@ -1959,6 +1959,16 @@ def _prepare_cache_for_generation(
         generation_config.cache_implementation = generation_config.cache_implementation or getattr(
             self.config.get_text_config(decoder=True), "cache_implementation", None
         )
+
+        # assisted decoding and contrastive search need to roll-back the Cache, which is not supported if
+        # it has sliding layers - so if we use any of those 2, do not pass the config to DynamicCache, which
+        # will result in creating a Cache with only full layers even if model uses sliding window
+        generation_mode = generation_config.get_generation_mode(assistant_model)
+        dynamic_cache_kwargs = (
+            {"config": self.config}
+            if generation_mode not in (GenerationMode.ASSISTED_GENERATION, GenerationMode.CONTRASTIVE_SEARCH)
+            else {}
+        )
         if generation_config.cache_implementation is not None:
             if generation_config.cache_implementation in NEED_SETUP_CACHE_CLASSES_MAPPING:
                 if generation_config.cache_implementation == "static" and not self._can_compile_fullgraph:
@@ -2001,15 +2011,15 @@ def _prepare_cache_for_generation(
             elif generation_config.cache_implementation == "offloaded":
                 model_kwargs[cache_name] = OffloadedCache()
             elif generation_config.cache_implementation == "dynamic":
-                model_kwargs[cache_name] = DynamicCache()
+                model_kwargs[cache_name] = DynamicCache(**dynamic_cache_kwargs)
 
         # Use DynamicCache() instance by default. This will avoid back and forth from legacy format that
         # keeps copying the cache thus using much more memory
         else:
             model_kwargs[cache_name] = (
-                DynamicCache()
+                DynamicCache(**dynamic_cache_kwargs)
                 if not requires_cross_attention_cache
-                else EncoderDecoderCache(DynamicCache(), DynamicCache())
+                else EncoderDecoderCache(DynamicCache(**dynamic_cache_kwargs), DynamicCache(**dynamic_cache_kwargs))
             )
 
     def _supports_logits_to_keep(self) -> bool:
 
@@ -364,7 +364,7 @@ def forward(
             inputs_embeds: torch.Tensor = self.embed_tokens(input_ids)
 
         if use_cache and past_key_values is None:
-            past_key_values = DynamicCache()
+            past_key_values = DynamicCache(config=self.config)
 
         if cache_position is None:
             past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
 
@@ -744,7 +744,7 @@ def forward(
             inputs_embeds: torch.Tensor = self.embed_tokens(input_ids)
 
         if use_cache and past_key_values is None:
-            past_key_values = DynamicCache()
+            past_key_values = DynamicCache(config=self.config)
 
         if cache_position is None:
             past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
 
@@ -363,7 +363,7 @@ def forward(
             inputs_embeds: torch.Tensor = self.embed_tokens(input_ids)
 
         if use_cache and past_key_values is None:
-            past_key_values = DynamicCache()
+            past_key_values = DynamicCache(config=self.config)
 
         if cache_position is None:
             past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
 
@@ -396,7 +396,7 @@ def forward(
             inputs_embeds: torch.Tensor = self.embed_tokens(input_ids)
 
         if use_cache and past_key_values is None:
-            past_key_values = DynamicCache()
+            past_key_values = DynamicCache(config=self.config)
 
         if cache_position is None:
             past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
 
@@ -371,7 +371,7 @@ def forward(
             inputs_embeds = self.embed_tokens(input_ids)
 
         if use_cache and past_key_values is None and not self.training:
-            past_key_values = DynamicCache()
+            past_key_values = DynamicCache(config=self.config)
 
         if cache_position is None:
             past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
 
@@ -405,7 +405,7 @@ def forward(
             inputs_embeds = self.embed_tokens(input_ids)
 
         if use_cache and past_key_values is None and not self.training:
-            past_key_values = DynamicCache()
+            past_key_values = DynamicCache(config=self.config)
 
         if cache_position is None:
             past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
 
@@ -702,7 +702,7 @@ def forward(
             inputs_embeds: torch.Tensor = self.embed_tokens(input_ids)
 
         if use_cache and past_key_values is None:
-            past_key_values = DynamicCache()
+            past_key_values = DynamicCache(config=self.config)
 
         if cache_position is None:
             past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
 
@@ -512,7 +512,7 @@ def forward(
             inputs_embeds: torch.Tensor = self.embed_tokens(input_ids)
 
         if use_cache and past_key_values is None:
-            past_key_values = DynamicCache()
+            past_key_values = DynamicCache(config=self.config)
 
         if cache_position is None:
             past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0