Enables Doge SDPA backend support

LoserCheems · LoserCheems · commit f024c28873f9 · 2025-11-20T17:27:11.000+08:00
Aligns the model metadata with the actual attention capability so future backends can reuse the shared attention implementation
diff --git a/examples/modeling/modeling_doge.py b/examples/modeling/modeling_doge.py
@@ -43,6 +43,7 @@
 from transformers.utils.deprecation import deprecate_kwarg
 from transformers.utils.generic import OutputRecorder, check_model_inputs
 from .configuration_doge import DogeConfig
+from transformers.models.doge.modeling_doge import DogeAttention
 
 try:
     from flash_sparse_attn.integrations.flash_sparse_attention import flash_sparse_attention_forward
@@ -372,10 +373,10 @@ class DogePreTrainedModel(PreTrainedModel):
     _no_split_modules = ["DogeDecoderLayer"]
     _skip_keys_device_placement = ["past_key_values"]
     _supports_flash_attn = False
-    _supports_sdpa = False
+    _supports_sdpa = True
     _supports_flex_attn = False
     _can_compile_fullgraph = False
-    _supports_attention_backend = False
+    _supports_attention_backend = True
     _can_record_outputs = {
         "router_logits": OutputRecorder(DogeCDMoE, index=1),
         "hidden_states": DogeDecoderLayer,