minor: read attn impl from config json

h-guo18 · h-guo18 · commit a85d473cf164 · 2025-10-27T23:40:04.000Z
Signed-off-by: h-guo18 &lt;67671475+h-guo18@users.noreply.github.com&gt;
diff --git a/examples/speculative_decoding/eagle_config.json b/examples/speculative_decoding/eagle_config.json
@@ -6,5 +6,6 @@
         "original_max_position_embeddings": 8192,
         "rope_type": "llama3"
     },
-    "initializer_range": 0.02
+    "initializer_range": 0.02,
+    "attn_implementation": "flex_attention"
 }
diff --git a/modelopt/torch/speculative/plugins/transformers.py b/modelopt/torch/speculative/plugins/transformers.py
@@ -184,10 +184,6 @@ def __init__(self, config, decoder_layer_cls, bias=False):
         super().__init__()
         self.config = config
 
-        # Use flex attention for efficient TTT
-        # config._attn_implementation = "flex_attention"
-        config.attn_implementation = "sdpa"
-
         self.layers = nn.ModuleList(
             [decoder_layer_cls(config, layer_idx) for layer_idx in range(config.num_hidden_layers)]
         )
@@ -446,7 +442,6 @@ def modify(
             eagle_architecture_config=eagle_architecture_config,
         )
         self.eagle_config = PretrainedConfig.from_dict(eagle_architecture_config)
-        self.eagle_config._attn_implementation = "sdpa"
         decoder_cls = (
             type(self.model.layers[-1]) if self.eagle_reuse_base_decoder else LlamaDecoderLayer
         )

Original file line number	Diff line number	Diff line change
`@@ -6,5 +6,6 @@`
`6`	`6`	`"original_max_position_embeddings": 8192,`
`7`	`7`	`"rope_type": "llama3"`
`8`	`8`	`},`
`9`		`- "initializer_range": 0.02`
	`9`	`+ "initializer_range": 0.02,`
	`10`	`+ "attn_implementation": "flex_attention"`
`10`	`11`	`}`
Original file line number	Diff line number	Diff line change
`@@ -184,10 +184,6 @@ def __init__(self, config, decoder_layer_cls, bias=False):`
`184`	`184`	`super().__init__()`
`185`	`185`	`self.config = config`
`186`	`186`
`187`		`- # Use flex attention for efficient TTT`
`188`		`- # config._attn_implementation = "flex_attention"`
`189`		`- config.attn_implementation = "sdpa"`
`190`		`-`
`191`	`187`	`self.layers = nn.ModuleList(`
`192`	`188`	`[decoder_layer_cls(config, layer_idx) for layer_idx in range(config.num_hidden_layers)]`
`193`	`189`	`)`
`@@ -446,7 +442,6 @@ def modify(`
`446`	`442`	`eagle_architecture_config=eagle_architecture_config,`
`447`	`443`	`)`
`448`	`444`	`self.eagle_config = PretrainedConfig.from_dict(eagle_architecture_config)`
`449`		`- self.eagle_config._attn_implementation = "sdpa"`
`450`	`445`	`decoder_cls = (`
`451`	`446`	`type(self.model.layers[-1]) if self.eagle_reuse_base_decoder else LlamaDecoderLayer`
`452`	`447`	`)`