fix:(moe config): default using_flex_token

hushenwei2000 · hushenwei2000 · commit a1c5bb4cf6b8 · 2025-09-01T03:46:56.000Z
diff --git a/paddleformers/transformers/moe_gate.py b/paddleformers/transformers/moe_gate.py
@@ -210,6 +210,9 @@ def __init__(self, config, num_experts, expert_hidden_size, **kwargs):
         self.norm_topk_prob = kwargs.pop("norm_topk_prob", False)
         self.routed_scaling_factor = kwargs.pop("routed_scaling_factor", 1.0)
 
+        # for flex token moe layer
+        self.using_flex_token = kwargs.pop("using_flex_token", False)
+
     def _priority(self, topk_idx: paddle.Tensor, capacity: int) -> paddle.Tensor:
         """_summary_
             The priority is the cumulative sum of the expert indices.
diff --git a/paddleformers/transformers/moe_layer.py b/paddleformers/transformers/moe_layer.py
@@ -277,7 +277,7 @@ def __init__(
     def update_flex_token(self):
         from paddleformers.transformers.deepseek_v2 import get_global_step
 
-        if (not self.config.using_flex_token) or (get_global_step() < self.token_drop_steps):
+        if (not hasattr(self.config, "using_flex_token")) or (not self.config.using_flex_token) or (get_global_step() < self.token_drop_steps):
             self.using_flex_token = False
             self.router.using_flex_token = False
         else: