fix attribute error with torchair and shape mis match in eager mode for deepseek_r1

linfeng-yuan · wangxiyuan · commit 9de7619b93af · 2025-09-29T20:05:26.000+08:00
Signed-off-by: linfeng-yuan &lt;1102311262@qq.com&gt;
Signed-off-by: wangxiyuan &lt;wangxiyuan1007@gmail.com&gt;
diff --git a/vllm_ascend/models/deepseek_v2.py b/vllm_ascend/models/deepseek_v2.py
@@ -153,8 +153,7 @@ def __init__(
                 self.q_lora_rank,
                 bias=False,
                 quant_config=quant_config,
-                prefix=f"{prefix}.q_a_proj",
-                return_bias=False,
+                prefix=f"{prefix}.q_a_proj"
             )
             self.q_a_layernorm = RMSNorm(self.q_lora_rank,
                                          eps=config.rms_norm_eps)
@@ -163,26 +162,23 @@ def __init__(
                 self.num_heads * self.qk_head_dim,
                 bias=False,
                 quant_config=quant_config,
-                prefix=f"{prefix}.q_b_proj",
-                return_bias=False,
+                prefix=f"{prefix}.q_b_proj"
             )
         else:
             self.q_proj = ColumnParallelLinear(
                 self.hidden_size,
                 self.num_heads * self.qk_head_dim,
                 bias=False,
                 quant_config=quant_config,
-                prefix=f"{prefix}.q_proj",
-                return_bias=False,
+                prefix=f"{prefix}.q_proj"
             )
 
         self.kv_a_proj_with_mqa = ReplicatedLinear(
             self.hidden_size,
             self.kv_lora_rank + self.qk_rope_head_dim,
             bias=False,
             quant_config=quant_config,
-            prefix=f"{prefix}.kv_a_proj_with_mqa",
-            return_bias=False,
+            prefix=f"{prefix}.kv_a_proj_with_mqa"
         )
         self.kv_a_layernorm = RMSNorm(self.kv_lora_rank,
                                       eps=config.rms_norm_eps)
@@ -191,16 +187,14 @@ def __init__(
             self.num_heads * (self.qk_nope_head_dim + self.v_head_dim),
             bias=False,
             quant_config=quant_config,
-            prefix=f"{prefix}.kv_b_proj",
-            return_bias=False,
+            prefix=f"{prefix}.kv_b_proj"
         )
         self.o_proj = CustomDeepseekV2RowParallelLinear(
             self.num_heads * self.v_head_dim,
             self.hidden_size,
             bias=False,
             quant_config=quant_config,
-            prefix=f"{prefix}.o_proj",
-            return_bias=False,
+            prefix=f"{prefix}.o_proj"
         )
 
         if rope_scaling:
diff --git a/vllm_ascend/torchair/models/torchair_deepseek_v2.py b/vllm_ascend/torchair/models/torchair_deepseek_v2.py
@@ -876,6 +876,7 @@ def __init__(
         self.tp_size = get_tensor_model_parallel_world_size()
         self.tp_rank = get_tp_group().rank_in_group
         ascend_config = get_ascend_config()
+        self.use_mla = False
         self.use_sfa = False
         # TODO: enable mla in vllm-ascend
         if model_config.use_mla:
@@ -884,6 +885,7 @@ def __init__(
                 self.use_sfa = True
             else:
                 attn_cls = TorchairDeepseekV2MLAAttention  # type: ignore[assignment]
+            self.use_mla = True
         else:
             attn_cls = DeepseekV2Attention
         self.self_attn = attn_cls(