fix

sufubao · sufubao · commit fb140f1b3531 · 2025-09-26T09:51:49.000+08:00
diff --git a/lightllm/models/qwen3_moe/layer_infer/transformer_layer_infer.py b/lightllm/models/qwen3_moe/layer_infer/transformer_layer_infer.py
@@ -86,7 +86,6 @@ def _get_qkv(
     def _tpsp_get_qkv(
         self,
         input: torch.Tensor,
-        cache_kv,
         infer_state: LlamaInferStateInfo,
         layer_weight: Qwen3MOETransformerLayerWeight,
     ) -> torch.Tensor:
@@ -100,6 +99,7 @@ def _tpsp_get_qkv(
 
         input = input.view(-1, self.embed_dim_)
         q = layer_weight.q_proj.mm(input)
+        cache_kv = self._pre_cache_kv(infer_state=infer_state, layer_weight=layer_weight)
         cache_kv = layer_weight.kv_proj.mm(
             input, out=cache_kv.view(-1, (self.tp_k_head_num_ + self.tp_v_head_num_) * self.head_dim_)
         ).view(-1, (self.tp_k_head_num_ + self.tp_v_head_num_), self.head_dim_)