model : fix order kvq -> qkv

ggerganov · ggerganov · commit f95b04a21cbb · 2025-02-19T18:52:20.000+02:00
ggml-ci
diff --git a/src/llama-context.cpp b/src/llama-context.cpp
@@ -2572,9 +2572,9 @@ ggml_tensor * llama_context_kv_self::build_attn(
          ggml_cgraph * gf,
          ggml_tensor * wo,
          ggml_tensor * wo_b,
+         ggml_tensor * q_cur,
          ggml_tensor * k_cur,
          ggml_tensor * v_cur,
-         ggml_tensor * q_cur,
              int32_t   n_tokens,
              float     kq_scale,
              int       il,
@@ -2617,9 +2617,6 @@ ggml_tensor * llama_context_kv_self::build_attn(
         ggml_build_forward_expand(gf, ggml_cpy(ctx0, v_cur, v_cache_view));
     }
 
-    const auto & n_embd_head_k = hparams.n_embd_head_k;
-    const auto & n_embd_head_v = hparams.n_embd_head_v;
-
     // TODO: improve
     bool is_sliding = false;
 
@@ -2648,8 +2645,11 @@ ggml_tensor * llama_context_kv_self::build_attn(
 
     const auto n_kv = worst_case ? kv_self.size : kv_self.n;
 
-    const int64_t n_head       = hparams.n_head(il);
-    const int64_t n_head_kv    = hparams.n_head_kv(il);
+    const int64_t n_head    = hparams.n_head(il);
+    const int64_t n_head_kv = hparams.n_head_kv(il);
+
+    const auto & n_embd_head_k = hparams.n_embd_head_k;
+    const auto & n_embd_head_v = hparams.n_embd_head_v;
 
     struct ggml_tensor * q = ggml_permute(ctx0, q_cur, 0, 2, 1, 3);
     //cb(q, "q", il);
diff --git a/src/llama-context.h b/src/llama-context.h
@@ -381,9 +381,9 @@ class llama_context_kv_self : public llama_context {
              ggml_cgraph * gf,
              ggml_tensor * wo,
              ggml_tensor * wo_b,
+             ggml_tensor * q_cur,
              ggml_tensor * k_cur,
              ggml_tensor * v_cur,
-             ggml_tensor * q_cur,
                  int32_t   n_tokens,
                  float     kq_scale,
                  int       il,
diff --git a/src/llama-graph.h b/src/llama-graph.h
@@ -93,9 +93,9 @@ class llama_graph_i {
              ggml_cgraph * gf,
              ggml_tensor * wo,
              ggml_tensor * wo_b,
+             ggml_tensor * q_cur,
              ggml_tensor * k_cur,
              ggml_tensor * v_cur,
-             ggml_tensor * q_cur,
                  int32_t   n_tokens,
                  float     kq_scale,
                  int       il,
diff --git a/src/llama-model.cpp b/src/llama-model.cpp