fix

orca-zhang · orca-zhang · commit b0778a6d1e88 · 2025-02-27T16:45:19.000+08:00
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -604,9 +604,8 @@ static struct ggml_tensor * llm_build_kqv(
         ggml_flash_attn_ext_set_prec(cur, GGML_PREC_F32);
 
         if (n_embd_head_v < n_embd_head_k) {
-            cur = ggml_cont(ctx, ggml_view_3d(ctx, ggml_cont(ctx, cur), n_embd_head_v, n_head, n_tokens,
+            cur = ggml_cont(ctx, ggml_view_2d(ctx, ggml_cont(ctx, cur), n_embd_head_v*n_head, n_tokens,
                                ggml_element_size(cur) * n_embd_head_v_out,
-                               ggml_element_size(cur) * n_embd_head_v_out * n_head,
                                0));
         }
 

Original file line number	Diff line number	Diff line change
`@@ -604,9 +604,8 @@ static struct ggml_tensor * llm_build_kqv(`
`604`	`604`	`ggml_flash_attn_ext_set_prec(cur, GGML_PREC_F32);`
`605`	`605`
`606`	`606`	`if (n_embd_head_v < n_embd_head_k) {`
`607`		`- cur = ggml_cont(ctx, ggml_view_3d(ctx, ggml_cont(ctx, cur), n_embd_head_v, n_head, n_tokens,`
	`607`	`+ cur = ggml_cont(ctx, ggml_view_2d(ctx, ggml_cont(ctx, cur), n_embd_head_v*n_head, n_tokens,`
`608`	`608`	`ggml_element_size(cur) * n_embd_head_v_out,`
`609`		`- ggml_element_size(cur) * n_embd_head_v_out * n_head,`
`610`	`609`	`0));`
`611`	`610`	`}`
`612`	`611`