Revert unnecessary cast because the problem can be solved by excluding attn_k, attn_q when quantizing

mitmul · mitmul · commit 149b98c83c6c · 2025-07-08T15:07:17.000+09:00
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -10536,8 +10536,7 @@ struct llm_build_plamo2 : public llm_graph_context_mamba {
             Kcur = ggml_reshape_3d(ctx0, Kcur, n_embd_head_k, n_head_kv, n_tokens);
             Vcur = ggml_reshape_3d(ctx0, Vcur, n_embd_head_v, n_head_kv, n_tokens);
 
-            ggml_tensor * wq = ggml_cast(ctx0, model.layers[il].wq, Qcur->type);
-            Qcur = build_norm(Qcur, wq, NULL, LLM_NORM_RMS, il);
+            Qcur = build_norm(Qcur, model.layers[il].wq, NULL, LLM_NORM_RMS, il);
             cb(Qcur, "Qcur_normed", il);
 
             Qcur = ggml_rope_ext(
@@ -10546,8 +10545,7 @@ struct llm_build_plamo2 : public llm_graph_context_mamba {
                     ext_factor, attn_factor, beta_fast, beta_slow
                     );
 
-            ggml_tensor * wk = ggml_cast(ctx0, model.layers[il].wk, Kcur->type);
-            Kcur = build_norm(Kcur, wk, NULL, LLM_NORM_RMS, il);
+            Kcur = build_norm(Kcur, model.layers[il].wk, NULL, LLM_NORM_RMS, il);
             cb(Kcur, "Kcur_normed", il);
 
             Kcur = ggml_rope_ext(