ggml-org
diff --git a/‎src/llama-model.cpp‎
Lines changed: 86 additions & 1 deletion b/‎src/llama-model.cpp‎
Lines changed: 86 additions & 1 deletion
diff --git a/‎src/models/apertus.cpp‎
Lines changed: 3 additions & 2 deletions b/‎src/models/apertus.cpp‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎src/models/bailingmoe2.cpp‎
Lines changed: 3 additions & 2 deletions b/‎src/models/bailingmoe2.cpp‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎src/models/bert.cpp‎
Lines changed: 18 additions & 10 deletions b/‎src/models/bert.cpp‎
Lines changed: 18 additions & 10 deletions
diff --git a/‎src/models/cohere2-iswa.cpp‎
Lines changed: 5 additions & 3 deletions b/‎src/models/cohere2-iswa.cpp‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎src/models/command-r.cpp‎
Lines changed: 8 additions & 4 deletions b/‎src/models/command-r.cpp‎
Lines changed: 8 additions & 4 deletions
diff --git a/‎src/models/deci.cpp‎
Lines changed: 8 additions & 5 deletions b/‎src/models/deci.cpp‎
Lines changed: 8 additions & 5 deletions
diff --git a/‎src/models/deepseek.cpp‎
Lines changed: 24 additions & 10 deletions b/‎src/models/deepseek.cpp‎
Lines changed: 24 additions & 10 deletions
diff --git a/‎src/models/deepseek2.cpp‎
Lines changed: 26 additions & 13 deletions b/‎src/models/deepseek2.cpp‎
Lines changed: 26 additions & 13 deletions
@@ -13,7 +13,92 @@
 
 #include "ggml-cpp.h"
 
-#include "models/models.h"
+#include "models/llm_graph_context_mamba.h"
+#include "models/llm_build_arcee.h"
+#include "models/llm_build_arctic.h"
+#include "models/llm_build_baichuan.h"
+#include "models/llm_build_bailingmoe.h"
+#include "models/llm_build_bert.h"
+#include "models/llm_build_bitnet.h"
+#include "models/llm_build_bloom.h"
+#include "models/llm_build_chameleon.h"
+#include "models/llm_build_chatglm.h"
+#include "models/llm_build_codeshell.h"
+#include "models/llm_build_cohere2_iswa.h"
+#include "models/llm_build_command_r.h"
+#include "models/llm_build_dbrx.h"
+#include "models/llm_build_deci.h"
+#include "models/llm_build_deepseek.h"
+#include "models/llm_build_deepseek2.h"
+#include "models/llm_build_dots1.h"
+#include "models/llm_build_dream.h"
+#include "models/llm_build_ernie4_5.h"
+#include "models/llm_build_ernie4_5_moe.h"
+#include "models/llm_build_exaone.h"
+#include "models/llm_build_falcon.h"
+#include "models/llm_build_falcon_h1.h"
+#include "models/llm_build_gemma.h"
+#include "models/llm_build_gemma2_iswa.h"
+#include "models/llm_build_gemma3_iswa.h"
+#include "models/llm_build_gemma3n_iswa.h"
+#include "models/llm_build_gemma_embedding_iswa.h"
+#include "models/llm_build_glm4.h"
+#include "models/llm_build_glm4_moe.h"
+#include "models/llm_build_gpt2.h"
+#include "models/llm_build_gptneox.h"
+#include "models/llm_build_granite.h"
+#include "models/llm_build_granite_hybrid.h"
+#include "models/llm_build_grok.h"
+#include "models/llm_build_hunyuan_dense.h"
+#include "models/llm_build_hunyuan_moe.h"
+#include "models/llm_build_internlm2.h"
+#include "models/llm_build_jais.h"
+#include "models/llm_build_jamba.h"
+#include "models/llm_build_lfm2.h"
+#include "models/llm_build_llada.h"
+#include "models/llm_build_llada_moe.h"
+#include "models/llm_build_llama.h"
+#include "models/llm_build_llama_iswa.h"
+#include "models/llm_build_mamba.h"
+#include "models/llm_build_minicpm3.h"
+#include "models/llm_build_mpt.h"
+#include "models/llm_build_nemotron.h"
+#include "models/llm_build_nemotron_h.h"
+#include "models/llm_build_neo_bert.h"
+#include "models/llm_build_olmo.h"
+#include "models/llm_build_olmoe.h"
+#include "models/llm_build_openai_moe_iswa.h"
+#include "models/llm_build_openelm.h"
+#include "models/llm_build_orion.h"
+#include "models/llm_build_phi2.h"
+#include "models/llm_build_plamo.h"
+#include "models/llm_build_plamo2.h"
+#include "models/llm_build_plm.h"
+#include "models/llm_build_qwen.h"
+#include "models/llm_build_qwen2.h"
+#include "models/llm_build_qwen2moe.h"
+#include "models/llm_build_qwen2vl.h"
+#include "models/llm_build_qwen3.h"
+#include "models/llm_build_qwen3moe.h"
+#include "models/llm_build_refact.h"
+#include "models/llm_build_rwkv_base.h"
+#include "models/llm_build_rwkv6.h"
+#include "models/llm_build_rwkv6qwen2.h"
+#include "models/llm_build_rwkv7.h"
+#include "models/llm_build_arwkv7.h"
+#include "models/llm_build_seed_oss.h"
+#include "models/llm_build_smollm3.h"
+#include "models/llm_build_stablelm.h"
+#include "models/llm_build_starcoder.h"
+#include "models/llm_build_starcoder2.h"
+#include "models/llm_build_t5_dec.h"
+#include "models/llm_build_t5_enc.h"
+#include "models/llm_build_wavtokenizer_dec.h"
+#include "models/llm_build_xverse.h"
+#include "models/llm_build_exaone4.h"
+#include "models/llm_build_olmo2.h"
+#include "models/llm_build_smallthinker.h"
+#include "models/llm_build_phi3.h"
 
 #include <algorithm>
 #include <cassert>
 
@@ -61,8 +61,9 @@ llm_build_apertus::llm_build_apertus(const llama_model & model, const llm_graph_
             cb(Kcur, "Kcur_pos", il);
             cb(Vcur, "Vcur_pos", il);
 
-            cur = build_attn(inp_attn, model.layers[il].wo, model.layers[il].bo, Qcur, Kcur, Vcur, nullptr, nullptr,
-                             nullptr, kq_scale, il);
+            cur = build_attn(inp_attn,
+                    model.layers[il].wo, model.layers[il].bo,
+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
             cb(cur, "attn_out", il);
         }
 
 
@@ -57,8 +57,9 @@ llm_build_bailingmoe2::llm_build_bailingmoe2(const llama_model & model, const ll
             cb(Kcur, "Kcur", il);
             cb(Vcur, "Vcur", il);
 
-            cur = build_attn(inp_attn, model.layers[il].wo, model.layers[il].bo, Qcur, Kcur, Vcur, nullptr, nullptr,
-                             nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
+            cur = build_attn(inp_attn,
+                    model.layers[il].wo, model.layers[il].bo,
+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
         }
 
         if (il == n_transformer_layers - 1 && inp_out_ids) {
 
@@ -101,8 +101,9 @@ llm_build_bert::llm_build_bert(const llama_model & model, const llm_graph_params
             cb(Kcur, "Kcur", il);
             cb(Vcur, "Vcur", il);
 
-            cur = build_attn(inp_attn, model.layers[il].wo, model.layers[il].bo, Qcur, Kcur, Vcur, nullptr, nullptr,
-                             nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
+            cur = build_attn(inp_attn,
+                    model.layers[il].wo, model.layers[il].bo,
+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
             cb(cur, "kqv_out", il);
         }
 
@@ -134,18 +135,25 @@ llm_build_bert::llm_build_bert(const llama_model & model, const llm_graph_params
             cb(cur, "ffn_moe_out", il);
         } else if (model.arch == LLM_ARCH_BERT || model.arch == LLM_ARCH_NOMIC_BERT_MOE ||
                    model.arch == LLM_ARCH_JINA_BERT_V3) {
-            cur = build_ffn(cur, model.layers[il].ffn_up, model.layers[il].ffn_up_b, NULL, NULL, NULL, NULL,
-                            model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL, NULL, LLM_FFN_GELU,
-                            LLM_FFN_SEQ, il);
+            cur = build_ffn(cur,
+                    model.layers[il].ffn_up, model.layers[il].ffn_up_b, NULL,
+                    NULL, NULL, NULL,
+                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL, NULL,
+                    LLM_FFN_GELU, LLM_FFN_SEQ, il);
             cb(cur, "ffn_out", il);
         } else if (model.arch == LLM_ARCH_JINA_BERT_V2) {
-            cur = build_ffn(cur, model.layers[il].ffn_up, NULL, NULL, model.layers[il].ffn_gate, NULL, NULL,
-                            model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL, NULL,
-                            model.layers[il].ffn_gate ? LLM_FFN_GELU : LLM_FFN_GEGLU, LLM_FFN_PAR, il);
+            cur = build_ffn(cur,
+                    model.layers[il].ffn_up, NULL, NULL,
+                    model.layers[il].ffn_gate, NULL, NULL,
+                    model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL, NULL,
+                    model.layers[il].ffn_gate ? LLM_FFN_GELU : LLM_FFN_GEGLU, LLM_FFN_PAR, il);
             cb(cur, "ffn_out", il);
         } else {
-            cur = build_ffn(cur, model.layers[il].ffn_up, NULL, NULL, model.layers[il].ffn_gate, NULL, NULL,
-                            model.layers[il].ffn_down, NULL, NULL, NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
+            cur = build_ffn(cur,
+                model.layers[il].ffn_up, NULL, NULL,
+                model.layers[il].ffn_gate, NULL, NULL,
+                model.layers[il].ffn_down, NULL, NULL,
+                NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
             cb(cur, "ffn_out", il);
         }
 
 
@@ -91,9 +91,11 @@ llm_build_cohere2_iswa::llm_build_cohere2_iswa(const llama_model & model, const
 
         // feed-forward network
         {
-            cur = build_ffn(ffn_inp, model.layers[il].ffn_up, NULL, NULL, model.layers[il].ffn_gate,
-                    NULL, NULL, model.layers[il].ffn_down, NULL, NULL, NULL, LLM_FFN_SILU, LLM_FFN_PAR,
-                    il);
+            cur = build_ffn(ffn_inp,
+                    model.layers[il].ffn_up, NULL, NULL,
+                    model.layers[il].ffn_gate, NULL, NULL,
+                    model.layers[il].ffn_down, NULL, NULL,
+                    NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
             cb(cur, "ffn_out", il);
         }
 
 
@@ -72,8 +72,9 @@ llm_build_command_r::llm_build_command_r(const llama_model & model, const llm_gr
             cb(Kcur, "Kcur", il);
             cb(Vcur, "Vcur", il);
 
-            cur = build_attn(inp_attn, model.layers[il].wo, model.layers[il].bo, Qcur, Kcur, Vcur, nullptr, nullptr,
-                             nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
+            cur = build_attn(inp_attn,
+                    model.layers[il].wo, model.layers[il].bo,
+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, 1.0f / sqrtf(float(n_embd_head)), il);
         };
         if (il == n_layer - 1 && inp_out_ids) {
             cur     = ggml_get_rows(ctx0, cur, inp_out_ids);
@@ -84,8 +85,11 @@ llm_build_command_r::llm_build_command_r(const llama_model & model, const llm_gr
 
         // feed-forward network
         {
-            cur = build_ffn(ffn_inp, model.layers[il].ffn_up, NULL, NULL, model.layers[il].ffn_gate, NULL, NULL,
-                            model.layers[il].ffn_down, NULL, NULL, NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
+            cur = build_ffn(ffn_inp,
+                    model.layers[il].ffn_up, NULL, NULL,
+                    model.layers[il].ffn_gate, NULL, NULL,
+                    model.layers[il].ffn_down, NULL, NULL,
+                    NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
             cb(cur, "ffn_out", il);
         };
         // add together residual + FFN + self-attention
 
@@ -79,8 +79,9 @@ llm_build_deci::llm_build_deci(const llama_model & model, const llm_graph_params
             cb(Kcur, "Kcur", il);
             cb(Vcur, "Vcur", il);
 
-            cur = build_attn(inp_attn, model.layers[il].wo, model.layers[il].bo, Qcur, Kcur, Vcur, nullptr, nullptr,
-                             nullptr, kq_scale, il);
+            cur = build_attn(inp_attn,
+                    model.layers[il].wo, model.layers[il].bo,
+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
         };
         if (il == n_layer - 1 && inp_out_ids) {
             cur   = ggml_get_rows(ctx0, cur, inp_out_ids);
@@ -101,9 +102,11 @@ llm_build_deci::llm_build_deci(const llama_model & model, const llm_graph_params
             cur = build_norm(ffn_inp, model.layers[il].ffn_norm, NULL, LLM_NORM_RMS, il);
             cb(cur, "ffn_norm", il);
 
-            cur = build_ffn(cur, model.layers[il].ffn_up, model.layers[il].ffn_up_b, NULL, model.layers[il].ffn_gate,
-                            model.layers[il].ffn_gate_b, NULL, model.layers[il].ffn_down, model.layers[il].ffn_down_b,
-                            NULL, NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
+            cur = build_ffn(cur,
+                model.layers[il].ffn_up, model.layers[il].ffn_up_b, NULL,
+                model.layers[il].ffn_gate, model.layers[il].ffn_gate_b, NULL,
+                model.layers[il].ffn_down, model.layers[il].ffn_down_b, NULL,
+                NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
             cb(cur, "ffn_out", il);
         };
         cur = ggml_add(ctx0, cur, ffn_inp);
 
@@ -69,8 +69,9 @@ llm_build_deepseek::llm_build_deepseek(const llama_model & model, const llm_grap
             cb(Kcur, "Kcur", il);
             cb(Vcur, "Vcur", il);
 
-            cur = build_attn(inp_attn, model.layers[il].wo, model.layers[il].bo, Qcur, Kcur, Vcur, nullptr, nullptr,
-                             nullptr, kq_scale, il);
+            cur = build_attn(inp_attn,
+                    model.layers[il].wo, model.layers[il].bo,
+                    Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
         };
         if (il == n_layer - 1 && inp_out_ids) {
             cur   = ggml_get_rows(ctx0, cur, inp_out_ids);
@@ -83,22 +84,35 @@ llm_build_deepseek::llm_build_deepseek(const llama_model & model, const llm_grap
         cb(cur, "ffn_norm", il);
 
         if ((uint32_t) il < hparams.n_layer_dense_lead) {
-            cur = build_ffn(cur, model.layers[il].ffn_up, NULL, NULL, model.layers[il].ffn_gate, NULL, NULL,
-                            model.layers[il].ffn_down, NULL, NULL, NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
+            cur = build_ffn(cur,
+                    model.layers[il].ffn_up, NULL, NULL,
+                    model.layers[il].ffn_gate, NULL, NULL,
+                    model.layers[il].ffn_down, NULL, NULL,
+                    NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
             cb(cur, "ffn_out", il);
         } else {
             // MoE branch
-            ggml_tensor * moe_out = build_moe_ffn(
-                cur, model.layers[il].ffn_gate_inp, model.layers[il].ffn_up_exps, model.layers[il].ffn_gate_exps,
-                model.layers[il].ffn_down_exps, nullptr, n_expert, n_expert_used, LLM_FFN_SILU, false, false,
-                hparams.expert_weights_scale, LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX, il);
+            ggml_tensor * moe_out = build_moe_ffn(cur,
+                model.layers[il].ffn_gate_inp,
+                model.layers[il].ffn_up_exps,
+                model.layers[il].ffn_gate_exps,
+                model.layers[il].ffn_down_exps,
+                nullptr,
+                n_expert, n_expert_used,
+                LLM_FFN_SILU, false,
+                false, hparams.expert_weights_scale,
+                LLAMA_EXPERT_GATING_FUNC_TYPE_SOFTMAX,
+                il);
             cb(moe_out, "ffn_moe_out", il);
 
             // FFN shared expert
             {
                 ggml_tensor * ffn_shexp =
-                    build_ffn(cur, model.layers[il].ffn_up_shexp, NULL, NULL, model.layers[il].ffn_gate_shexp, NULL,
-                              NULL, model.layers[il].ffn_down_shexp, NULL, NULL, NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
+                    build_ffn(cur,
+                        model.layers[il].ffn_up_shexp, NULL, NULL,
+                        model.layers[il].ffn_gate_shexp, NULL, NULL,
+                        model.layers[il].ffn_down_shexp, NULL, NULL,
+                        NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
                 cb(ffn_shexp, "ffn_shexp", il);
 
                 cur = ggml_add(ctx0, moe_out, ffn_shexp);
 
@@ -128,8 +128,9 @@ llm_build_deepseek2::llm_build_deepseek2(const llama_model & model, const llm_gr
                 cb(Vcur, "Vcur", il);
 
                 // note: MLA with the absorption optimzation converts into MQA (ie: GQA with 1 group)
-                cur = build_attn(inp_attn, model.layers[il].wo, NULL, Qcur, Kcur, Vcur, nullptr, nullptr,
-                                 model.layers[il].wv_b, kq_scale, il);
+                cur = build_attn(inp_attn,
+                        model.layers[il].wo, NULL,
+                        Qcur, Kcur, Vcur, nullptr, nullptr, model.layers[il].wv_b, kq_scale, il);
             } else {
                 ggml_tensor * kv = ggml_mul_mat(ctx0, model.layers[il].wkv_b, kv_cmpr);
                 cb(kv, "kv", il);
@@ -159,8 +160,9 @@ llm_build_deepseek2::llm_build_deepseek2(const llama_model & model, const llm_gr
                 cb(Kcur, "Kcur", il);
 
                 // note: MLA without the absorption optimization converts into MHA (ie: GQA with full n_head groups)
-                cur = build_attn(inp_attn, model.layers[il].wo, NULL, Qcur, Kcur, Vcur, nullptr, nullptr, nullptr,
-                                 kq_scale, il);
+                cur = build_attn(inp_attn,
+                            model.layers[il].wo, NULL,
+                            Qcur, Kcur, Vcur, nullptr, nullptr, nullptr, kq_scale, il);
             }
         };
         if (il == n_layer - 1 && inp_out_ids) {
@@ -174,23 +176,34 @@ llm_build_deepseek2::llm_build_deepseek2(const llama_model & model, const llm_gr
         cb(cur, "ffn_norm", il);
 
         if ((uint32_t) il < hparams.n_layer_dense_lead) {
-            cur = build_ffn(cur, model.layers[il].ffn_up, NULL, NULL, model.layers[il].ffn_gate, NULL, NULL,
-                            model.layers[il].ffn_down, NULL, NULL, NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
+            cur = build_ffn(cur,
+                model.layers[il].ffn_up, NULL, NULL,
+                model.layers[il].ffn_gate, NULL, NULL,
+                model.layers[il].ffn_down, NULL, NULL,
+                NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
             cb(cur, "ffn_out", il);
         } else {
             // MoE branch
-            ggml_tensor * moe_out = build_moe_ffn(
-                cur, model.layers[il].ffn_gate_inp, model.layers[il].ffn_up_exps, model.layers[il].ffn_gate_exps,
-                model.layers[il].ffn_down_exps, model.layers[il].ffn_exp_probs_b, n_expert, n_expert_used, LLM_FFN_SILU,
-                hparams.expert_weights_norm, true, hparams.expert_weights_scale,
-                (llama_expert_gating_func_type) hparams.expert_gating_func, il);
+            ggml_tensor * moe_out = build_moe_ffn(cur,
+                model.layers[il].ffn_gate_inp,
+                model.layers[il].ffn_up_exps,
+                model.layers[il].ffn_gate_exps,
+                model.layers[il].ffn_down_exps,
+                model.layers[il].ffn_exp_probs_b,
+                n_expert, n_expert_used,
+                LLM_FFN_SILU, hparams.expert_weights_norm,
+                true, hparams.expert_weights_scale,
+                (llama_expert_gating_func_type) hparams.expert_gating_func,
+                il);
             cb(moe_out, "ffn_moe_out", il);
 
             // FFN shared expert
             {
                 ggml_tensor * ffn_shexp =
-                    build_ffn(cur, model.layers[il].ffn_up_shexp, NULL, NULL, model.layers[il].ffn_gate_shexp, NULL,
-                              NULL, model.layers[il].ffn_down_shexp, NULL, NULL, NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
+                    build_ffn(cur, model.layers[il].ffn_up_shexp, NULL, NULL,
+                        model.layers[il].ffn_gate_shexp, NULL, NULL,
+                        model.layers[il].ffn_down_shexp, NULL, NULL,
+                        NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);
                 cb(ffn_shexp, "ffn_shexp", il);
 
                 cur = ggml_add(ctx0, moe_out, ffn_shexp);
Original file line number	Diff line number	Diff line change
`@@ -91,9 +91,11 @@ llm_build_cohere2_iswa::llm_build_cohere2_iswa(const llama_model & model, const`
`91`	`91`
`92`	`92`	`// feed-forward network`
`93`	`93`	`{`
`94`		`- cur = build_ffn(ffn_inp, model.layers[il].ffn_up, NULL, NULL, model.layers[il].ffn_gate,`
`95`		`- NULL, NULL, model.layers[il].ffn_down, NULL, NULL, NULL, LLM_FFN_SILU, LLM_FFN_PAR,`
`96`		`- il);`
	`94`	`+ cur = build_ffn(ffn_inp,`
	`95`	`+ model.layers[il].ffn_up, NULL, NULL,`
	`96`	`+ model.layers[il].ffn_gate, NULL, NULL,`
	`97`	`+ model.layers[il].ffn_down, NULL, NULL,`
	`98`	`+ NULL, LLM_FFN_SILU, LLM_FFN_PAR, il);`
`97`	`99`	`cb(cur, "ffn_out", il);`
`98`	`100`	`}`
`99`	`101`