foldl
diff --git a/‎CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎README.md‎
Lines changed: 1 addition & 0 deletions b/‎README.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎convert.py‎
Lines changed: 55 additions & 0 deletions b/‎convert.py‎
Lines changed: 55 additions & 0 deletions
diff --git a/‎docs/models.md‎
Lines changed: 3 additions & 0 deletions b/‎docs/models.md‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎models/allenai.h‎
Lines changed: 3 additions & 3 deletions b/‎models/allenai.h‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎models/gpt.cpp‎
Lines changed: 4 additions & 4 deletions b/‎models/gpt.cpp‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎models/granite.cpp‎
Lines changed: 3 additions & 3 deletions b/‎models/granite.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎models/grok.cpp‎
Lines changed: 3 additions & 3 deletions b/‎models/grok.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎models/grove.cpp‎
Lines changed: 146 additions & 0 deletions b/‎models/grove.cpp‎
Lines changed: 146 additions & 0 deletions
diff --git a/‎models/llama.h‎
Lines changed: 3 additions & 3 deletions b/‎models/llama.h‎
Lines changed: 3 additions & 3 deletions
@@ -85,6 +85,7 @@ set(core_files src/backend.cpp
     models/granite.cpp
     models/groq.cpp
     models/grok.cpp
+    models/grove.cpp
     models/hermes.cpp
     models/hunyuan.cpp
     models/index.cpp
 
@@ -31,6 +31,7 @@ LittleAcademia[<a href="https://github.com/foldl/little-academia"   style="text-
 
 **What's New:**
 
+* 2025-09-08: GroveMoE
 * 2025-09-03: Apertus
 * 2025-08-22: Seed-OSS
 * 2025-08-11: GPT-OSS
 
@@ -215,6 +215,8 @@ class ModelType(Enum):
 
     Apertus         = 0x2C00
 
+    GroveMoE        = 0x2D00
+
     BCE_Embedding           = 0x10000100
     BCE_ReRanker            = 0x10000101
     BGE_M3                  = 0x10000102
@@ -7527,6 +7529,57 @@ def get_weight_names(config):
 
         return weight_names
 
+class GroveMoEConverter(BaseConverter):
+    MODEL_TYPE = ModelType.GroveMoE
+
+    @staticmethod
+    def dump_config(f, config, ggml_type):
+        assert config.use_sliding_window == False, "use_sliding_window must be False"
+        assert not config.attention_bias
+        assert (config.output_router_logits is None) or (not config.output_router_logits)
+        assert config.rope_scaling is None
+        assert config.norm_topk_prob
+        assert not config.tie_word_embeddings
+        assert config.mlp_only_layers == []
+
+        dump_llama_like_config(f, config, ggml_type)
+
+        config.num_experts_per_group             = 2
+        config.parallel_expert_intermediate_size = 128
+        config.small_experts_weight              = 0.05
+
+        config_values = [
+            config.num_key_value_heads,
+            config.head_dim,
+            config.rope_theta,
+            config.moe_intermediate_size,
+            config.num_experts_per_tok,
+            config.num_experts,
+            config.num_experts_per_group,
+            config.parallel_expert_intermediate_size,
+            config.small_experts_weight,
+        ]
+        f.write(struct.pack("<iifiiiiif", *config_values))
+
+    @staticmethod
+    def get_weight_names(config):
+        QWen3Converter.layer_is_sparse = [True] * config.num_hidden_layers
+        weight_names = QWen3Converter.get_weight_names(config)
+
+        #Note:  `expert_bias` is not used
+        #https://huggingface.co/inclusionAI/GroveMoE-Inst/blob/main/modeling_grove_moe.py#L303
+
+        for i in range(config.num_hidden_layers):
+            for j in range(config.num_experts // config.num_experts_per_group):
+                weight_names += [
+                    f"model.layers.{i}.mlp.chunk_experts.{j}.down_proj.weight",
+                    f"model.layers.{i}.mlp.chunk_experts.{j}.gate_proj.weight",
+                    f"model.layers.{i}.mlp.chunk_experts.{j}.up_proj.weight",
+                ]
+
+        weight_names.sort()
+        return weight_names
+
 def convert_grok_1_base(args, vocab, ggml_type):
     def ffn_size(emb_size, widening_factor):
         _ffn_size = int(widening_factor * emb_size) * 2 // 3
@@ -8128,6 +8181,8 @@ def main():
         SeedOSSConverter.convert(config, model_files, vocab, ggml_type, args.save_path)
     elif arch == 'ApertusForCausalLM':
         ApertusConverter.convert(config, model_files, vocab, ggml_type, args.save_path)
+    elif arch.endswith('GroveMoeForCausalLM'):
+        GroveMoEConverter.convert(config, model_files, vocab, ggml_type, args.save_path)
     elif arch == 'deepseek-r1-distill-qwen3':
         QWen3Converter.MODEL_TYPE = ModelType.DeepSeek_R1_Distill_QWen3
         QWen3Converter.convert(config, model_files, vocab, ggml_type, args.save_path)
 
@@ -89,6 +89,9 @@
     * [x] v3.1: [Instruct-1B-A400M](https://huggingface.co/ibm-granite/granite-3.1-1b-a400m-instruct), [Instruct-3B-A800M](https://huggingface.co/ibm-granite/granite-3.1-3b-a800m-instruct), [Instruct-2B](https://huggingface.co/ibm-granite/granite-3.1-2b-instruct), [Instruct-8B](https://huggingface.co/ibm-granite/granite-3.1-8b-instruct)
     * [x] v3.2: [Instruct-2B](https://huggingface.co/ibm-granite/granite-3.2-2b-instruct), [Instruct-2B](https://huggingface.co/ibm-granite/granite-3.2-8b-instruct), [Instruct-8B](https://huggingface.co/ibm-granite/granite-3.2-8b-instruct/tree/0276d996f60d5eb0b376b6d06622042d4ef3eb4b)
 
+* GroveMoE (`GroveMoeForCausalLM`)
+    * [x] [Inst](https://huggingface.co/inclusionAI/GroveMoE-Inst/tree/b3441abf1f3ed166e58c005ef2c528c584b55764)
+
 * HunYuan (`HunYuanForCausalLM`)
     * [x] ~~Dense: [Instruct-7B](https://huggingface.co/tencent/Hunyuan-7B-Instruct)~~ (lost)
     * [x] Dense: [0.5B-Instruct](https://huggingface.co/tencent/Hunyuan-0.5B-Instruct/tree/9ec1774c379d7dde3f2d7ddd3286cde88949e181),
 
@@ -91,9 +91,9 @@ namespace chatllm::allenai::moe
             {
                 std::string layer_prefix = "model.layers." + std::to_string(Base::layer_ids[i]) + '.';
 
-                loader.read_tensor(layer_prefix + "mlp.experts_down.weight", layer_prefix + "mlp.experts.", _NUM_EXPERTS, ".down_proj.weight", transformer->layers[i].mlp.experts_down.weight);
-                loader.read_tensor(layer_prefix + "mlp.experts_gate.weight", layer_prefix + "mlp.experts.", _NUM_EXPERTS, ".gate_proj.weight", transformer->layers[i].mlp.experts_gate.weight);
-                loader.read_tensor(layer_prefix + "mlp.experts_up.weight",   layer_prefix + "mlp.experts.", _NUM_EXPERTS, ".up_proj.weight",   transformer->layers[i].mlp.experts_up.weight);
+                loader.read_tensor(layer_prefix + "mlp.experts_down.weight", layer_prefix + "mlp.experts.", _NUM_EXPERTS, ".down_proj.weight", transformer->layers[i].mlp.experts.down.weight);
+                loader.read_tensor(layer_prefix + "mlp.experts_gate.weight", layer_prefix + "mlp.experts.", _NUM_EXPERTS, ".gate_proj.weight", transformer->layers[i].mlp.experts.gate.weight);
+                loader.read_tensor(layer_prefix + "mlp.experts_up.weight",   layer_prefix + "mlp.experts.", _NUM_EXPERTS, ".up_proj.weight",   transformer->layers[i].mlp.experts.up.weight);
 
                 loader.read_tensor(layer_prefix + "mlp.gate.weight", transformer->layers[i].mlp.gate.weight);
 
 
@@ -193,13 +193,13 @@ Reasoning: medium
         ggml::tensor *calc_experts_outputs(ComputeContext *ctx, ggml::tensor *hidden_states,
             ggml::tensor *selected_experts) override
         {
-            ggml::tensor *gated = experts_gate.forward(ctx, hidden_states, selected_experts); // [n_ff, num_experts_per_tok, qlen]
-            ggml::tensor *up = experts_up.forward(ctx, hidden_states, selected_experts); // [n_ff, num_experts_per_tok, qlen]
+            ggml::tensor *gated = experts.gate.forward(ctx, hidden_states, selected_experts); // [n_ff, num_experts_per_tok, qlen]
+            ggml::tensor *up = experts.up.forward(ctx, hidden_states, selected_experts); // [n_ff, num_experts_per_tok, qlen]
 
             ggml::tensor *par = ggml::swiglu_oai(ctx, gated, up, alpha, limit); // [n_ff, num_experts_per_tok, qlen]
 
-            ggml::tensor * experts = experts_down.forward(ctx, par, selected_experts); // [hidden_size, num_experts_per_tok, qlen]
-            return experts;
+            ggml::tensor * experts_out = experts.down.forward(ctx, par, selected_experts); // [hidden_size, num_experts_per_tok, qlen]
+            return experts_out;
         }
     private:
         const float limit;
 
@@ -200,9 +200,9 @@ namespace chatllm::granite::moe
             {
                 std::string layer_prefix = "model.layers." + std::to_string(Base::layer_ids[i]) + '.';
 
-                loader.read_tensor(layer_prefix + "mlp.experts_down.weight", layer_prefix + "block_sparse_moe.experts.", _NUM_EXPERTS, ".down_proj.weight", transformer->layers[i].mlp.experts_down.weight);
-                loader.read_tensor(layer_prefix + "mlp.experts_gate.weight", layer_prefix + "block_sparse_moe.experts.", _NUM_EXPERTS, ".gate_proj.weight", transformer->layers[i].mlp.experts_gate.weight);
-                loader.read_tensor(layer_prefix + "mlp.experts_up.weight",   layer_prefix + "block_sparse_moe.experts.", _NUM_EXPERTS, ".up_proj.weight", transformer->layers[i].mlp.experts_up.weight);
+                loader.read_tensor(layer_prefix + "mlp.experts_down.weight", layer_prefix + "block_sparse_moe.experts.", _NUM_EXPERTS, ".down_proj.weight", transformer->layers[i].mlp.experts.down.weight);
+                loader.read_tensor(layer_prefix + "mlp.experts_gate.weight", layer_prefix + "block_sparse_moe.experts.", _NUM_EXPERTS, ".gate_proj.weight", transformer->layers[i].mlp.experts.gate.weight);
+                loader.read_tensor(layer_prefix + "mlp.experts_up.weight",   layer_prefix + "block_sparse_moe.experts.", _NUM_EXPERTS, ".up_proj.weight",   transformer->layers[i].mlp.experts.up.weight);
 
                 loader.read_tensor(layer_prefix + "block_sparse_moe.router.layer.weight",
                                 transformer->layers[i].mlp.gate.weight);
 
@@ -142,9 +142,9 @@ namespace chatllm::grok::v1
         {
             std::string layer_prefix = "model.layers." + std::to_string(layer_ids[i]) + '.';
 
-            loader.read_tensor(layer_prefix + "mlp.experts_down.weight", layer_prefix + "experts.", config.num_experts, ".w2.weight", transformer->layers[i].mlp.experts_down.weight);
-            loader.read_tensor(layer_prefix + "mlp.experts_gate.weight", layer_prefix + "experts.", config.num_experts, ".w1.weight", transformer->layers[i].mlp.experts_gate.weight);
-            loader.read_tensor(layer_prefix + "mlp.experts_up.weight",   layer_prefix + "experts.", config.num_experts, ".w3.weight", transformer->layers[i].mlp.experts_up.weight);
+            loader.read_tensor(layer_prefix + "mlp.experts_down.weight", layer_prefix + "experts.", config.num_experts, ".w2.weight", transformer->layers[i].mlp.experts.down.weight);
+            loader.read_tensor(layer_prefix + "mlp.experts_gate.weight", layer_prefix + "experts.", config.num_experts, ".w1.weight", transformer->layers[i].mlp.experts.gate.weight);
+            loader.read_tensor(layer_prefix + "mlp.experts_up.weight",   layer_prefix + "experts.", config.num_experts, ".w3.weight", transformer->layers[i].mlp.experts.up.weight);
 
             loader.read_tensor(layer_prefix + "self_attn.k_proj.weight", transformer->layers[i].attention.k_proj.weight);
             loader.read_tensor(layer_prefix + "self_attn.o_proj.weight", transformer->layers[i].attention.o_proj.weight);
 
@@ -0,0 +1,146 @@
+#include "qwen.h"
+
+namespace chatllm::grove::moe
+{
+    struct Config : BaseConfig
+    {
+        int num_key_value_heads;
+        int head_dim;
+        float rope_theta;
+        int moe_intermediate_size;
+        int num_experts_per_tok;
+        int num_experts;
+        int num_experts_per_group;
+        int small_experts_intermediate_size;
+        float small_experts_weight;
+    };
+
+    typedef qwen::v3::Tokenizer Tokenizer;
+
+    // TODO: optimization: same small expert might be calculated twice.
+    class BigLittleGroupedSparseMoE : public BaseSparseMLP
+    {
+    public:
+        BigLittleGroupedSparseMoE(InitContext *ctx, int hidden_size, int intermediate_size, int num_local_experts, int num_experts_per_tok,
+                       int group_size, int small_experts_intermediate_size);
+        int64_t get_param_num(bool effective_only) const override;
+        void load(const std::string &path, TensorLoader *loader) override;
+
+    protected:
+        ggml::tensor *forward_with_experts(ComputeContext *ctx, ggml::tensor *hidden_states,
+            ggml::tensor *selected_experts,
+            ggml::tensor *weights) override;
+    public:
+        MultiMLP small_experts;
+        const int group_size;
+        const int small_experts_intermediate_size;
+        float small_experts_weight;
+    };
+
+    BigLittleGroupedSparseMoE::BigLittleGroupedSparseMoE(InitContext *ctx, int hidden_size, int intermediate_size, int num_local_experts, int num_experts_per_tok,
+                       int group_size, int small_experts_intermediate_size)
+        : BaseSparseMLP(ctx, hidden_size, intermediate_size, num_local_experts, num_experts_per_tok, ActFunc::SILU, false),
+            small_experts(ctx, hidden_size, small_experts_intermediate_size, num_local_experts / group_size, num_experts_per_tok, ActFunc::SILU, false, group_size),
+            group_size(group_size), small_experts_intermediate_size(small_experts_intermediate_size),
+            small_experts_weight(0.5f)
+    {
+    }
+
+    int64_t BigLittleGroupedSparseMoE::get_param_num(bool effective_only) const
+    {
+        int64_t r = 0;
+        r += small_experts.get_param_num(effective_only);
+        r += BaseSparseMLP::get_param_num(effective_only);
+        return r;
+    }
+
+    void BigLittleGroupedSparseMoE::load(const std::string &path, TensorLoader *loader)
+    {
+        BaseSparseMLP::load(path, loader);
+
+        small_experts.load(path + "chunk_experts.", loader);
+    }
+
+    // selected_experts: [qlen, num_experts_per_tok]
+    // weights:          [1, num_experts_per_tok, qlen]
+    ggml::tensor *BigLittleGroupedSparseMoE::forward_with_experts(ComputeContext *ctx, ggml::tensor *hidden_states,
+            ggml::tensor *selected_experts,
+            ggml::tensor *weights)
+    {
+        ggml::tensor * large_out = BaseSparseMLP::forward_with_experts(ctx, hidden_states, selected_experts, weights);
+        ggml::tensor * small_out = BaseSparseMLP::forward_with_experts(ctx, hidden_states, selected_experts, weights,
+            [this](ComputeContext *ctx, ggml::tensor *hidden_states, ggml::tensor *selected_experts)
+            {
+                return small_experts.forward(ctx, hidden_states, selected_experts);
+            });
+
+        ggml::tensor * r         = ggml::add(ctx, large_out, small_out);
+
+        return r;
+    }
+
+    #define SMALL_EXPERTS_GROUP_SIZE                2
+    #define SMALL_EXPERTS_INTERMEDIATE_SIZE         128
+
+    template <int NUM_EXPERTS, int EXPERTS_PER_TOK> class GroveSparseMoE : public BigLittleGroupedSparseMoE
+    {
+    public:
+        GroveSparseMoE(InitContext *ctx, int hidden_size, int intermediate_size)
+            : BigLittleGroupedSparseMoE(ctx, hidden_size, intermediate_size, NUM_EXPERTS, EXPERTS_PER_TOK, SMALL_EXPERTS_GROUP_SIZE, SMALL_EXPERTS_INTERMEDIATE_SIZE)
+        {}
+    };
+
+    template <int NUM_EXPERTS, int EXPERTS_PER_TOK> class GroveMoEBlock : public
+        LMBlock1<RMSNorm, qwen::v3::QWen3SelfAttention, RMSNorm, GroveSparseMoE<NUM_EXPERTS, EXPERTS_PER_TOK>>
+    {
+    public:
+        typedef GroveSparseMoE<NUM_EXPERTS, EXPERTS_PER_TOK> MoEMLP;
+    public:
+        GroveMoEBlock(InitContext *ctx, int hidden_size, int num_attention_heads, int intermediate_size,
+                int mlp_intermediate_size,
+                int num_kv_heads,
+                int head_dim, int max_length)
+            : LMBlock1<RMSNorm, qwen::v3::QWen3SelfAttention, RMSNorm, MoEMLP>(ctx, hidden_size, num_attention_heads, intermediate_size, mlp_intermediate_size,
+            num_kv_heads, head_dim, max_length)
+        {}
+    };
+
+    typedef GroveMoEBlock<128, 8> GroveMoEBlock128_8;
+
+    class ConditionalGeneration : public BaseModelForConditionalGeneration
+    {
+    public:
+        typedef Model<Config, Embedding, RMSNorm, GroveMoEBlock128_8, int, int, int, int, int, int, int> ModelClass;
+    public:
+        ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config,
+            ModelType type = ModelType::MODEL_TYPE_GROVE_MOE);
+    };
+
+
+    ConditionalGeneration::ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config, ModelType type)
+        : BaseModelForConditionalGeneration(type, config, runtime_config, 4096 * 4)
+    {
+        const size_t tensor_ovhd = ggml_tensor_overhead();
+        const size_t num_tensors = 3 + config.num_hidden_layers * (14 + 1 + 3);
+        const size_t ctx_size = num_tensors * tensor_ovhd;
+        w_ctx_.gctx = GGMLContext({.mem_size = ctx_size, .mem_buffer = nullptr, .no_alloc = true});
+        w_ctx_.dtype = config.dtype;
+
+        CHATLLM_CHECK(config.num_experts_per_group == SMALL_EXPERTS_GROUP_SIZE);
+        CHATLLM_CHECK(config.small_experts_intermediate_size == SMALL_EXPERTS_INTERMEDIATE_SIZE);
+
+        transformer = new ModelClass(&w_ctx_, config, false, config.hidden_size, config.num_attention_heads, config.intermediate_size,
+                              config.moe_intermediate_size, config.num_key_value_heads, config.head_dim, config.max_length);
+
+        for (int i = 0; i < config.num_hidden_layers; i++)
+        {
+            auto &layer = get_typed_transformer<ModelClass>()->layers[i];
+            layer.attention.freq_base = config.rope_theta;
+            layer.mlp.small_experts_weight = config.small_experts_weight;
+        }
+
+        w_ctx_.check_used_mem_size(true);
+    }
+
+    REGISTER_MODEL_LOADER(GROVE_MOE,         moe, 1);
+}
@@ -520,9 +520,9 @@ namespace chatllm::llama::v4
                     auto *layer = dynamic_cast<LlamaMoEBlock *>(transformer->get_layer(i));
                     attention = &layer->attention;
 
-                    loader.read_tensor(layer_prefix + "mlp.mlp1.experts_down.weight", layer_prefix + "mlp.experts.", config.n_routed_experts, ".down_proj.weight", layer->mlp.mlp1.experts_down.weight);
-                    loader.read_tensor(layer_prefix + "mlp.mlp1.experts_gate.weight", layer_prefix + "mlp.experts.", config.n_routed_experts, ".gate_proj.weight", layer->mlp.mlp1.experts_gate.weight);
-                    loader.read_tensor(layer_prefix + "mlp.mlp1.experts_up.weight",   layer_prefix + "mlp.experts.", config.n_routed_experts, ".up_proj.weight",   layer->mlp.mlp1.experts_up.weight);
+                    loader.read_tensor(layer_prefix + "mlp.mlp1.experts_down.weight", layer_prefix + "mlp.experts.", config.n_routed_experts, ".down_proj.weight", layer->mlp.mlp1.experts.down.weight);
+                    loader.read_tensor(layer_prefix + "mlp.mlp1.experts_gate.weight", layer_prefix + "mlp.experts.", config.n_routed_experts, ".gate_proj.weight", layer->mlp.mlp1.experts.gate.weight);
+                    loader.read_tensor(layer_prefix + "mlp.mlp1.experts_up.weight",   layer_prefix + "mlp.experts.", config.n_routed_experts, ".up_proj.weight",   layer->mlp.mlp1.experts.up.weight);
 
                     loader.read_tensor(layer_prefix + "mlp.gate.weight", layer->mlp.mlp1.gate.weight);