Properly encode/decode MoE layer step

pwilkin · pwilkin · commit 056ab446cdb2 · 2025-07-13T02:23:51.000+02:00
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -2827,10 +2827,10 @@ def set_gguf_parameters(self):
         super().set_gguf_parameters()
         self.gguf_writer.add_expert_count(self.hparams["moe_num_experts"])
         self.gguf_writer.add_expert_used_count(self.hparams["moe_k"])
-        self.gguf_writer.add_moe_every_n_layers(self.hparams["moe_layer_interval"])
+        self.gguf_writer.add_interleave_moe_layer_step(self.hparams["moe_layer_interval"])
 
     def tensor_force_quant(self, name: str, new_name: str, bid: int | None, n_dims: int) -> gguf.GGMLQuantizationType | bool:
-        if "experts" in new_name:
+        if "exps" in new_name:
             return gguf.GGMLQuantizationType.F16
         return super().tensor_force_quant(name, new_name, bid, n_dims)
 
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -1610,6 +1610,9 @@ void llama_model::load_hparams(llama_model_loader & ml) {
         case LLM_ARCH_ERNIE4_5_MOE:
             {
                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
+                if (arch == LLM_ARCH_ERNIE4_5_MOE) {
+                    ml.get_key(LLM_KV_INTERLEAVE_MOE_LAYER_STEP,   hparams.n_moe_layer_step);
+                }
                 switch (hparams.n_layer) {
                     case 18: type = LLM_TYPE_0_3B; break;
                     default: type = LLM_TYPE_UNKNOWN;