model: glm 4.5 apply suggestions from code review

sammcj · CISC · web-flow · commit 7c8fc019229c · 2025-08-04T17:37:35.000+10:00
Co-authored-by: Sigbjørn Skjæret &lt;sigbjorn.skjaeret@scala.com&gt;
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -6644,7 +6644,7 @@ def set_gguf_parameters(self):
 
         # NextN/MTP prediction layers
         if (num_nextn_predict_layers := self.hparams.get("num_nextn_predict_layers")) is not None:
-            self.gguf_writer.add_num_nextn_predict_layers(num_nextn_predict_layers)
+            self.gguf_writer.add_nextn_predict_layers(num_nextn_predict_layers)
 
     _experts: list[dict[str, Tensor]] | None = None
 
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -105,7 +105,7 @@ class LLM:
         EXPERT_WEIGHTS_NORM               = "{arch}.expert_weights_norm"
         EXPERT_GATING_FUNC                = "{arch}.expert_gating_func"
         MOE_EVERY_N_LAYERS                = "{arch}.moe_every_n_layers"
-        NUM_NEXTN_PREDICT_LAYERS          = "{arch}.num_nextn_predict_layers"
+        NEXTN_PREDICT_LAYERS              = "{arch}.num_nextn_predict_layers"
         POOLING_TYPE                      = "{arch}.pooling_type"
         LOGIT_SCALE                       = "{arch}.logit_scale"
         DECODER_START_TOKEN_ID            = "{arch}.decoder_start_token_id"
@@ -940,12 +940,12 @@ class MODEL_TENSOR(IntEnum):
     MODEL_TENSOR.A_MM_NORM_PRE:             "mm.a.norm_pre",
     MODEL_TENSOR.A_MM_NORM_MID:             "mm.a.norm_mid",
     # NextN/MTP
-    MODEL_TENSOR.NEXTN_EH_PROJ:             "blk.{bid}.eh_proj",
-    MODEL_TENSOR.NEXTN_EMBED_TOKENS:        "blk.{bid}.embed_tokens",
-    MODEL_TENSOR.NEXTN_ENORM:               "blk.{bid}.enorm",
-    MODEL_TENSOR.NEXTN_HNORM:               "blk.{bid}.hnorm",
-    MODEL_TENSOR.NEXTN_SHARED_HEAD_HEAD:    "blk.{bid}.shared_head.head",
-    MODEL_TENSOR.NEXTN_SHARED_HEAD_NORM:    "blk.{bid}.shared_head.norm",
+    MODEL_TENSOR.NEXTN_EH_PROJ:             "blk.{bid}.nextn.eh_proj",
+    MODEL_TENSOR.NEXTN_EMBED_TOKENS:        "blk.{bid}.nextn.embed_tokens",
+    MODEL_TENSOR.NEXTN_ENORM:               "blk.{bid}.nextn.enorm",
+    MODEL_TENSOR.NEXTN_HNORM:               "blk.{bid}.nextn.hnorm",
+    MODEL_TENSOR.NEXTN_SHARED_HEAD_HEAD:    "blk.{bid}.nextn.shared_head_head",
+    MODEL_TENSOR.NEXTN_SHARED_HEAD_NORM:    "blk.{bid}.nextn.shared_head_norm",
 }
 
 MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
diff --git a/gguf-py/gguf/gguf_writer.py b/gguf-py/gguf/gguf_writer.py
@@ -753,8 +753,8 @@ def add_expert_gating_func(self, value: ExpertGatingFuncType) -> None:
     def add_moe_every_n_layers(self, value: int) -> None:
         self.add_uint32(Keys.LLM.MOE_EVERY_N_LAYERS.format(arch=self.arch), value)
 
-    def add_num_nextn_predict_layers(self, count: int) -> None:
-        self.add_uint32(Keys.LLM.NUM_NEXTN_PREDICT_LAYERS.format(arch=self.arch), count)
+    def add_nextn_predict_layers(self, count: int) -> None:
+        self.add_uint32(Keys.LLM.NEXTN_PREDICT_LAYERS.format(arch=self.arch), count)
 
     def add_swin_norm(self, value: bool) -> None:
         self.add_bool(Keys.LLM.SWIN_NORM.format(arch=self.arch), value)
diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -1351,27 +1351,27 @@ class TensorNameMap:
 
         # NextN/MTP tensors for GLM4_MOE
         MODEL_TENSOR.NEXTN_EH_PROJ: (
-            "model.layers.{bid}.eh_proj.weight",
+            "model.layers.{bid}.eh_proj",
         ),
 
         MODEL_TENSOR.NEXTN_EMBED_TOKENS: (
-            "model.layers.{bid}.embed_tokens.weight",
+            "model.layers.{bid}.embed_tokens",
         ),
 
         MODEL_TENSOR.NEXTN_ENORM: (
-            "model.layers.{bid}.enorm.weight",
+            "model.layers.{bid}.enorm",
         ),
 
         MODEL_TENSOR.NEXTN_HNORM: (
-            "model.layers.{bid}.hnorm.weight",
+            "model.layers.{bid}.hnorm",
         ),
 
         MODEL_TENSOR.NEXTN_SHARED_HEAD_HEAD: (
-            "model.layers.{bid}.shared_head.head.weight",
+            "model.layers.{bid}.shared_head.head",
         ),
 
         MODEL_TENSOR.NEXTN_SHARED_HEAD_NORM: (
-            "model.layers.{bid}.shared_head.norm.weight",
+            "model.layers.{bid}.shared_head.norm",
         ),
     }
 
diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
@@ -126,7 +126,7 @@ static const std::map<llm_kv, const char *> LLM_KV_NAMES = {
     { LLM_KV_EXPERT_WEIGHTS_NORM,               "%s.expert_weights_norm"               },
     { LLM_KV_EXPERT_GATING_FUNC,                "%s.expert_gating_func"                },
     { LLM_KV_MOE_EVERY_N_LAYERS,                "%s.moe_every_n_layers"                },
-    { LLM_KV_NUM_NEXTN_PREDICT_LAYERS,           "%s.num_nextn_predict_layers"           },
+    { LLM_KV_NEXTN_PREDICT_LAYERS,              "%s.nextn_predict_layers"               },
     { LLM_KV_POOLING_TYPE,                      "%s.pooling_type"                      },
     { LLM_KV_LOGIT_SCALE,                       "%s.logit_scale"                       },
     { LLM_KV_DECODER_START_TOKEN_ID,            "%s.decoder_start_token_id"            },
@@ -1417,12 +1417,12 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_FFN_UP_SHEXP,       "blk.%d.ffn_up_shexp" },
             { LLM_TENSOR_FFN_EXP_PROBS_B,    "blk.%d.exp_probs_b" },
             // NextN/MTP tensors - preserved but unused (in final layer, dynamic layer number)
-            { LLM_TENSOR_NEXTN_EH_PROJ,      "blk.%d.eh_proj" },
-            { LLM_TENSOR_NEXTN_EMBED_TOKENS, "blk.%d.embed_tokens" },
-            { LLM_TENSOR_NEXTN_ENORM,        "blk.%d.enorm" },
-            { LLM_TENSOR_NEXTN_HNORM,        "blk.%d.hnorm" },
-            { LLM_TENSOR_NEXTN_SHARED_HEAD_HEAD, "blk.%d.shared_head.head" },
-            { LLM_TENSOR_NEXTN_SHARED_HEAD_NORM, "blk.%d.shared_head.norm" },
+            { LLM_TENSOR_NEXTN_EH_PROJ,      "blk.%d.nextn.eh_proj" },
+            { LLM_TENSOR_NEXTN_EMBED_TOKENS, "blk.%d.nextn.embed_tokens" },
+            { LLM_TENSOR_NEXTN_ENORM,        "blk.%d.nextn.enorm" },
+            { LLM_TENSOR_NEXTN_HNORM,        "blk.%d.nextn.hnorm" },
+            { LLM_TENSOR_NEXTN_SHARED_HEAD_HEAD, "blk.%d.nextn.shared_head_head" },
+            { LLM_TENSOR_NEXTN_SHARED_HEAD_NORM, "blk.%d.nextn.shared_head_norm" },
         },
     },
     {
diff --git a/src/llama-arch.h b/src/llama-arch.h
@@ -130,7 +130,7 @@ enum llm_kv {
     LLM_KV_EXPERT_WEIGHTS_NORM,
     LLM_KV_EXPERT_GATING_FUNC,
     LLM_KV_MOE_EVERY_N_LAYERS,
-    LLM_KV_NUM_NEXTN_PREDICT_LAYERS,
+    LLM_KV_NEXTN_PREDICT_LAYERS,
     LLM_KV_POOLING_TYPE,
     LLM_KV_LOGIT_SCALE,
     LLM_KV_DECODER_START_TOKEN_ID,
diff --git a/src/llama-hparams.h b/src/llama-hparams.h
@@ -72,8 +72,8 @@ struct llama_hparams {
     float    expert_weights_scale = 0.0;
     bool     expert_weights_norm  = false;
     uint32_t expert_gating_func   = LLAMA_EXPERT_GATING_FUNC_TYPE_NONE;
-    uint32_t moe_every_n_layers       = 0;
-    uint32_t num_nextn_predict_layers = 0;
+    uint32_t moe_every_n_layers   = 0;
+    uint32_t nextn_predict_layers = 0;
 
     float f_norm_eps;
     float f_norm_rms_eps;
diff --git a/src/llama-kv-cache-unified.cpp b/src/llama-kv-cache-unified.cpp
@@ -41,7 +41,7 @@ llama_kv_cache_unified::llama_kv_cache_unified(
     }
     if (model.arch == LLM_ARCH_GLM4_MOE) {
         // GLM-4.5: Only process up to last layer, skip final NextN layer
-        n_layer_cache = hparams.n_layer - 1;
+        n_layer_cache = hparams.n_layer - hparam.nextn_predict_layers;
     }
 
     // create a context for each buffer type

Original file line number	Diff line number	Diff line change
`@@ -41,7 +41,7 @@ llama_kv_cache_unified::llama_kv_cache_unified(`
`41`	`41`	`}`
`42`	`42`	`if (model.arch == LLM_ARCH_GLM4_MOE) {`
`43`	`43`	`// GLM-4.5: Only process up to last layer, skip final NextN layer`
`44`		`- n_layer_cache = hparams.n_layer - 1;`
	`44`	`+ n_layer_cache = hparams.n_layer - hparam.nextn_predict_layers;`
`45`	`45`	`}`
`46`	`46`
`47`	`47`	`// create a context for each buffer type`