feat: support GLM 4.5 family of models

sammcj · sammcj · commit 9652812ca788 · 2025-07-30T13:32:59.000+10:00
diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
@@ -1414,13 +1414,13 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_FFN_GATE_SHEXP,     "blk.%d.ffn_gate_shexp" },
             { LLM_TENSOR_FFN_DOWN_SHEXP,     "blk.%d.ffn_down_shexp" },
             { LLM_TENSOR_FFN_UP_SHEXP,       "blk.%d.ffn_up_shexp" },
-            // NextN/MTP tensors - preserved but unused (treated as output tensors)
-            { LLM_TENSOR_NEXTN_EH_PROJ,      "blk.46.eh_proj" },
-            { LLM_TENSOR_NEXTN_EMBED_TOKENS, "blk.46.embed_tokens" },
-            { LLM_TENSOR_NEXTN_ENORM,        "blk.46.enorm" },
-            { LLM_TENSOR_NEXTN_HNORM,        "blk.46.hnorm" },
-            { LLM_TENSOR_NEXTN_SHARED_HEAD_HEAD, "blk.46.shared_head.head" },
-            { LLM_TENSOR_NEXTN_SHARED_HEAD_NORM, "blk.46.shared_head.norm" },
+            // NextN/MTP tensors - preserved but unused (in final layer, dynamic layer number)
+            { LLM_TENSOR_NEXTN_EH_PROJ,      "blk.%d.eh_proj" },
+            { LLM_TENSOR_NEXTN_EMBED_TOKENS, "blk.%d.embed_tokens" },
+            { LLM_TENSOR_NEXTN_ENORM,        "blk.%d.enorm" },
+            { LLM_TENSOR_NEXTN_HNORM,        "blk.%d.hnorm" },
+            { LLM_TENSOR_NEXTN_SHARED_HEAD_HEAD, "blk.%d.shared_head.head" },
+            { LLM_TENSOR_NEXTN_SHARED_HEAD_NORM, "blk.%d.shared_head.norm" },
         },
     },
     {
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -4386,13 +4386,14 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                         output = create_tensor(tn(LLM_TENSOR_TOKEN_EMBD, "weight"), { n_embd, n_vocab }, TENSOR_DUPLICATED);
                     }
 
-                    // NextN/MTP tensors (preserved but unused) - treated as output tensors
-                    create_tensor(tn(LLM_TENSOR_NEXTN_EH_PROJ), { 2 * n_embd, n_embd }, TENSOR_NOT_REQUIRED);
-                    create_tensor(tn(LLM_TENSOR_NEXTN_EMBED_TOKENS), { n_embd, n_vocab }, TENSOR_NOT_REQUIRED);
-                    create_tensor(tn(LLM_TENSOR_NEXTN_ENORM), { n_embd }, TENSOR_NOT_REQUIRED);
-                    create_tensor(tn(LLM_TENSOR_NEXTN_HNORM), { n_embd }, TENSOR_NOT_REQUIRED);
-                    create_tensor(tn(LLM_TENSOR_NEXTN_SHARED_HEAD_HEAD), { n_embd, n_vocab }, TENSOR_NOT_REQUIRED);
-                    create_tensor(tn(LLM_TENSOR_NEXTN_SHARED_HEAD_NORM), { n_embd }, TENSOR_NOT_REQUIRED);
+                    // NextN/MTP tensors (preserved but unused) - in final layer (dynamic layer number)
+                    const int final_layer = n_layer - 1; // NextN tensors are in the last layer
+                    create_tensor(tn(LLM_TENSOR_NEXTN_EH_PROJ, "weight", final_layer), { 2 * n_embd, n_embd }, TENSOR_NOT_REQUIRED);
+                    create_tensor(tn(LLM_TENSOR_NEXTN_EMBED_TOKENS, "weight", final_layer), { n_embd, n_vocab }, TENSOR_NOT_REQUIRED);
+                    create_tensor(tn(LLM_TENSOR_NEXTN_ENORM, "weight", final_layer), { n_embd }, TENSOR_NOT_REQUIRED);
+                    create_tensor(tn(LLM_TENSOR_NEXTN_HNORM, "weight", final_layer), { n_embd }, TENSOR_NOT_REQUIRED);
+                    create_tensor(tn(LLM_TENSOR_NEXTN_SHARED_HEAD_HEAD, "weight", final_layer), { n_embd, n_vocab }, TENSOR_NOT_REQUIRED);
+                    create_tensor(tn(LLM_TENSOR_NEXTN_SHARED_HEAD_NORM, "weight", final_layer), { n_embd }, TENSOR_NOT_REQUIRED);
 
                     for (int i = 0; i < n_layer; ++i) {
                         auto & layer = layers[i];