use old arch to run z1(reuse eos & half rope and so on)

piDack · piDack · commit b928f8ca24b1 · 2025-04-15T09:42:21.000Z
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -4929,23 +4929,7 @@ def prepare_tensors(self):
         self.gguf_writer.add_max_alibi_bias(self.max_alibi_bias)
 
 
-@Model.register("Glm4ForCausalLM")
-class Glm4Model(Model):
-    model_arch = gguf.MODEL_ARCH.GLM4
-
-    def set_vocab(self):
-        self._set_vocab_gpt2()
-
-    def set_gguf_parameters(self):
-        super().set_gguf_parameters()
-        if self.hparams.get("rope_scaling") is not None and "factor" in self.hparams["rope_scaling"]:
-            if self.hparams["rope_scaling"].get("type") == "yarn":
-                self.gguf_writer.add_rope_scaling_type(gguf.RopeScalingType.YARN)
-                self.gguf_writer.add_rope_scaling_factor(self.hparams["rope_scaling"]["factor"])
-                self.gguf_writer.add_rope_scaling_orig_ctx_len(self.hparams["rope_scaling"]["original_max_position_embeddings"])
-
-
-@Model.register("GlmForCausalLM", "ChatGLMModel", "ChatGLMForConditionalGeneration")
+@Model.register("GlmForCausalLM", "ChatGLMModel", "ChatGLMForConditionalGeneration", "Glm4ForCausalLM")
 class ChatGLMModel(Model):
     model_arch = gguf.MODEL_ARCH.CHATGLM
 
@@ -5085,6 +5069,11 @@ def set_gguf_parameters(self):
             rope_dim = self.hparams["hidden_size"] // self.hparams["num_attention_heads"]
         self.gguf_writer.add_rope_dimension_count(int(rope_dim * self.hparams.get("partial_rotary_factor", 0.5)))
         self.gguf_writer.add_add_bos_token(False)
+        if self.hparams.get("rope_scaling") is not None and "factor" in self.hparams["rope_scaling"]:
+            if self.hparams["rope_scaling"].get("type") == "yarn":
+                self.gguf_writer.add_rope_scaling_type(gguf.RopeScalingType.YARN)
+                self.gguf_writer.add_rope_scaling_factor(self.hparams["rope_scaling"]["factor"])
+                self.gguf_writer.add_rope_scaling_orig_ctx_len(self.hparams["rope_scaling"]["original_max_position_embeddings"])
         rope_freq = 10000
         if "rope_ratio" in self.hparams:
             rope_freq = rope_freq * self.hparams["rope_ratio"]
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -1570,6 +1570,8 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.FFN_NORM,
         MODEL_TENSOR.FFN_DOWN,
         MODEL_TENSOR.FFN_UP,
+        MODEL_TENSOR.ATTN_POST_NORM,
+        MODEL_TENSOR.FFN_POST_NORM,
     ],
     MODEL_ARCH.GLM4 : [
         MODEL_TENSOR.TOKEN_EMBD,
diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
@@ -1155,6 +1155,8 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_FFN_NORM,        "blk.%d.ffn_norm" },
             { LLM_TENSOR_FFN_UP,          "blk.%d.ffn_up" },
             { LLM_TENSOR_FFN_DOWN,        "blk.%d.ffn_down" },
+            { LLM_TENSOR_ATTN_POST_NORM,  "blk.%d.post_attention_norm" },
+            { LLM_TENSOR_FFN_POST_NORM,   "blk.%d.post_ffw_norm" },
         },
     },
     {
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -1204,6 +1204,7 @@ void llama_model::load_hparams(llama_model_loader & ml) {
                             type = LLM_TYPE_9B;
                         }
                     } break;
+                    case 61: type = LLM_TYPE_32B; break;
                     default: type = LLM_TYPE_UNKNOWN;
                 }
             } break;
@@ -3475,7 +3476,7 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
                     // output
                     output_norm   = create_tensor(tn(LLM_TENSOR_OUTPUT_NORM, "weight"), {n_embd}, 0);
                     output        = create_tensor(tn(LLM_TENSOR_OUTPUT,      "weight"), {n_embd, n_vocab}, 0);
-
+                    // if output is NULL, init from the input tok embed
                     for (int i = 0; i < n_layer; ++i) {
                         auto & layer = layers[i];
 
@@ -3494,11 +3495,15 @@ bool llama_model::load_tensors(llama_model_loader & ml) {
 
                         layer.wo   = create_tensor(tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd}, 0);
 
+                        layer.attn_post_norm = create_tensor(tn(LLM_TENSOR_ATTN_POST_NORM, "weight", i), {n_embd}, TENSOR_NOT_REQUIRED);
+
                         layer.ffn_norm   = create_tensor(tn(LLM_TENSOR_FFN_NORM, "weight", i), {n_embd}, 0);
 
                         layer.ffn_up     = create_tensor(tn(LLM_TENSOR_FFN_UP,   "weight", i), {n_embd, n_ff * 2}, 0);
 
                         layer.ffn_down   = create_tensor(tn(LLM_TENSOR_FFN_DOWN, "weight", i), {n_ff, n_embd}, 0);
+
+                        layer.ffn_post_norm  = create_tensor(tn(LLM_TENSOR_FFN_POST_NORM, "weight", i), {n_embd}, 0);
                     }
                 } break;
             case LLM_ARCH_GLM4:
@@ -10911,12 +10916,22 @@ struct llm_build_chatglm : public llm_graph_context {
                 inpSA = ggml_get_rows(ctx0, inpSA, inp_out_ids);
             }
 
+            // Post-attention norm (new!)
+            if (model.layers[il].attn_post_norm){
+                cur = build_norm(cur,
+                        model.layers[il].attn_post_norm,
+                        NULL,
+                        LLM_NORM_RMS, il);
+                cb(cur, "post_attn_norm", il);
+            }
+
             // Add the input
             ggml_tensor * ffn_inp = ggml_add(ctx0, cur, inpSA);
             cb(ffn_inp, "ffn_inp", il);
 
             // FF
             {
+                // Pre-MLP norm
                 cur = build_norm(ffn_inp,
                         model.layers[il].ffn_norm,
                         NULL,
@@ -10931,6 +10946,14 @@ struct llm_build_chatglm : public llm_graph_context {
                         LLM_FFN_SWIGLU, LLM_FFN_SEQ, il);
                 cb(cur, "ffn_out", il);
 
+                // Post-MLP norm
+                if(model.layers[il].ffn_post_norm){
+                    cur = build_norm(cur,
+                            model.layers[il].ffn_post_norm,
+                            NULL,
+                            LLM_NORM_RMS, il);
+                    cb(cur, "post_mlp_norm", il);
+                }
             }
 
             inpL = ggml_add(ctx0, cur, ffn_inp);

Original file line number	Diff line number	Diff line change
`@@ -1155,6 +1155,8 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N`
`1155`	`1155`	`{ LLM_TENSOR_FFN_NORM, "blk.%d.ffn_norm" },`
`1156`	`1156`	`{ LLM_TENSOR_FFN_UP, "blk.%d.ffn_up" },`
`1157`	`1157`	`{ LLM_TENSOR_FFN_DOWN, "blk.%d.ffn_down" },`
	`1158`	`+ { LLM_TENSOR_ATTN_POST_NORM, "blk.%d.post_attention_norm" },`
	`1159`	`+ { LLM_TENSOR_FFN_POST_NORM, "blk.%d.post_ffw_norm" },`
`1158`	`1160`	`},`
`1159`	`1161`	`},`
`1160`	`1162`	`{`