Add CogVLM to conversion script

Tianyue-Zhao · Tianyue-Zhao · commit 5c19d77aeb3c · 2025-03-06T23:50:06.000Z
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -577,9 +577,7 @@ def get_vocab_base(self) -> tuple[list[str], list[int], str]:
         toktypes: list[int] = []
 
         from transformers import AutoTokenizer
-        # DEBIAN_FRONTEND=noninteractive means that the script is running in a non-interactive environment (i.e. CI), so we cannot answer Y/N when it asks for user input
-        is_cli_non_interactive = os.environ.get("DEBIAN_FRONTEND", "") == "noninteractive"
-        tokenizer = AutoTokenizer.from_pretrained(self.dir_model, trust_remote_code=is_cli_non_interactive)
+        tokenizer = AutoTokenizer.from_pretrained(self.dir_model)
         vocab_size = self.hparams.get("vocab_size", len(tokenizer.vocab))
         assert max(tokenizer.vocab.values()) < vocab_size
 
@@ -5186,6 +5184,58 @@ def _reverse_hf_permute(data_torch, n_heads, hidden_dim):
         data_torch = data_torch.repeat_interleave(n_heads, 0)
         return data_torch
 
+@Model.register("CogAgentForCausalLM")
+class CogVLMModel(Model):
+    model_arch = gguf.MODEL_ARCH.COGVLM
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.ftype = gguf.LlamaFileType.ALL_F32
+
+    def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
+        # Skip boi and eoi tensors for now
+        if name.endswith("boi"):
+            return []
+        if name.endswith("eoi"):
+            return []
+        if name.startswith("model.vision"):
+            return []
+        if name.startswith("model.cross_vision"):
+            return []
+
+        return [(self.map_tensor_name(name), data_torch)]
+    
+    def set_vocab(self):
+        from transformers import AutoTokenizer
+        tokenizer = AutoTokenizer.from_pretrained('lmsys/vicuna-7b-v1.5')
+        vocab_size = len(tokenizer.vocab.items())
+
+        reverse_vocab = {id_: encoded_tok for encoded_tok, id_ in tokenizer.vocab.items()}
+        added_vocab = tokenizer.get_added_vocab()
+        tokens: list[str] = []
+        toktypes: list[int] = []
+
+        for i in range(vocab_size):
+            if i not in reverse_vocab:
+                tokens.append(f"[PAD{i}]")
+                toktypes.append(gguf.TokenType.UNUSED)
+            else:
+                token: str = reverse_vocab[i]
+                if token in added_vocab:
+                    if tokenizer.added_tokens_decoder[i].special or self.does_token_look_special(token):
+                        toktypes.append(gguf.TokenType.CONTROL)
+                    else:
+                        token = token.replace(b"\xe2\x96\x81".decode("utf-8"), " ")  # pre-normalize user-defined spaces
+                        toktypes.append(gguf.TokenType.USER_DEFINED)
+                else:
+                    toktypes.append(gguf.TokenType.NORMAL)
+                tokens.append(token)
+
+        self.gguf_writer.add_tokenizer_model("llama")
+        self.gguf_writer.add_tokenizer_pre("default")
+        self.gguf_writer.add_token_list(tokens)
+        self.gguf_writer.add_token_types(toktypes)
+
 
 ###### CONVERSION LOGIC ######
 
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -308,6 +308,7 @@ class MODEL_ARCH(IntEnum):
     GRANITE_MOE      = auto()
     CHAMELEON        = auto()
     WAVTOKENIZER_DEC = auto()
+    COGVLM           = auto()
     # vision models
     VISION_LLAVA     = auto()
     VISION_MOBILEVLM = auto()
@@ -441,6 +442,19 @@ class MODEL_TENSOR(IntEnum):
     POSNET_ATTN_K        = auto()
     POSNET_ATTN_V        = auto()
     POSNET_ATTN_OUT      = auto()
+    ATTN_TXT_QKV         = auto()
+    ATTN_IMG_QKV         = auto()
+    ATTN_TXT_DENSE       = auto()
+    ATTN_IMG_DENSE       = auto()
+    CROSS_ATTN_Q         = auto()
+    CROSS_ATTN_KV        = auto()
+    CROSS_ATTN_DENSE     = auto()
+    FFN_TXT_UP           = auto()
+    FFN_TXT_GATE         = auto()
+    FFN_TXT_DOWN         = auto()
+    FFN_IMG_UP           = auto()
+    FFN_IMG_GATE         = auto()
+    FFN_IMG_DOWN         = auto()
     # vision
     V_MMPROJ             = auto()
     V_MMPROJ_FC          = auto()
@@ -533,6 +547,7 @@ class MODEL_TENSOR(IntEnum):
     MODEL_ARCH.GRANITE:          "granite",
     MODEL_ARCH.GRANITE_MOE:      "granitemoe",
     MODEL_ARCH.CHAMELEON:        "chameleon",
+    MODEL_ARCH.COGVLM:           "cogvlm",
     MODEL_ARCH.WAVTOKENIZER_DEC: "wavtokenizer-dec",
     # vision
     MODEL_ARCH.VISION_LLAVA:     "llava",
@@ -666,6 +681,19 @@ class MODEL_TENSOR(IntEnum):
     MODEL_TENSOR.POSNET_ATTN_K:             "posnet.{bid}.attn_k",
     MODEL_TENSOR.POSNET_ATTN_V:             "posnet.{bid}.attn_v",
     MODEL_TENSOR.POSNET_ATTN_OUT:           "posnet.{bid}.attn_output",
+    MODEL_TENSOR.ATTN_TXT_QKV:              "blk.{bid}.attn_txt_qkv",
+    MODEL_TENSOR.ATTN_IMG_QKV:              "blk.{bid}.attn_img_qkv",
+    MODEL_TENSOR.ATTN_TXT_DENSE:            "blk.{bid}.attn_txt_dense",
+    MODEL_TENSOR.ATTN_IMG_DENSE:            "blk.{bid}.attn_img_dense",
+    MODEL_TENSOR.CROSS_ATTN_Q:              "blk.{bid}.cross_attn_q",
+    MODEL_TENSOR.CROSS_ATTN_KV:             "blk.{bid}.cross_attn_kv",
+    MODEL_TENSOR.CROSS_ATTN_DENSE:          "blk.{bid}.cross_attn_dense",
+    MODEL_TENSOR.FFN_TXT_UP:                "blk.{bid}.ffn_txt_up",
+    MODEL_TENSOR.FFN_TXT_GATE:              "blk.{bid}.ffn_txt_gate",
+    MODEL_TENSOR.FFN_TXT_DOWN:              "blk.{bid}.ffn_txt_down",
+    MODEL_TENSOR.FFN_IMG_UP:                "blk.{bid}.ffn_img_up",
+    MODEL_TENSOR.FFN_IMG_GATE:              "blk.{bid}.ffn_img_gate",
+    MODEL_TENSOR.FFN_IMG_DOWN:              "blk.{bid}.ffn_img_down",
     # vision
     MODEL_TENSOR.V_MMPROJ:                  "v.mmproj_{bid}",
     MODEL_TENSOR.V_MMPROJ_FC:               "v.mmproj.fc",
@@ -1621,6 +1649,27 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.FFN_DOWN,
         MODEL_TENSOR.FFN_UP,
     ],
+    MODEL_ARCH.COGVLM: [
+        MODEL_TENSOR.TOKEN_EMBD,
+        MODEL_TENSOR.OUTPUT_NORM,
+        MODEL_TENSOR.OUTPUT,
+        MODEL_TENSOR.ATTN_NORM,
+        MODEL_TENSOR.ATTN_TXT_QKV,
+        MODEL_TENSOR.ATTN_IMG_QKV,
+        MODEL_TENSOR.ATTN_TXT_DENSE,
+        MODEL_TENSOR.ATTN_IMG_DENSE,
+        MODEL_TENSOR.ATTN_NORM_2,
+        MODEL_TENSOR.CROSS_ATTN_Q,
+        MODEL_TENSOR.CROSS_ATTN_KV,
+        MODEL_TENSOR.CROSS_ATTN_DENSE,
+        MODEL_TENSOR.FFN_NORM,
+        MODEL_TENSOR.FFN_TXT_UP,
+        MODEL_TENSOR.FFN_TXT_GATE,
+        MODEL_TENSOR.FFN_TXT_DOWN,
+        MODEL_TENSOR.FFN_IMG_UP,
+        MODEL_TENSOR.FFN_IMG_GATE,
+        MODEL_TENSOR.FFN_IMG_DOWN,
+    ],
     MODEL_ARCH.WAVTOKENIZER_DEC: [
         MODEL_TENSOR.TOKEN_EMBD,
         MODEL_TENSOR.TOKEN_EMBD_NORM,
diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -28,6 +28,7 @@ class TensorNameMap:
             "transformer.token_embeddings",              # openelm
             "shared",                                    # t5
             "rwkv.embeddings",                           # rwkv
+            "model.embed_tokens",                        # cogvlm
         ),
 
         # Token type embeddings
@@ -55,7 +56,7 @@ class TensorNameMap:
         # Output
         MODEL_TENSOR.OUTPUT: (
             "embed_out",                 # gptneox
-            "lm_head",                   # gpt2 mpt falcon llama-hf baichuan qwen mamba dbrx jais nemotron exaone olmoe olmo2 phimoe
+            "lm_head",                   # gpt2 mpt falcon llama-hf baichuan qwen mamba dbrx jais nemotron exaone olmoe olmo2 phimoe cogvlm
             "output",                    # llama-pth bloom internlm2
             "word_embeddings_for_head",  # persimmon
             "lm_head.linear",            # phi2
@@ -68,7 +69,7 @@ class TensorNameMap:
         MODEL_TENSOR.OUTPUT_NORM: (
             "gpt_neox.final_layer_norm",               # gptneox
             "transformer.ln_f",                        # gpt2 gpt-j falcon jais exaone
-            "model.norm",                              # llama-hf baichuan internlm2 olmoe olmo2 phimoe
+            "model.norm",                              # llama-hf baichuan internlm2 olmoe olmo2 phimoe nemotron cogvlm
             "norm",                                    # llama-pth
             "transformer.norm_f",                      # mpt dbrx
             "ln_f",                                    # refact bloom qwen gpt2
@@ -80,7 +81,6 @@ class TensorNameMap:
             "transformer.rms_norm",                    # Grok
             "encoder.final_layernorm",                 # chatglm
             "transformer.norm",                        # openelm
-            "model.norm",                              # nemotron
             "rwkv.ln_out",                             # rwkv
             "backbone.final_layer_norm",               # wavtokenizer
         ),
@@ -108,7 +108,7 @@ class TensorNameMap:
             "transformer.h.{bid}.input_layernorm",                  # falcon7b
             "h.{bid}.input_layernorm",                              # bloom
             "transformer.h.{bid}.ln_mlp",                           # falcon40b
-            "model.layers.{bid}.input_layernorm",                   # llama-hf nemotron olmoe phimoe
+            "model.layers.{bid}.input_layernorm",                   # llama-hf nemotron olmoe phimoe cogvlm
             "layers.{bid}.attention_norm",                          # llama-pth
             "language_model.encoder.layers.{bid}.input_layernorm",  # persimmon
             "model.layers.{bid}.ln1",                               # yi
@@ -127,9 +127,10 @@ class TensorNameMap:
 
         # Attention norm 2
         MODEL_TENSOR.ATTN_NORM_2: (
-            "transformer.h.{bid}.ln_attn",                  # falcon40b
-            "encoder.layer.{bid}.layer_norm_1",             # jina-v2-code
-            "rwkv.blocks.{bid}.ln2",                        # rwkv
+            "transformer.h.{bid}.ln_attn",                       # falcon40b
+            "encoder.layer.{bid}.layer_norm_1",                  # jina-v2-code
+            "rwkv.blocks.{bid}.ln2",                             # rwkv
+            "model.layers.{bid}.post_cross_attention_layernorm", # cogvlm
         ),
 
         # Attention query-key-value
@@ -242,7 +243,7 @@ class TensorNameMap:
             "transformer.h.{bid}.ln_2",                                      # gpt2 refact qwen jais exaone
             "h.{bid}.post_attention_layernorm",                              # bloom
             "transformer.blocks.{bid}.norm_2",                               # mpt
-            "model.layers.{bid}.post_attention_layernorm",                   # llama-hf nemotron olmoe phimoe
+            "model.layers.{bid}.post_attention_layernorm",                   # llama-hf nemotron olmoe phimoe cogvlm
             "layers.{bid}.ffn_norm",                                         # llama-pth
             "language_model.encoder.layers.{bid}.post_attention_layernorm",  # persimmon
             "model.layers.{bid}.ln2",                                        # yi
@@ -788,6 +789,58 @@ class TensorNameMap:
             "backbone.posnet.{bid}.proj_out", # wavtokenizer
         ),
 
+        MODEL_TENSOR.ATTN_TXT_QKV: (
+            "model.layers.{bid}.self_attn.language_expert_query_key_value", #cogvlm
+        ),
+
+        MODEL_TENSOR.ATTN_IMG_QKV: (
+            "model.layers.{bid}.self_attn.vision_expert_query_key_value", #cogvlm
+        ),
+
+        MODEL_TENSOR.ATTN_TXT_DENSE: (
+            "model.layers.{bid}.self_attn.language_expert_dense", #cogvlm
+        ),
+
+        MODEL_TENSOR.ATTN_IMG_DENSE: (
+            "model.layers.{bid}.self_attn.vision_expert_dense", #cogvlm
+        ),
+
+        MODEL_TENSOR.CROSS_ATTN_Q: (
+            "model.layers.{bid}.cross_attn.query", # cogvlm
+        ),
+
+        MODEL_TENSOR.CROSS_ATTN_KV: (
+            "model.layers.{bid}.cross_attn.key_value", # cogvlm
+        ),
+
+        MODEL_TENSOR.CROSS_ATTN_DENSE: (
+            "model.layers.{bid}.cross_attn.dense", # cogvlm
+        ),
+
+        MODEL_TENSOR.FFN_TXT_UP: (
+            "model.layers.{bid}.mlp.language_mlp.up_proj", # cogvlm
+        ),
+
+        MODEL_TENSOR.FFN_TXT_GATE: (
+            "model.layers.{bid}.mlp.language_mlp.gate_proj", # cogvlm
+        ),
+
+        MODEL_TENSOR.FFN_TXT_DOWN: (
+            "model.layers.{bid}.mlp.language_mlp.down_proj", # cogvlm
+        ),
+
+        MODEL_TENSOR.FFN_IMG_UP: (
+            "model.layers.{bid}.mlp.vision_mlp.up_proj", # cogvlm
+        ),
+
+        MODEL_TENSOR.FFN_IMG_GATE: (
+            "model.layers.{bid}.mlp.vision_mlp.gate_proj", # cogvlm
+        ),
+
+        MODEL_TENSOR.FFN_IMG_DOWN: (
+            "model.layers.{bid}.mlp.vision_mlp.down_proj", # cogvlm
+        ),
+
         #############################################################################
 
         MODEL_TENSOR.V_MMPROJ: (
diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
@@ -1302,25 +1302,25 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
     {
         LLM_ARCH_COGVLM,
         {
-            { LLM_TENSOR_TOKEN_EMBD,         "embed_tokens" },
-            { LLM_TENSOR_OUTPUT_NORM,        "norm" },
-            { LLM_TENSOR_OUTPUT,             "lm_head" },
-            { LLM_TENSOR_ATTN_NORM,          "layers.%d.input_layernorm" },  // input_norm_w
-            { LLM_TENSOR_ATTN_TXT_QKV,       "layers.%d.self_attn.language_expert_query_key_value" },  // language_qkv_w
-            { LLM_TENSOR_ATTN_IMG_QKV,       "layers.%d.self_attn.vision_expert_query_key_value" },  // vision_qkv_w
-            { LLM_TENSOR_ATTN_TXT_DENSE,     "layers.%d.self_attn.language_expert_dense" },  // language_dense_w
-            { LLM_TENSOR_ATTN_IMG_DENSE,     "layers.%d.self_attn.vision_expert_dense" },  // vision_dense_w
-            { LLM_TENSOR_ATTN_NORM_2,        "layers.%d.post_cross_attention_layernorm" },  // self_attn_norm_w
-            { LLM_TENSOR_CROSS_ATTN_Q,       "layers.%d.cross_attn.query" },  // cross_query_w
-            { LLM_TENSOR_CROSS_ATTN_KV,      "layers.%d.cross_attn.key_value" },  // cross_query_kv
-            { LLM_TENSOR_CROSS_ATTN_DENSE,   "layers.%d.cross_attn.dense" },  // cross_dense_w
-            { LLM_TENSOR_FFN_NORM,           "layers.%d.post_attention_layernorm" },  // attn_norm_w
-            { LLM_TENSOR_FFN_TXT_UP,         "layers.%d.mlp.language_mlp.up_proj" },  // language_up_proj_w
-            { LLM_TENSOR_FFN_TXT_GATE,       "layers.%d.mlp.language_mlp.gate_proj" },  // language_gate_proj_w
-            { LLM_TENSOR_FFN_TXT_DOWN,       "layers.%d.mlp.language_mlp.down_proj" },  // language_down_proj_w
-            { LLM_TENSOR_FFN_IMG_UP,         "layers.%d.mlp.vision_mlp.up_proj" },  // vision_up_proj_w
-            { LLM_TENSOR_FFN_IMG_GATE,       "layers.%d.mlp.vision_mlp.gate_proj" },  // vision_gate_proj_w
-            { LLM_TENSOR_FFN_IMG_DOWN,       "layers.%d.mlp.vision_mlp.down_proj" }  // vision_down_proj_w
+            { LLM_TENSOR_TOKEN_EMBD,         "token_embd" },
+            { LLM_TENSOR_OUTPUT_NORM,        "output_norm" },
+            { LLM_TENSOR_OUTPUT,             "output" },
+            { LLM_TENSOR_ATTN_NORM,          "blk.%d.attn_norm" },  // input_norm_w
+            { LLM_TENSOR_ATTN_TXT_QKV,       "blk.%d.attn_txt_qkv" },  // language_qkv_w
+            { LLM_TENSOR_ATTN_IMG_QKV,       "blk.%d.attn_img_qkv" },  // vision_qkv_w
+            { LLM_TENSOR_ATTN_TXT_DENSE,     "blk.%d.attn_txt_dense" },  // language_dense_w
+            { LLM_TENSOR_ATTN_IMG_DENSE,     "blk.%d.attn_img_dense" },  // vision_dense_w
+            { LLM_TENSOR_ATTN_NORM_2,        "blk.%d.attn_norm_2" },  // self_attn_norm_w
+            { LLM_TENSOR_CROSS_ATTN_Q,       "blk.%d.cross_attn_q" },  // cross_query_w
+            { LLM_TENSOR_CROSS_ATTN_KV,      "blk.%d.cross_attn_kv" },  // cross_query_kv
+            { LLM_TENSOR_CROSS_ATTN_DENSE,   "blk.%d.cross_attn_dense" },  // cross_dense_w
+            { LLM_TENSOR_FFN_NORM,           "blk.%d.ffn_norm" },  // attn_norm_w
+            { LLM_TENSOR_FFN_TXT_UP,         "blk.%d.ffn_txt_up" },  // language_up_proj_w
+            { LLM_TENSOR_FFN_TXT_GATE,       "blk.%d.ffn_txt_gate" },  // language_gate_proj_w
+            { LLM_TENSOR_FFN_TXT_DOWN,       "blk.%d.ffn_txt_down" },  // language_down_proj_w
+            { LLM_TENSOR_FFN_IMG_UP,         "blk.%d.ffn_img_up" },  // vision_up_proj_w
+            { LLM_TENSOR_FFN_IMG_GATE,       "blk.%d.ffn_img_gate" },  // vision_gate_proj_w
+            { LLM_TENSOR_FFN_IMG_DOWN,       "blk.%d.ffn_img_down" }  // vision_down_proj_w
         },
     },
     {