Not ready yet

pwilkin · pwilkin · commit a5edd7b10217 · 2025-07-19T00:19:40.000+02:00
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -11,6 +11,7 @@
 import os
 import re
 import sys
+from functools import reduce
 from enum import IntEnum
 from pathlib import Path
 from hashlib import sha256
@@ -1246,7 +1247,7 @@ def set_gguf_parameters(self):
             self.gguf_writer.add_vision_embedding_length(self.find_vparam(["hidden_size"]))
             self.gguf_writer.add_vision_feed_forward_length(self.find_vparam(["intermediate_size"]))
             self.gguf_writer.add_vision_block_count(self.find_vparam(self.n_block_keys))
-            self.gguf_writer.add_vision_head_count(self.find_vparam(["num_attention_heads"]))
+            self.gguf_writer.add_vision_head_count(self.find_vparam(["num_attention_heads", "num_heads"]))
 
             # preprocessor config
             self.gguf_writer.add_vision_image_mean(self.preprocessor_config["image_mean"])
@@ -2895,14 +2896,15 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
         return [(self.map_tensor_name(name), data_torch)]
 
 
-@ModelBase.register("Ernie4_5_MoeForCausalLM")
+@ModelBase.register("Ernie4_5_MoeForCausalLM", "Ernie4_5_VLMoeForConditionalGeneration")
 class Ernie4_5MoeModel(Ernie4_5Model):
     model_arch = gguf.MODEL_ARCH.ERNIE4_5_MOE
     _experts: list[dict[str, Tensor]] | None = None
 
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
         self._experts = [{} for _ in range(self.block_count)]
+        self.split_cache = {}
 
     def set_gguf_parameters(self):
         super().set_gguf_parameters()
@@ -2918,6 +2920,18 @@ def set_gguf_parameters(self):
                 self.gguf_writer.add_expert_shared_feed_forward_length(shared_expert_intermediate_size // num_key_value_heads)
 
     def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
+        if name.endswith((".weight_1", ".bias_1")):
+            self.split_cache[name] = data_torch
+            return []
+
+        part1_name = name + "_1"
+        if part1_name in self.split_cache:
+            part1_tensor = self.split_cache.pop(part1_name)
+            dim = 0
+            if 'down' in name or 'proj' in name and 'up' not in name and 'gate' not in name:
+                dim = 1
+            data_torch = torch.cat((data_torch, part1_tensor), dim=dim)
+
         # Modify correction bias name as in DeepseekV2
         if name.endswith("e_score_correction_bias"):
             name = name.replace("e_score_correction_bias", "e_score_correction.bias")
@@ -2949,7 +2963,8 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
                 self._experts = [{} for _ in range(self.block_count)]
 
             self._experts[bid][name] = data_torch
-
+            n_experts_val = self.hparams["moe_num_experts"]
+            n_experts = reduce(lambda x, y: x + y, n_experts_val, 0) if isinstance(n_experts_val, list) else n_experts_val
             if len(self._experts[bid]) >= n_experts * 3:
                 tensors: list[tuple[str, Tensor]] = []
 
@@ -3012,6 +3027,67 @@ def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iter
             # skip multimodal tensors
             return []
         return [(self.map_tensor_name(name), data_torch)]
+@ModelBase.register("Ernie4_5_VLMoeForConditionalGeneration")
+class Ernie45VLModel(MmprojModel):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.model_arch = gguf.MODEL_ARCH.ERNIE4_5_VL_MOE
+        if self.hparams_vision is not None and "image_size" not in self.hparams_vision:
+            if "size" in self.preprocessor_config and "height" in self.preprocessor_config["size"]:
+                self.hparams_vision["image_size"] = self.preprocessor_config["size"]["height"]
+            elif "crop_size" in self.preprocessor_config and "height" in self.preprocessor_config["crop_size"]:
+                self.hparams_vision["image_size"] = self.preprocessor_config["crop_size"]["height"]
+        if self.hparams_vision is not None and "intermediate_size" not in self.hparams_vision:
+            self.hparams_vision["intermediate_size"] = self.hparams_vision["hidden_size"] * self.hparams_vision["mlp_ratio"]
+        if self.hparams_vision is not None and "num_hidden_layers" not in self.hparams_vision and "num_layers" not in self.hparams_vision:
+            # FIXME: This is a placeholder calculation.
+            # The actual value may need to be derived differently.
+            self.hparams_vision["num_hidden_layers"] = 32
+
+    def set_gguf_parameters(self):
+        # super().set_gguf_parameters() # don't call parent
+        vision_config = self.hparams_vision
+        assert vision_config is not None
+        self.gguf_writer.add_vision_embedding_length(vision_config["hidden_size"])
+        self.gguf_writer.add_vision_feed_forward_length(vision_config["intermediate_size"])
+        if (block_count := vision_config.get("num_hidden_layers", vision_config.get("num_layers"))) is None:
+            raise KeyError("Could not find num_hidden_layers or num_layers in vision config")
+        self.gguf_writer.add_vision_block_count(block_count)
+        if (head_count := vision_config.get("num_attention_heads", vision_config.get("num_heads"))) is None:
+            raise KeyError("Could not find num_attention_heads or num_heads in vision config")
+        self.gguf_writer.add_vision_head_count(head_count)
+        self.gguf_writer.add_vision_image_size(vision_config["image_size"])
+        self.gguf_writer.add_vision_patch_size(vision_config["patch_size"])
+        self.gguf_writer.add_vision_projection_dim(self.hparams["hidden_size"])
+        self.gguf_writer.add_clip_projector_type("mlp")
+        if "spatial_conv_size" in self.hparams:
+            self.gguf_writer.add_vision_spatial_merge_size(self.hparams["spatial_conv_size"])
+
+    def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
+        del bid
+        if name.startswith("vision_model."):
+            if ".attn.qkv." in name:
+                if data_torch.ndim == 2: # weight
+                    c3, _ = data_torch.shape
+                else: # bias
+                    c3 = data_torch.shape[0]
+                assert c3 % 3 == 0
+                c = c3 // 3
+                wq = data_torch[:c]
+                wk = data_torch[c: c * 2]
+                wv = data_torch[c * 2:]
+                yield from [
+                    (self.map_tensor_name(name.replace("qkv", "q")), wq),
+                    (self.map_tensor_name(name.replace("qkv", "k")), wk),
+                    (self.map_tensor_name(name.replace("qkv", "v")), wv),
+                ]
+                return
+            if "mm_resampler" in name:
+                name = name.replace("mm_resampler", "resampler")
+            yield self.map_tensor_name(name), data_torch
+        else:
+            # This is a projector model, so we skip the text model tensors.
+            return
 
 
 @ModelBase.register("Qwen2VLModel", "Qwen2VLForConditionalGeneration", "Qwen2_5_VLForConditionalGeneration")
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -365,6 +365,7 @@ class MODEL_ARCH(IntEnum):
     ARCEE            = auto()
     ERNIE4_5         = auto()
     ERNIE4_5_MOE     = auto()
+    ERNIE4_5_VL_MOE  = auto()
     HUNYUAN_MOE      = auto()
     SMOLLM3          = auto()
     LFM2             = auto()
@@ -583,6 +584,7 @@ class MODEL_TENSOR(IntEnum):
     V_RESMPL_QUERY       = auto() # minicpmv
     V_TOK_EMBD_IMG_BREAK = auto() # pixtral
     V_MM_PATCH_MERGER    = auto() # mistral small 3.1
+    
     # audio (mtmd)
     A_ENC_EMBD_POS       = auto()
     A_ENC_CONV1D         = auto()
@@ -682,6 +684,7 @@ class MODEL_TENSOR(IntEnum):
     MODEL_ARCH.ARCEE:            "arcee",
     MODEL_ARCH.ERNIE4_5:         "ernie4_5",
     MODEL_ARCH.ERNIE4_5_MOE:     "ernie4_5-moe",
+    MODEL_ARCH.ERNIE4_5_VL_MOE:  "ernie4_5-vl-moe",
     MODEL_ARCH.FALCON_H1:        "falcon-h1",
     MODEL_ARCH.HUNYUAN_MOE:      "hunyuan-moe",
     MODEL_ARCH.SMOLLM3:          "smollm3",
@@ -901,6 +904,7 @@ class MODEL_TENSOR(IntEnum):
     MODEL_TENSOR.V_RESMPL_QUERY:            "resampler.query",
     MODEL_TENSOR.V_TOK_EMBD_IMG_BREAK:      "v.token_embd.img_break", # pixtral
     MODEL_TENSOR.V_MM_PATCH_MERGER:         "mm.patch_merger", # mistral small 3.1
+    
     # audio (mtmd)
     MODEL_TENSOR.A_ENC_EMBD_POS:            "a.position_embd",
     MODEL_TENSOR.A_ENC_CONV1D:              "a.conv1d.{bid}",
@@ -2046,6 +2050,67 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.FFN_UP_SHEXP,
         MODEL_TENSOR.FFN_EXP_PROBS_B,
     ],
+    MODEL_ARCH.ERNIE4_5_VL_MOE: [
+        MODEL_TENSOR.TOKEN_EMBD,
+        MODEL_TENSOR.OUTPUT_NORM,
+        MODEL_TENSOR.OUTPUT,
+        MODEL_TENSOR.ATTN_NORM,
+        MODEL_TENSOR.ATTN_Q,
+        MODEL_TENSOR.ATTN_K,
+        MODEL_TENSOR.ATTN_V,
+        MODEL_TENSOR.ATTN_OUT,
+        MODEL_TENSOR.FFN_NORM,
+        MODEL_TENSOR.FFN_GATE,
+        MODEL_TENSOR.FFN_DOWN,
+        MODEL_TENSOR.FFN_UP,
+        MODEL_TENSOR.FFN_GATE_INP,
+        MODEL_TENSOR.FFN_GATE_EXP,
+        MODEL_TENSOR.FFN_DOWN_EXP,
+        MODEL_TENSOR.FFN_UP_EXP,
+        MODEL_TENSOR.FFN_GATE_SHEXP,
+        MODEL_TENSOR.FFN_DOWN_SHEXP,
+        MODEL_TENSOR.FFN_UP_SHEXP,
+        MODEL_TENSOR.FFN_EXP_PROBS_B,
+        MODEL_TENSOR.V_MMPROJ,
+        MODEL_TENSOR.V_MMPROJ_FC,
+        MODEL_TENSOR.V_MMPROJ_MLP,
+        MODEL_TENSOR.V_MMPROJ_PEG,
+        MODEL_TENSOR.V_ENC_EMBD_CLS,
+        MODEL_TENSOR.V_ENC_EMBD_PATCH,
+        MODEL_TENSOR.V_ENC_EMBD_POS,
+        MODEL_TENSOR.V_ENC_INPUT_NORM,
+        MODEL_TENSOR.V_ENC_ATTN_Q,
+        MODEL_TENSOR.V_ENC_ATTN_Q_NORM,
+        MODEL_TENSOR.V_ENC_ATTN_K,
+        MODEL_TENSOR.V_ENC_ATTN_K_NORM,
+        MODEL_TENSOR.V_ENC_ATTN_V,
+        MODEL_TENSOR.V_ENC_ATTN_O,
+        MODEL_TENSOR.V_ENC_ATTN_O_NORM,
+        MODEL_TENSOR.V_ENC_POST_ATTN_NORM,
+        MODEL_TENSOR.V_ENC_FFN_UP,
+        MODEL_TENSOR.V_ENC_FFN_GATE,
+        MODEL_TENSOR.V_ENC_FFN_DOWN,
+        MODEL_TENSOR.V_LAYER_SCALE_1,
+        MODEL_TENSOR.V_LAYER_SCALE_2,
+        MODEL_TENSOR.V_PRE_NORM,
+        MODEL_TENSOR.V_POST_NORM,
+        MODEL_TENSOR.V_MM_INP_PROJ,
+        MODEL_TENSOR.V_MM_INP_NORM,
+        MODEL_TENSOR.V_MM_SOFT_EMB_NORM,
+        MODEL_TENSOR.V_RESMPL_POS_EMBD_K,
+        MODEL_TENSOR.V_RESMPL_ATTN_Q,
+        MODEL_TENSOR.V_RESMPL_ATTN_K,
+        MODEL_TENSOR.V_RESMPL_ATTN_V,
+        MODEL_TENSOR.V_RESMPL_ATTN_OUT,
+        MODEL_TENSOR.V_RESMPL_KV,
+        MODEL_TENSOR.V_RESMPL_KV_NORM,
+        MODEL_TENSOR.V_RESMPL_POST_NORM,
+        MODEL_TENSOR.V_RESMPL_Q_NORM,
+        MODEL_TENSOR.V_RESMPL_PROJ,
+        MODEL_TENSOR.V_RESMPL_QUERY,
+        MODEL_TENSOR.V_TOK_EMBD_IMG_BREAK,
+        MODEL_TENSOR.V_MM_PATCH_MERGER,
+    ],
     MODEL_ARCH.PLM: [
         MODEL_TENSOR.TOKEN_EMBD,
         MODEL_TENSOR.OUTPUT,
diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -1087,6 +1087,7 @@ class TensorNameMap:
             "vision_tower.patch_conv", # pixtral
             "vision_model.patch_embedding.linear", # llama 4
             "visual.patch_embed.proj", # qwen2vl
+            "vision_model.patch_embed.proj",
         ),
 
         MODEL_TENSOR.V_ENC_EMBD_POS: (
@@ -1103,6 +1104,7 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.self_attn.q_proj", # llama4
             "vision_tower.transformer.layers.{bid}.attention.q_proj", # pixtral
             "visual.blocks.{bid}.attn.q", # qwen2vl, generated
+            "vision_model.blocks.{bid}.attn.q",
         ),
 
         MODEL_TENSOR.V_ENC_ATTN_Q_NORM: (
@@ -1116,6 +1118,7 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.self_attn.k_proj", # llama4
             "vision_tower.transformer.layers.{bid}.attention.k_proj", # pixtral
             "visual.blocks.{bid}.attn.k", # qwen2vl, generated
+            "vision_model.blocks.{bid}.attn.k",
         ),
 
         MODEL_TENSOR.V_ENC_ATTN_K_NORM: (
@@ -1129,6 +1132,7 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.self_attn.v_proj", # llama4
             "vision_tower.transformer.layers.{bid}.attention.v_proj", # pixtral
             "visual.blocks.{bid}.attn.v", # qwen2vl, generated
+            "vision_model.blocks.{bid}.attn.v",
         ),
 
         MODEL_TENSOR.V_ENC_INPUT_NORM: (
@@ -1139,6 +1143,7 @@ class TensorNameMap:
             "vision_tower.transformer.layers.{bid}.attention_norm", # pixtral
             "vision_model.model.layers.{bid}.input_layernorm", # llama4
             "visual.blocks.{bid}.norm1", # qwen2vl
+            "vision_model.blocks.{bid}.norm1",
         ),
 
         MODEL_TENSOR.V_ENC_ATTN_O: (
@@ -1149,6 +1154,7 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.self_attn.o_proj", # llama4
             "vision_tower.transformer.layers.{bid}.attention.o_proj", # pixtral
             "visual.blocks.{bid}.attn.proj", # qwen2vl
+            "vision_model.blocks.{bid}.attn.proj",
         ),
 
         MODEL_TENSOR.V_ENC_POST_ATTN_NORM: (
@@ -1159,6 +1165,7 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.post_attention_layernorm", # llama4
             "vision_tower.transformer.layers.{bid}.ffn_norm", # pixtral
             "visual.blocks.{bid}.norm2", # qwen2vl
+            "vision_model.blocks.{bid}.norm2",
         ),
 
         MODEL_TENSOR.V_ENC_FFN_UP: (
@@ -1169,6 +1176,7 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.mlp.fc1", # llama4
             "visual.blocks.{bid}.mlp.fc1", # qwen2vl
             "visual.blocks.{bid}.mlp.up_proj", # qwen2.5vl
+            "vision_model.blocks.{bid}.mlp.fc1",
         ),
 
         MODEL_TENSOR.V_ENC_FFN_GATE: (
@@ -1184,6 +1192,7 @@ class TensorNameMap:
             "vision_model.model.layers.{bid}.mlp.fc2", # llama4
             "visual.blocks.{bid}.mlp.fc2", # qwen2vl
             "visual.blocks.{bid}.mlp.down_proj", # qwen2.5vl
+            "vision_model.blocks.{bid}.mlp.fc2",
         ),
 
         MODEL_TENSOR.V_LAYER_SCALE_1: (
@@ -1205,6 +1214,7 @@ class TensorNameMap:
             "model.vision_model.post_layernorm", # SmolVLM
             "vision_model.layernorm_post", # llama4
             "visual.merger.ln_q", # qwen2vl
+            "vision_model.ln",
         ),
 
         MODEL_TENSOR.V_MM_INP_PROJ: (
diff --git a/src/llama-arch.h b/src/llama-arch.h
@@ -87,6 +87,7 @@ enum llm_arch {
     LLM_ARCH_ARCEE,
     LLM_ARCH_ERNIE4_5,
     LLM_ARCH_ERNIE4_5_MOE,
+    LLM_ARCH_ERNIE4_5_VL_MOE,
     LLM_ARCH_HUNYUAN_MOE,
     LLM_ARCH_SMOLLM3,
     LLM_ARCH_LFM2,
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -1652,9 +1652,10 @@ void llama_model::load_hparams(llama_model_loader & ml) {
             } break;
         case LLM_ARCH_ERNIE4_5:
         case LLM_ARCH_ERNIE4_5_MOE:
+        case LLM_ARCH_ERNIE4_5_VL_MOE:
             {
                 ml.get_key(LLM_KV_ATTENTION_LAYERNORM_RMS_EPS, hparams.f_norm_rms_eps);
-                if (arch == LLM_ARCH_ERNIE4_5_MOE) {
+                if (arch == LLM_ARCH_ERNIE4_5_MOE || arch == LLM_ARCH_ERNIE4_5_VL_MOE) {
                     ml.get_key(LLM_KV_EXPERT_FEED_FORWARD_LENGTH,        hparams.n_ff_exp);
                     ml.get_key(LLM_KV_EXPERT_SHARED_FEED_FORWARD_LENGTH, hparams.n_ff_shexp, false);
                     ml.get_key(LLM_KV_INTERLEAVE_MOE_LAYER_STEP,         hparams.n_moe_layer_step);
@@ -17394,6 +17395,7 @@ llama_rope_type llama_model_rope_type(const llama_model * model) {
         case LLM_ARCH_ARCEE:
         case LLM_ARCH_ERNIE4_5:
         case LLM_ARCH_ERNIE4_5_MOE:
+        case LLM_ARCH_ERNIE4_5_VL_MOE:
             return LLAMA_ROPE_TYPE_NORM;
 
         // the pairs of head values are offset by n_rot/2
diff --git a/tools/mtmd/clip-impl.h b/tools/mtmd/clip-impl.h
@@ -45,6 +45,12 @@
 #define KEY_ATTN_WINDOW_SIZE      "clip.vision.window_size"
 #define KEY_MINICPMV_VERSION      "clip.minicpmv_version"
 
+// ernie4.5-vl specific
+#define KEY_IN_DIM                "clip.vision.in_dim"
+#define KEY_OUT_DIM               "clip.vision.out_dim"
+#define KEY_SPATIAL_CONV_SIZE     "clip.vision.spatial_conv_size"
+#define KEY_TEMPORAL_CONV_SIZE    "clip.vision.temporal_conv_size"
+
 // audio-specific
 #define KEY_A_NUM_MEL_BINS      "clip.audio.num_mel_bins"
 #define KEY_A_PROJ_STACK_FACTOR "clip.audio.projector.stack_factor"
@@ -111,6 +117,17 @@
 #define TN_MM_NORM_PRE  "mm.a.norm_pre.%s"
 #define TN_MM_NORM_MID  "mm.a.norm_mid.%s"
 
+// ernie4.5-vl
+#define TN_MM_RESAMPLER_IN_PROJ_W         "mm.resampler.in_proj.weight"
+#define TN_MM_RESAMPLER_IN_PROJ_B         "mm.resampler.in_proj.bias"
+#define TN_MM_RESAMPLER_OUT_PROJ_W        "mm.resampler.out_proj.weight"
+#define TN_MM_RESAMPLER_OUT_PROJ_B        "mm.resampler.out_proj.bias"
+#define TN_MM_RESAMPLER_POS_EMB           "mm.resampler.pos_emb"
+#define TN_MM_RESAMPLER_SPATIAL_CONV_W    "mm.resampler.spatial_conv.weight"
+#define TN_MM_RESAMPLER_SPATIAL_CONV_B    "mm.resampler.spatial_conv.bias"
+#define TN_MM_RESAMPLER_TEMPORAL_CONV_W   "mm.resampler.temporal_conv.weight"
+#define TN_MM_RESAMPLER_TEMPORAL_CONV_B   "mm.resampler.temporal_conv.bias"
+
 // align x to upper multiple of n
 #define CLIP_ALIGN(x, n) ((((x) + (n) - 1) / (n)) * (n))
 
@@ -131,6 +148,7 @@ enum projector_type {
     PROJECTOR_TYPE_LLAMA4,
     PROJECTOR_TYPE_QWEN2A,
     PROJECTOR_TYPE_QWEN25O, // will be replaced by QWEN2A or QWEN25VL depending on clip_ctx
+    PROJECTOR_TYPE_ERNIE45_VL_RESAMPLER,
     PROJECTOR_TYPE_UNKNOWN,
 };
 
@@ -150,6 +168,7 @@ static std::map<projector_type, std::string> PROJECTOR_TYPE_NAMES = {
     { PROJECTOR_TYPE_LLAMA4,    "llama4"},
     { PROJECTOR_TYPE_QWEN2A,    "qwen2a"},
     { PROJECTOR_TYPE_QWEN25O,   "qwen2.5o"},
+    { PROJECTOR_TYPE_ERNIE45_VL_RESAMPLER, "ernie45_vl_resampler"},
 };
 
 static projector_type clip_projector_type_from_string(const std::string & str) {
diff --git a/tools/mtmd/clip.cpp b/tools/mtmd/clip.cpp