ngxson
diff --git a/‎convert_hf_to_gguf.py‎
Lines changed: 156 additions & 153 deletions b/‎convert_hf_to_gguf.py‎
Lines changed: 156 additions & 153 deletions
diff --git a/‎examples/vision/vision.cpp‎
Lines changed: 3 additions & 2 deletions b/‎examples/vision/vision.cpp‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎gguf-py/gguf/constants.py‎
Lines changed: 22 additions & 15 deletions b/‎gguf-py/gguf/constants.py‎
Lines changed: 22 additions & 15 deletions
diff --git a/‎gguf-py/gguf/tensor_mapping.py‎
Lines changed: 14 additions & 6 deletions b/‎gguf-py/gguf/tensor_mapping.py‎
Lines changed: 14 additions & 6 deletions
diff --git a/‎src/llama-arch.cpp‎
Lines changed: 25 additions & 5 deletions b/‎src/llama-arch.cpp‎
Lines changed: 25 additions & 5 deletions
diff --git a/‎src/llama-arch.h‎
Lines changed: 7 additions & 5 deletions b/‎src/llama-arch.h‎
Lines changed: 7 additions & 5 deletions
@@ -98,8 +98,9 @@ int main(int argc, char ** argv) {
     common_params params;
 
     // default prompt for llava 1.5
-    params.prompt = "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.\n"
-        "USER:<img_placement>\nwhat did you see?\nASSISTANT:";
+    //params.prompt = "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.\nUSER:<img_placement>\nwhat did you see?\nASSISTANT:";
+    // default prompt for minicpmv 2.6
+    params.prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\nwhat did you see?\n<image><img_placement></image><|im_end|>\n<|im_start|>assistant\n";
     params.n_predict = 64;
     params.n_batch = 2048;
     params.n_ubatch = 1024;
 
@@ -457,12 +457,14 @@ class MODEL_TENSOR(IntEnum):
     V_PRE_NORM           = auto()
     V_POST_NORM          = auto()
     V_RESMPL_POS_EMBD_K  = auto() # minicpmv
-    V_RESMPL_ATTN_IN     = auto() # minicpmv
+    V_RESMPL_ATTN_Q      = auto() # minicpmv
+    V_RESMPL_ATTN_K      = auto() # minicpmv
+    V_RESMPL_ATTN_V      = auto() # minicpmv
     V_RESMPL_ATTN_OUT    = auto() # minicpmv
-    V_RESMPL_KV_PROJ     = auto() # minicpmv
-    V_RESMPL_NORM_POST   = auto() # minicpmv
-    V_RESMPL_NORM_KV     = auto() # minicpmv
-    V_RESMPL_NORM_Q      = auto() # minicpmv
+    V_RESMPL_KV          = auto() # minicpmv
+    V_RESMPL_KV_NORM     = auto() # minicpmv
+    V_RESMPL_POST_NORM   = auto() # minicpmv
+    V_RESMPL_Q_NORM      = auto() # minicpmv
     V_RESMPL_PROJ        = auto() # minicpmv
     V_RESMPL_QUERY       = auto() # minicpmv
 
@@ -674,12 +676,14 @@ class MODEL_TENSOR(IntEnum):
     MODEL_TENSOR.V_PRE_NORM:                "v.pre_norm",
     MODEL_TENSOR.V_POST_NORM:               "v.post_norm",
     MODEL_TENSOR.V_RESMPL_POS_EMBD_K:       "v.resmpl.pos_embd_k",
-    MODEL_TENSOR.V_RESMPL_ATTN_IN:          "v.resmpl.attn_in",
+    MODEL_TENSOR.V_RESMPL_ATTN_Q:           "v.resmpl.attn_q",
+    MODEL_TENSOR.V_RESMPL_ATTN_K:           "v.resmpl.attn_k",
+    MODEL_TENSOR.V_RESMPL_ATTN_V:           "v.resmpl.attn_v",
     MODEL_TENSOR.V_RESMPL_ATTN_OUT:         "v.resmpl.attn_out",
-    MODEL_TENSOR.V_RESMPL_KV_PROJ:          "v.resmpl.kv_proj",
-    MODEL_TENSOR.V_RESMPL_NORM_POST:        "v.resmpl.norm_post",
-    MODEL_TENSOR.V_RESMPL_NORM_KV:          "v.resmpl.norm_kv",
-    MODEL_TENSOR.V_RESMPL_NORM_Q:           "v.resmpl.norm_q",
+    MODEL_TENSOR.V_RESMPL_KV:               "v.resmpl.kv",
+    MODEL_TENSOR.V_RESMPL_KV_NORM:          "v.resmpl.kv_norm",
+    MODEL_TENSOR.V_RESMPL_POST_NORM:        "v.resmpl.post_norm",
+    MODEL_TENSOR.V_RESMPL_Q_NORM:           "v.resmpl.q_norm",
     MODEL_TENSOR.V_RESMPL_PROJ:             "v.resmpl.proj",
     MODEL_TENSOR.V_RESMPL_QUERY:            "v.resmpl.query",
 }
@@ -1667,12 +1671,15 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.V_ENC_OUTPUT_NORM,
         MODEL_TENSOR.V_ENC_FFN_UP,
         MODEL_TENSOR.V_ENC_FFN_DOWN,
-        MODEL_TENSOR.V_RESMPL_ATTN_IN,
+        MODEL_TENSOR.V_RESMPL_POS_EMBD_K,
+        MODEL_TENSOR.V_RESMPL_ATTN_Q,
+        MODEL_TENSOR.V_RESMPL_ATTN_K,
+        MODEL_TENSOR.V_RESMPL_ATTN_V,
         MODEL_TENSOR.V_RESMPL_ATTN_OUT,
-        MODEL_TENSOR.V_RESMPL_KV_PROJ,
-        MODEL_TENSOR.V_RESMPL_NORM_POST,
-        MODEL_TENSOR.V_RESMPL_NORM_KV,
-        MODEL_TENSOR.V_RESMPL_NORM_Q,
+        MODEL_TENSOR.V_RESMPL_KV,
+        MODEL_TENSOR.V_RESMPL_KV_NORM,
+        MODEL_TENSOR.V_RESMPL_POST_NORM,
+        MODEL_TENSOR.V_RESMPL_Q_NORM,
         MODEL_TENSOR.V_RESMPL_PROJ,
         MODEL_TENSOR.V_RESMPL_QUERY,
     ],
 
@@ -868,27 +868,35 @@ class TensorNameMap:
             "resampler.pos_embed_k",
         ),
 
-        MODEL_TENSOR.V_RESMPL_ATTN_IN: (
-            "resampler.attn.in_proj",
+        MODEL_TENSOR.V_RESMPL_ATTN_Q: (
+            "resampler.attn.in_proj_q", # tensor generated from resampler.attn.in_proj
+        ),
+
+        MODEL_TENSOR.V_RESMPL_ATTN_K: (
+            "resampler.attn.in_proj_k", # tensor generated from resampler.attn.in_proj
+        ),
+
+        MODEL_TENSOR.V_RESMPL_ATTN_V: (
+            "resampler.attn.in_proj_v", # tensor generated from resampler.attn.in_proj
         ),
 
         MODEL_TENSOR.V_RESMPL_ATTN_OUT: (
             "resampler.attn.out_proj",
         ),
 
-        MODEL_TENSOR.V_RESMPL_KV_PROJ: (
+        MODEL_TENSOR.V_RESMPL_KV: (
             "resampler.kv_proj",
         ),
 
-        MODEL_TENSOR.V_RESMPL_NORM_POST: (
+        MODEL_TENSOR.V_RESMPL_POST_NORM: (
             "resampler.ln_post",
         ),
 
-        MODEL_TENSOR.V_RESMPL_NORM_KV: (
+        MODEL_TENSOR.V_RESMPL_KV_NORM: (
             "resampler.ln_kv",
         ),
 
-        MODEL_TENSOR.V_RESMPL_NORM_Q: (
+        MODEL_TENSOR.V_RESMPL_Q_NORM: (
             "resampler.ln_q",
         ),
 
 
@@ -1372,12 +1372,14 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_V_ENC_FFN_UP,              "v.enc.blk.%d.ffn_up"         },
             { LLM_TENSOR_V_ENC_FFN_DOWN,            "v.enc.blk.%d.ffn_down"       },
             { LLM_TENSOR_V_RESMPL_POS_EMBD_K,       "v.resmpl.pos_embd_k"         },
-            { LLM_TENSOR_V_RESMPL_ATTN_IN,          "v.resmpl.attn_in"            },
+            { LLM_TENSOR_V_RESMPL_ATTN_Q,           "v.resmpl.attn_q"             },
+            { LLM_TENSOR_V_RESMPL_ATTN_K,           "v.resmpl.attn_k"             },
+            { LLM_TENSOR_V_RESMPL_ATTN_V,           "v.resmpl.attn_v"             },
             { LLM_TENSOR_V_RESMPL_ATTN_OUT,         "v.resmpl.attn_out"           },
-            { LLM_TENSOR_V_RESMPL_KV_PROJ,          "v.resmpl.kv_proj"            },
-            { LLM_TENSOR_V_RESMPL_NORM_POST,        "v.resmpl.norm_post"          },
-            { LLM_TENSOR_V_RESMPL_NORM_KV,          "v.resmpl.norm_kv"            },
-            { LLM_TENSOR_V_RESMPL_NORM_Q,           "v.resmpl.norm_q"             },
+            { LLM_TENSOR_V_RESMPL_KV,               "v.resmpl.kv"                 },
+            { LLM_TENSOR_V_RESMPL_KV_NORM,          "v.resmpl.kv_norm"            },
+            { LLM_TENSOR_V_RESMPL_POST_NORM,        "v.resmpl.post_norm"          },
+            { LLM_TENSOR_V_RESMPL_Q_NORM,           "v.resmpl.q_norm"             },
             { LLM_TENSOR_V_RESMPL_PROJ,             "v.resmpl.proj"               },
             { LLM_TENSOR_V_RESMPL_QUERY,            "v.resmpl.query"              },
         }
@@ -1531,6 +1533,24 @@ static const std::map<llm_tensor, llm_tensor_info> LLM_TENSOR_INFOS = {
     {LLM_TENSOR_CONVNEXT_PW1,               {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
     {LLM_TENSOR_CONVNEXT_PW2,               {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
     {LLM_TENSOR_CONVNEXT_GAMMA,             {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    // vision
+    {LLM_TENSOR_V_MMPROJ,                  {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_V_MMPROJ_MLP,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_V_MMPROJ_PEG,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_V_ENC_EMBD_CLS,            {LLM_TENSOR_LAYER_INPUT,     GGML_OP_ADD}},
+    {LLM_TENSOR_V_ENC_EMBD_PATCH,          {LLM_TENSOR_LAYER_INPUT,     GGML_OP_ADD}},
+    {LLM_TENSOR_V_ENC_EMBD_POS,            {LLM_TENSOR_LAYER_INPUT,     GGML_OP_ADD}},
+    {LLM_TENSOR_V_ENC_ATTN_Q,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_V_ENC_ATTN_K,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_V_ENC_ATTN_V,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_V_ENC_INPUT_NORM,          {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_V_ENC_OUTPUT,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_V_ENC_OUTPUT_NORM,         {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_V_ENC_FFN_UP,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_V_ENC_FFN_DOWN,            {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT}},
+    {LLM_TENSOR_V_PRE_NORM,                {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_V_POST_NORM,               {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    // TODO: add minicpmv resampler tensors
 };
 
 LLM_KV::LLM_KV(llm_arch arch, const char * suffix) : arch(arch), suffix(suffix) {}
 
@@ -371,12 +371,14 @@ enum llm_tensor {
     LLM_TENSOR_V_POST_NORM,
     // vision - minicpmv
     LLM_TENSOR_V_RESMPL_POS_EMBD_K,
-    LLM_TENSOR_V_RESMPL_ATTN_IN,
+    LLM_TENSOR_V_RESMPL_ATTN_Q,
+    LLM_TENSOR_V_RESMPL_ATTN_K,
+    LLM_TENSOR_V_RESMPL_ATTN_V,
     LLM_TENSOR_V_RESMPL_ATTN_OUT,
-    LLM_TENSOR_V_RESMPL_KV_PROJ,
-    LLM_TENSOR_V_RESMPL_NORM_POST,
-    LLM_TENSOR_V_RESMPL_NORM_KV,
-    LLM_TENSOR_V_RESMPL_NORM_Q,
+    LLM_TENSOR_V_RESMPL_KV,
+    LLM_TENSOR_V_RESMPL_KV_NORM,
+    LLM_TENSOR_V_RESMPL_POST_NORM,
+    LLM_TENSOR_V_RESMPL_Q_NORM,
     LLM_TENSOR_V_RESMPL_PROJ,
     LLM_TENSOR_V_RESMPL_QUERY,
 };