Nexesenex
diff --git a/‎convert_hf_to_gguf.py‎
Lines changed: 76 additions & 3 deletions b/‎convert_hf_to_gguf.py‎
Lines changed: 76 additions & 3 deletions
diff --git a/‎convert_hf_to_gguf_update.py‎
Lines changed: 1 addition & 0 deletions b/‎convert_hf_to_gguf_update.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎gguf-py/gguf/constants.py‎
Lines changed: 19 additions & 0 deletions b/‎gguf-py/gguf/constants.py‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎gpttype_adapter.cpp‎
Lines changed: 9 additions & 7 deletions b/‎gpttype_adapter.cpp‎
Lines changed: 9 additions & 7 deletions
diff --git a/‎kcpp_adapters/AutoGuess.json‎
Lines changed: 34 additions & 30 deletions b/‎kcpp_adapters/AutoGuess.json‎
Lines changed: 34 additions & 30 deletions
@@ -1173,6 +1173,9 @@ def get_vocab_base_pre(self, tokenizer) -> str:
         if chkhsh == "169bf0296a13c4d9b7672313f749eb36501d931022de052aad6e36f2bf34dd51":
             # ref: https://huggingface.co/LiquidAI/LFM2-Tokenizer
             res = "lfm2"
+        if chkhsh == "2085e1638f6c377a0aa4ead21b27bb4cb941bf800df86ed391011769c1758dfb":
+            # ref: https://huggingface.co/LGAI-EXAONE/EXAONE-4.0-32B
+            res = "exaone4"
 
         if res is None:
             logger.warning("\n")
@@ -3240,11 +3243,12 @@ def set_gguf_parameters(self):
         self.gguf_writer.add_expert_used_count(self.hparams["moe_k"])
         self.gguf_writer.add_interleave_moe_layer_step(self.hparams["moe_layer_interval"])
         self.gguf_writer.add_leading_dense_block_count(self.hparams["moe_layer_start_index"])
-        self.gguf_writer.add_rope_freq_base(self.hparams["rope_theta"])
         if (moe_intermediate_size := self.hparams.get("moe_intermediate_size")) is not None:
             self.gguf_writer.add_expert_feed_forward_length(moe_intermediate_size)
-        if (shared_expert_intermediate_size := self.hparams.get('intermediate_size')) is not None and (num_key_value_heads := self.hparams.get('num_key_value_heads')) is not None:
-            self.gguf_writer.add_expert_shared_feed_forward_length(shared_expert_intermediate_size // num_key_value_heads)
+        if (shared_expert_count := self.hparams.get('moe_num_shared_experts')) is not None:
+            self.gguf_writer.add_expert_shared_count(shared_expert_count)
+            if shared_expert_count > 0 and (shared_expert_intermediate_size := self.hparams.get('intermediate_size')) is not None and (num_key_value_heads := self.hparams.get('num_key_value_heads')) is not None:
+                self.gguf_writer.add_expert_shared_feed_forward_length(shared_expert_intermediate_size // num_key_value_heads)
 
     def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
         # Modify correction bias name as in DeepseekV2
@@ -7109,6 +7113,75 @@ def generate_extra_tensors(self) -> Iterable[tuple[str, Tensor]]:
                 yield (self.format_tensor_name(gguf.MODEL_TENSOR.ROPE_FREQS), torch.tensor(rope_factors, dtype=torch.float32))
 
 
+@ModelBase.register("Exaone4ForCausalLM")
+class Exaone4Model(TextModel):
+    model_arch = gguf.MODEL_ARCH.EXAONE4
+
+    def set_vocab(self):
+        tokens, toktypes, tokpre = self.get_vocab_base()
+        self.gguf_writer.add_tokenizer_model("gpt2")
+        self.gguf_writer.add_tokenizer_pre(tokpre)
+        self.gguf_writer.add_token_list(tokens)
+        self.gguf_writer.add_token_types(toktypes)
+
+        special_vocab = gguf.SpecialVocab(self.dir_model, load_merges=True)
+        special_vocab.add_to_gguf(self.gguf_writer)
+
+    def set_gguf_parameters(self):
+        super().set_gguf_parameters()
+        hparams = self.hparams
+        self.gguf_writer.add_vocab_size(hparams["vocab_size"])
+
+        if hparams.get("sliding_window") is not None:
+            self.gguf_writer.add_sliding_window(hparams["sliding_window"])
+            if "layer_types" in hparams:
+                self.gguf_writer.add_sliding_window_pattern([t == "sliding_attention" for t in hparams["layer_types"]])
+            elif "sliding_window_pattern" in hparams:
+                sliding_window_pattern = []
+                if isinstance(hparams["sliding_window_pattern"], str):  # e.g. LLLG
+                    for i in range(hparams["num_hidden_layers"]):
+                        sliding_window_pattern.append(hparams["sliding_window_pattern"][i % len(hparams["sliding_window_pattern"])] == "L")
+                if isinstance(hparams["sliding_window_pattern"], int):  # e.g. 4
+                    for i in range(hparams["num_hidden_layers"]):
+                        sliding_window_pattern.append((i + 1) % hparams["sliding_window_pattern"] != 0)
+                if len(sliding_window_pattern) == hparams["num_hidden_layers"]:
+                    self.gguf_writer.add_sliding_window_pattern(sliding_window_pattern)
+
+        rope_scaling = self.hparams.get("rope_scaling") or {}
+        if rope_scaling.get("rope_type", rope_scaling.get("type")) == "linear" and "factor" in rope_scaling:
+            self.gguf_writer.add_rope_scaling_type(gguf.RopeScalingType.LINEAR)
+            self.gguf_writer.add_rope_scaling_factor(rope_scaling["factor"])
+
+    def generate_extra_tensors(self) -> Iterable[tuple[str, Tensor]]:
+        if rope_scaling := self.find_hparam(["rope_scaling"], optional=True):
+            if rope_scaling.get("rope_type", '').lower() == "llama3":
+                base = self.hparams.get("rope_theta", 10_000.0)
+                if (dim := self.hparams.get("head_dim")) is None:
+                    dim = self.hparams["hidden_size"] // self.hparams["num_attention_heads"]
+                freqs = 1.0 / (base ** (torch.arange(0, dim, 2, dtype=torch.float32) / dim))
+
+                factor = rope_scaling.get("factor", 16.0)
+                low_freq_factor = rope_scaling.get("low_freq_factor", 1.0)
+                high_freq_factor = rope_scaling.get("high_freq_factor", 4.0)
+                old_context_len = self.hparams.get("original_max_position_embeddings", 8192)
+
+                low_freq_wavelen = old_context_len / low_freq_factor
+                high_freq_wavelen = old_context_len / high_freq_factor
+
+                rope_factors = []
+                for freq in freqs:
+                    wavelen = 2 * math.pi / freq
+                    if wavelen < high_freq_wavelen:
+                        rope_factors.append(1)
+                    elif wavelen > low_freq_wavelen:
+                        rope_factors.append(factor)
+                    else:
+                        smooth = (old_context_len / wavelen - low_freq_factor) / (high_freq_factor - low_freq_factor)
+                        rope_factors.append(1 / ((1 - smooth) / factor + smooth))
+
+                yield (self.format_tensor_name(gguf.MODEL_TENSOR.ROPE_FREQS), torch.tensor(rope_factors, dtype=torch.float32))
+
+
 @ModelBase.register("GraniteForCausalLM")
 class GraniteModel(LlamaModel):
     """Conversion for IBM's GraniteForCausalLM"""
 
@@ -129,6 +129,7 @@ class TOKENIZER_TYPE(IntEnum):
     {"name": "a.x-4.0",          "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/skt/A.X-4.0", },
     {"name": "midm-2.0",         "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/K-intelligence/Midm-2.0-Base-Instruct", },
     {"name": "lfm2",             "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/LiquidAI/LFM2-Tokenizer"},
+    {"name": "exaone4",          "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/LGAI-EXAONE/EXAONE-4.0-32B", },
 ]
 
 # some models are known to be broken upstream, so we will skip them as exceptions
 
@@ -356,6 +356,7 @@ class MODEL_ARCH(IntEnum):
     JAIS             = auto()
     NEMOTRON         = auto()
     EXAONE           = auto()
+    EXAONE4          = auto()
     GRANITE          = auto()
     GRANITE_MOE      = auto()
     GRANITE_HYBRID   = auto()
@@ -674,6 +675,7 @@ class MODEL_TENSOR(IntEnum):
     MODEL_ARCH.JAIS:             "jais",
     MODEL_ARCH.NEMOTRON:         "nemotron",
     MODEL_ARCH.EXAONE:           "exaone",
+    MODEL_ARCH.EXAONE4:          "exaone4",
     MODEL_ARCH.GRANITE:          "granite",
     MODEL_ARCH.GRANITE_MOE:      "granitemoe",
     MODEL_ARCH.GRANITE_HYBRID:   "granitehybrid",
@@ -2222,6 +2224,23 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.FFN_DOWN,
         MODEL_TENSOR.FFN_UP,
     ],
+    MODEL_ARCH.EXAONE4: [
+        MODEL_TENSOR.TOKEN_EMBD,
+        MODEL_TENSOR.OUTPUT_NORM,
+        MODEL_TENSOR.OUTPUT,
+        MODEL_TENSOR.ROPE_FREQS,
+        MODEL_TENSOR.ATTN_Q,
+        MODEL_TENSOR.ATTN_Q_NORM,
+        MODEL_TENSOR.ATTN_K,
+        MODEL_TENSOR.ATTN_K_NORM,
+        MODEL_TENSOR.ATTN_V,
+        MODEL_TENSOR.ATTN_OUT,
+        MODEL_TENSOR.ATTN_POST_NORM,
+        MODEL_TENSOR.FFN_GATE,
+        MODEL_TENSOR.FFN_DOWN,
+        MODEL_TENSOR.FFN_UP,
+        MODEL_TENSOR.FFN_POST_NORM,
+    ],
     MODEL_ARCH.GRANITE: [
         MODEL_TENSOR.TOKEN_EMBD,
         MODEL_TENSOR.OUTPUT_NORM,
 
@@ -3311,6 +3311,7 @@ static void PrepareMediaEmbds(const int nctx, const std::vector<int> & media_int
                     }
                     else
                     {
+                        media_composite_image_signature = ""; //force invalidate
                         printf("\nWarning: Vision Image excluded - Context size too low or not enough clip tokens! (needed %d)\nImage will be IGNORED! You probably want to relaunch with a larger context size!\n",cliptokensneeded);
                     }
                     media_objects[i].mediachunks.push_back(chunk);
@@ -3364,6 +3365,7 @@ static void PrepareMediaEmbds(const int nctx, const std::vector<int> & media_int
                 }
                 else
                 {
+                    media_composite_image_signature = ""; //force invalidate
                     printf("\nWarning: Audio Embd excluded - Context size too low or not enough clip tokens! (needed %d)\nAudio will be IGNORED! You probably want to relaunch with a larger context size!\n",cliptokensneeded);
                 }
 
@@ -3570,7 +3572,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
         media_composite_image_signature = new_media_composite;
         if(debugmode==1 && !is_quiet)
         {
-            printf("\nLLAVA images changed, existing cache invalidated");
+            printf("\nAttached media changed, existing multimodal cache invalidated");
         }
         media_data_changed = true;
     }
@@ -3775,7 +3777,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
     {
         if(last_media_mem.size() + kcpp_data->n_predict + 4 > nctx)
         {
-            printf("\nWarning: Too many LLaVA tokens, max context exceeded! They will be ignored!\n");
+            printf("\nWarning: Too many multimodal tokens, max context exceeded! They will be ignored!\n");
         }
         else
         {
@@ -4629,7 +4631,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
                     {
                         PrepareMediaEmbds(nctx, media_intro);
                         media_embds_built = true;
-                        printf("\nSomehow vision embd was not prepared (maybe no fast forward), rebuilding it...\n");
+                        printf("\nSomehow media embeds was not prepared (maybe no fast forward), rebuilding it...\n");
                     }
 
                     //if partial batch, dispatch existing first
@@ -4664,11 +4666,11 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
                                 auto evr = llama_decode(llama_ctx_v4, batch.batch);
                                 if(evr!=0)
                                 {
-                                    printf("\nError when appending llava intro: %d\n",evr);
+                                    printf("\nError when appending media intro: %d\n",evr);
                                 }
                                 else
                                 {
-                                    printf("\rProcessing LLaVa Intro (%d tokens)",introsize);
+                                    printf("\rProcessing Media Intro (%d tokens)",introsize);
                                 }
                                 n_past += introsize;
                                 llavatokensevaled += introsize;
@@ -4703,7 +4705,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
                                 if(!err)
                                 {
                                     media_composite_image_signature = ""; //force invalidate
-                                    fprintf(stderr, "\nFailed to eval llava image at %d!\n",n_past);
+                                    fprintf(stderr, "\nFailed to eval media tokens at %d!\n",n_past);
                                     output.text = nullptr;
                                     output.status = 0;
                                     output.prompt_tokens = output.completion_tokens = 0;
@@ -4733,7 +4735,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)
                         if(llavatokenscounted!=llavatokensevaled)
                         {
                             media_composite_image_signature = ""; //force invalidate
-                            fprintf(stderr, "\nLLAVA image tokens mismatch at %d! (%d vs %d tokens)\n",n_past,llavatokenscounted,llavatokensevaled);
+                            fprintf(stderr, "\nMedia tokens mismatch at %d! (%d vs %d tokens)\n",n_past,llavatokenscounted,llavatokensevaled);
                             output.text = nullptr;
                             output.status = 0;
                             output.prompt_tokens = output.completion_tokens = 0;
 
@@ -24,15 +24,15 @@
         "tools_end": "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n"
     }
 }, {
-    "search": ["<|im_start|>assistant", "<|im_end|>"],
-    "name": "ChatML (Generic).",
+    "search": ["<|im_user|>user<|im_middle|>", "<|im_assistant|>assistant<|im_middle|>", "<|im_end|>"],
+    "name": "ChatML (Kimi).",
     "adapter": {
-        "system_start": "<|im_start|>system\n",
-        "system_end": "<|im_end|>\n",
-        "user_start": "<|im_start|>user\n",
-        "user_end": "<|im_end|>\n",
-        "assistant_start": "<|im_start|>assistant\n",
-        "assistant_end": "<|im_end|>\n"
+        "system_start": "<|im_system|>system<|im_middle|>",
+        "system_end": "<|im_end|>",
+        "user_start": "<|im_user|>user<|im_middle|>",
+        "user_end": "<|im_end|>",
+        "assistant_start": "<|im_assistant|>assistant<|im_middle|>",
+        "assistant_end": "<|im_end|>"
     }
 }, {
     "search": ["System role not supported", "<start_of_turn>"],
@@ -111,17 +111,6 @@
         "assistant_start": "[/INST]",
         "assistant_end": "</s>"
     }
-}, {
-    "search": ["[/INST]"],
-    "name": "Mistral (Generic)",
-    "adapter": {
-        "system_start": "[INST]",
-        "system_end": "[/INST]\n",
-        "user_start": "[INST]",
-        "user_end": "",
-        "assistant_start": "[/INST]\n",
-        "assistant_end": "</s>"
-    }
 }, {
     "search": ["[gMASK]<sop>"],
     "name": "GLM-4",
@@ -188,17 +177,6 @@
         "assistant_start": "<|bom|><|assistant|>",
         "assistant_end": "<|eom|>"
     }
-}, {
-    "search": ["<|im_start|>assistant<|im_middle|>", "<|im_assistant|>assistant<|im_middle|>", "<|im_end|>"],
-    "name": "ChatML (Kimi).",
-    "adapter": {
-        "system_start": "<|im_start|>system<|im_middle|>",
-        "system_end": "<|im_end|>",
-        "user_start": "<|im_start|>user<|im_middle|>",
-        "user_end": "<|im_end|>",
-        "assistant_start": "<|im_start|>assistant<|im_middle|>",
-        "assistant_end": "<|im_end|>"
-    }
 }, {
     "search": ["<|userprompt|>", "<|endofuserprompt|>", "<|response|>", "<|endofresponse|>"],
     "name": "Dots",
@@ -221,5 +199,31 @@
         "assistant_start": "ASSISTANT: ",
         "assistant_end": "</s>\n"
     }
+},
+
+
+
+{
+    "search": ["[/INST]"],
+    "name": "Mistral (Generic)",
+    "adapter": {
+        "system_start": "[INST]",
+        "system_end": "[/INST]\n",
+        "user_start": "[INST]",
+        "user_end": "",
+        "assistant_start": "[/INST]\n",
+        "assistant_end": "</s>"
+    }
+}, {
+    "search": ["<|im_start|>assistant", "<|im_end|>"],
+    "name": "ChatML (Generic).",
+    "adapter": {
+        "system_start": "<|im_start|>system\n",
+        "system_end": "<|im_end|>\n",
+        "user_start": "<|im_start|>user\n",
+        "user_end": "<|im_end|>\n",
+        "assistant_start": "<|im_start|>assistant\n",
+        "assistant_end": "<|im_end|>\n"
+    }
 }
 ]
Original file line number	Diff line number	Diff line change
`@@ -129,6 +129,7 @@ class TOKENIZER_TYPE(IntEnum):`
`129`	`129`	`{"name": "a.x-4.0", "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/skt/A.X-4.0", },`
`130`	`130`	`{"name": "midm-2.0", "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/K-intelligence/Midm-2.0-Base-Instruct", },`
`131`	`131`	`{"name": "lfm2", "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/LiquidAI/LFM2-Tokenizer"},`
	`132`	`+ {"name": "exaone4", "tokt": TOKENIZER_TYPE.BPE, "repo": "https://huggingface.co/LGAI-EXAONE/EXAONE-4.0-32B", },`
`132`	`133`	`]`
`133`	`134`
`134`	`135`	`# some models are known to be broken upstream, so we will skip them as exceptions`
Original file line number	Diff line number	Diff line change
`@@ -3311,6 +3311,7 @@ static void PrepareMediaEmbds(const int nctx, const std::vector<int> & media_int`
`3311`	`3311`	`}`
`3312`	`3312`	`else`
`3313`	`3313`	`{`
	`3314`	`+ media_composite_image_signature = ""; //force invalidate`
`3314`	`3315`	`printf("\nWarning: Vision Image excluded - Context size too low or not enough clip tokens! (needed %d)\nImage will be IGNORED! You probably want to relaunch with a larger context size!\n",cliptokensneeded);`
`3315`	`3316`	`}`
`3316`	`3317`	`media_objects[i].mediachunks.push_back(chunk);`
`@@ -3364,6 +3365,7 @@ static void PrepareMediaEmbds(const int nctx, const std::vector<int> & media_int`
`3364`	`3365`	`}`
`3365`	`3366`	`else`
`3366`	`3367`	`{`
	`3368`	`+ media_composite_image_signature = ""; //force invalidate`
`3367`	`3369`	`printf("\nWarning: Audio Embd excluded - Context size too low or not enough clip tokens! (needed %d)\nAudio will be IGNORED! You probably want to relaunch with a larger context size!\n",cliptokensneeded);`
`3368`	`3370`	`}`
`3369`	`3371`
`@@ -3570,7 +3572,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`3570`	`3572`	`media_composite_image_signature = new_media_composite;`
`3571`	`3573`	`if(debugmode==1 && !is_quiet)`
`3572`	`3574`	`{`
`3573`		`- printf("\nLLAVA images changed, existing cache invalidated");`
	`3575`	`+ printf("\nAttached media changed, existing multimodal cache invalidated");`
`3574`	`3576`	`}`
`3575`	`3577`	`media_data_changed = true;`
`3576`	`3578`	`}`
`@@ -3775,7 +3777,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`3775`	`3777`	`{`
`3776`	`3778`	`if(last_media_mem.size() + kcpp_data->n_predict + 4 > nctx)`
`3777`	`3779`	`{`
`3778`		`- printf("\nWarning: Too many LLaVA tokens, max context exceeded! They will be ignored!\n");`
	`3780`	`+ printf("\nWarning: Too many multimodal tokens, max context exceeded! They will be ignored!\n");`
`3779`	`3781`	`}`
`3780`	`3782`	`else`
`3781`	`3783`	`{`
`@@ -4629,7 +4631,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`4629`	`4631`	`{`
`4630`	`4632`	`PrepareMediaEmbds(nctx, media_intro);`
`4631`	`4633`	`media_embds_built = true;`
`4632`		`- printf("\nSomehow vision embd was not prepared (maybe no fast forward), rebuilding it...\n");`
	`4634`	`+ printf("\nSomehow media embeds was not prepared (maybe no fast forward), rebuilding it...\n");`
`4633`	`4635`	`}`
`4634`	`4636`
`4635`	`4637`	`//if partial batch, dispatch existing first`
`@@ -4664,11 +4666,11 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`4664`	`4666`	`auto evr = llama_decode(llama_ctx_v4, batch.batch);`
`4665`	`4667`	`if(evr!=0)`
`4666`	`4668`	`{`
`4667`		`- printf("\nError when appending llava intro: %d\n",evr);`
	`4669`	`+ printf("\nError when appending media intro: %d\n",evr);`
`4668`	`4670`	`}`
`4669`	`4671`	`else`
`4670`	`4672`	`{`
`4671`		`- printf("\rProcessing LLaVa Intro (%d tokens)",introsize);`
	`4673`	`+ printf("\rProcessing Media Intro (%d tokens)",introsize);`
`4672`	`4674`	`}`
`4673`	`4675`	`n_past += introsize;`
`4674`	`4676`	`llavatokensevaled += introsize;`
`@@ -4703,7 +4705,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`4703`	`4705`	`if(!err)`
`4704`	`4706`	`{`
`4705`	`4707`	`media_composite_image_signature = ""; //force invalidate`
`4706`		`- fprintf(stderr, "\nFailed to eval llava image at %d!\n",n_past);`
	`4708`	`+ fprintf(stderr, "\nFailed to eval media tokens at %d!\n",n_past);`
`4707`	`4709`	`output.text = nullptr;`
`4708`	`4710`	`output.status = 0;`
`4709`	`4711`	`output.prompt_tokens = output.completion_tokens = 0;`
`@@ -4733,7 +4735,7 @@ generation_outputs gpttype_generate(const generation_inputs inputs)`
`4733`	`4735`	`if(llavatokenscounted!=llavatokensevaled)`
`4734`	`4736`	`{`
`4735`	`4737`	`media_composite_image_signature = ""; //force invalidate`
`4736`		`- fprintf(stderr, "\nLLAVA image tokens mismatch at %d! (%d vs %d tokens)\n",n_past,llavatokenscounted,llavatokensevaled);`
	`4738`	`+ fprintf(stderr, "\nMedia tokens mismatch at %d! (%d vs %d tokens)\n",n_past,llavatokenscounted,llavatokensevaled);`
`4737`	`4739`	`output.text = nullptr;`
`4738`	`4740`	`output.status = 0;`
`4739`	`4741`	`output.prompt_tokens = output.completion_tokens = 0;`