MaggotHATE
diff --git a/‎Makefile‎
Lines changed: 8 additions & 40 deletions b/‎Makefile‎
Lines changed: 8 additions & 40 deletions
diff --git a/‎base/ggml-vulkan-shaders.cpp‎
Lines changed: 144758 additions & 0 deletions b/‎base/ggml-vulkan-shaders.cpp‎
Lines changed: 144758 additions & 0 deletions
diff --git a/‎base/ggml-vulkan-shaders.hpp‎
Lines changed: 384 additions & 144742 deletions b/‎base/ggml-vulkan-shaders.hpp‎
Lines changed: 384 additions & 144742 deletions
diff --git a/‎base/llama.cpp‎
Lines changed: 45 additions & 14 deletions b/‎base/llama.cpp‎
Lines changed: 45 additions & 14 deletions
diff --git a/‎base/llama.h‎
Lines changed: 1 addition & 0 deletions b/‎base/llama.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎base/sampling.cpp‎
Lines changed: 4 additions & 2 deletions b/‎base/sampling.cpp‎
Lines changed: 4 additions & 2 deletions
@@ -430,29 +430,9 @@ $(TMP)old_cl_grammar-parser.o: GGML/grammar-parser.cpp GGML/grammar-parser.h
 
 #VULKAN
 
-PYTHON_CMD = python
-GLSLC_CMD  = glslc
-_llama_vk_genshaders_cmd = $(PYTHON_CMD) ggml/ggml_vk_generate_shaders.py
-_llama_vk_header = ggml/src/ggml-vulkan-shaders.hpp
-_llama_vk_source = ggml/src/ggml-vulkan-shaders.cpp
-_llama_vk_input_dir = ggml/src/vulkan-shaders
-_llama_vk_shader_deps = $(echo $(_llama_vk_input_dir)/*.comp)
-
-ggml/src/ggml-vulkan.o: ggml/src/ggml-vulkan.cpp ggml/include/ggml-vulkan.h $(_llama_vk_header) $(_llama_vk_source)
-	$(CXX) $(CXXFLAGS) -c $< -o $@
-
-$(_llama_vk_header): $(_llama_vk_source)
-
-$(_llama_vk_source): $(_llama_vk_shader_deps)
-	$(_llama_vk_genshaders_cmd) \
-		--glslc      $(GLSLC_CMD) \
-		--input-dir  $(_llama_vk_input_dir) \
-		--target-hpp $(_llama_vk_header) \
-		--target-cpp $(_llama_vk_source)
-
 #CXXFLAGS_VK += -I$(VULKAN_DIR)/include
 
-OBJS_VK = $(TMP)vk_ggml.o $(TMP)vk_ggml-alloc.o $(TMP)vk_ggml-backend.o $(TMP)vk_llama.o $(TMP)vk_llama-addon.o $(TMP)vk_sampling.o $(TMP)vk_common.o $(TMP)vk_ggml-quants.o $(TMP)vk_grammar-parser.o $(TMP)vk_ggml-vulkan.o $(TMP)vk_unicode.o $(TMP)vk_unicode-data.o $(TMP)vk_sgemm.o
+OBJS_VK = $(TMP)vk_ggml.o $(TMP)vk_ggml-alloc.o $(TMP)vk_ggml-backend.o $(TMP)vk_llama.o $(TMP)vk_llama-addon.o $(TMP)vk_sampling.o $(TMP)vk_common.o $(TMP)vk_ggml-quants.o $(TMP)vk_grammar-parser.o $(TMP)vk_ggml-vulkan.o $(TMP)vk_ggml-vulkan-shaders.o $(TMP)vk_unicode.o $(TMP)vk_unicode-data.o $(TMP)vk_sgemm.o
 
 $(TMP)vk_ggml.o: base/ggml.c base/ggml.h
 	$(CC)  $(CFLAGS_VK)   -c $< -o $@
@@ -482,7 +462,7 @@ $(TMP)vk_common.o: base/common.cpp $(VK_COMMON_H_DEPS)
 	$(CXX) $(CXXFLAGS_VK) -c $< -o $@
 
 $(TMP)vk_llama-addon.o: base/llama-addon.cpp $(COMMON_H_DEPS)
-	$(CXX) $(CXXFLAGS) -c $< -o $@
+	$(CXX) $(CXXFLAGS_VK) -c $< -o $@
 
 $(TMP)vk_sampling.o: base/sampling.cpp $(VK_COMMON_H_DEPS)
 	$(CXX) $(CXXFLAGS_VK) -c $< -o $@
@@ -494,26 +474,14 @@ $(TMP)vk_sgemm.o: base/sgemm.cpp base/sgemm.h base/ggml.h
 $(TMP)vk_grammar-parser.o: base/grammar-parser.cpp base/grammar-parser.h
 	$(CXX) $(CXXFLAGS_VK) -c $< -o $@
 
-PYTHON_CMD = python
-GLSLC_CMD  = glslc
-_llama_vk_genshaders_cmd = $(PYTHON_CMD) base/ggml_vk_generate_shaders.py
-_llama_vk_header = base/ggml-vulkan-shaders.hpp
-_llama_vk_source = base/ggml-vulkan-shaders.cpp
-_llama_vk_input_dir = base/vulkan-shaders
-_llama_vk_shader_deps = $(echo $(_llama_vk_input_dir)/*.comp)
-
+vulkan-shaders-gen: base/vulkan-shaders-gen.cpp
+	$(CXX) $(CXXFLAGS_VK) -o $@ $(LDFLAGS_VK) base/vulkan-shaders-gen.cpp
 
-$(TMP)vk_ggml-vulkan.o: base/ggml-vulkan.cpp base/ggml-vulkan.h
+$(TMP)vk_ggml-vulkan-shaders.o: base/ggml-vulkan-shaders.cpp base/ggml-vulkan-shaders.hpp
+	$(CXX) $(CXXFLAGS_VK) $(LDFLAGS_VK) -c $< -o $@
+	
+$(TMP)vk_ggml-vulkan.o: base/ggml-vulkan.cpp base/ggml-vulkan.h base/ggml-vulkan-shaders.hpp base/ggml-vulkan-shaders.cpp
 	$(CXX) $(CXXFLAGS_VK) $(LDFLAGS_VK) -c $< -o $@
-
-$(_llama_vk_header): $(_llama_vk_source)
-
-$(_llama_vk_source): $(_llama_vk_shader_deps)
-	$(_llama_vk_genshaders_cmd) \
-		--glslc      $(GLSLC_CMD) \
-		--input-dir  $(_llama_vk_input_dir) \
-		--target-hpp $(_llama_vk_header) \
-		--target-cpp $(_llama_vk_source)
 
 
 #####################################
 
@@ -59,6 +59,12 @@
     #include <io.h>
 #endif
 
+#if __cplusplus >= 202000L
+    #define LU8(x) (const char*)(u8##x)
+#else
+    #define LU8(x) u8##x
+#endif
+
 #include <algorithm>
 #include <array>
 #include <cassert>
@@ -4437,16 +4443,6 @@ static void llm_load_hparams(
 
     // non-transformer models do not have attention heads
     if (hparams.n_head() > 0) {
-        // sanity check for n_rot (optional)
-        hparams.n_rot = hparams.n_embd / hparams.n_head();
-
-        ml.get_key(LLM_KV_ROPE_DIMENSION_COUNT, hparams.n_rot, false);
-
-        if (model.arch == LLM_ARCH_LLAMA || model.arch == LLM_ARCH_FALCON) {
-            if (hparams.n_rot != hparams.n_embd / hparams.n_head()) {
-                throw std::runtime_error(format("invalid n_rot: %u, expected %u", hparams.n_rot, hparams.n_embd / hparams.n_head()));
-            }
-        }
         // gpt-neox n_rot = rotary_pct * (n_embd / n_head)
         // gpt-j n_rot = rotary_dim
 
@@ -4455,6 +4451,17 @@ static void llm_load_hparams(
 
         hparams.n_embd_head_v = hparams.n_embd / hparams.n_head();
         ml.get_key(LLM_KV_ATTENTION_VALUE_LENGTH, hparams.n_embd_head_v, false);
+
+        // sanity check for n_rot (optional)
+        hparams.n_rot = hparams.n_embd_head_k;
+
+        ml.get_key(LLM_KV_ROPE_DIMENSION_COUNT, hparams.n_rot, false);
+
+        if (model.arch == LLM_ARCH_LLAMA || model.arch == LLM_ARCH_FALCON) {
+            if (hparams.n_rot != hparams.n_embd_head_k) {
+                throw std::runtime_error(format("invalid n_rot: %u, expected %u", hparams.n_rot, hparams.n_embd_head_k));
+            }
+        }
     } else {
         hparams.n_rot = 0;
         hparams.n_embd_head_k = 0;
@@ -5232,6 +5239,9 @@ static void llm_load_vocab(
             } else if (
                 tokenizer_pre == "jais") {
                 vocab.type_pre = LLAMA_VOCAB_PRE_TYPE_JAIS;
+            } else if (
+                tokenizer_pre == "tekken") {// K-KINGUUU?!
+                vocab.type_pre = LLAMA_VOCAB_PRE_TYPE_TEKKEN;
             } else {
                 throw std::runtime_error(format("unknown pre-tokenizer type: '%s'", tokenizer_pre.c_str()));
             }
@@ -5782,6 +5792,13 @@ static bool llm_load_tensors(
         const int64_t n_ff         = hparams.n_ff();
         const int64_t n_expert     = hparams.n_expert;
 
+        const int64_t n_head        = hparams.n_head();
+        const int64_t n_head_kv     = hparams.n_head_kv();
+        const int64_t n_embd_head_k = hparams.n_embd_head_k;
+        const int64_t n_embd_head_v = hparams.n_embd_head_v;
+        const int64_t n_expert_used = hparams.n_expert_used;
+        const int64_t n_ctx_train   = hparams.n_ctx_train;
+
         if (n_expert > 0 && hparams.n_expert_used == 0) {
             throw std::runtime_error("model has expert layers but no expert layers are used");
         }
@@ -5820,10 +5837,15 @@ static bool llm_load_tensors(
 
                         layer.attn_norm = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_ATTN_NORM, "weight", i), {n_embd});
 
-                        layer.wq = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd});
-                        layer.wk = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_gqa});
-                        layer.wv = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_gqa});
-                        layer.wo = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd});
+                        layer.wq = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd_head_k * n_head});
+                        layer.wk = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_k_gqa});
+                        layer.wv = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_v_gqa});
+                        layer.wo = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd_head_k * n_head, n_embd});
+                        // new vs old
+                        // layer.wq = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_Q,   "weight", i), {n_embd, n_embd});
+                        // layer.wk = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_K,   "weight", i), {n_embd, n_embd_gqa});
+                        // layer.wv = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_V,   "weight", i), {n_embd, n_embd_gqa});
+                        // layer.wo = ml.create_tensor(ctx_split, tn(LLM_TENSOR_ATTN_OUT, "weight", i), {n_embd, n_embd});
 
                         // optional bias tensors
                         layer.bq = ml.create_tensor(ctx_layer, tn(LLM_TENSOR_ATTN_Q,   "bias", i), {n_embd},     llama_model_loader::TENSOR_NOT_REQUIRED);
@@ -12922,6 +12944,8 @@ struct llm_build_context {
                     LLM_NORM_RMS, cb, -1);
             cb(cur, "result_norm", -1);
         } else {
+            GGML_ASSERT(n_outputs_enc > 0 && "call llama_encode() first");
+
             struct ggml_tensor * embd_enc       = llm_build_inp_embd_enc();
             struct ggml_tensor * pos_bucket_dec = llm_build_pos_bucket(true);
 
@@ -15133,6 +15157,13 @@ struct llm_tokenizer_bpe {
                     "'s|'t|'re|'ve|'m|'ll|'d| ?\\p{L}+| ?\\p{N}+| ?[^\\s\\p{L}\\p{N}]+|\\s+(?!\\S)",
                 };
                 break;
+            case LLAMA_VOCAB_PRE_TYPE_TEKKEN:
+                    // original regex from tokenizer.json
+                    // "[^\\r\\n\\p{L}\\p{N}]?[\\p{Lu}\\p{Lt}\\p{Lm}\\p{Lo}\\p{M}]*[\\p{Ll}\\p{Lm}\\p{Lo}\\p{M}]+|[^\\r\\n\\p{L}\\p{N}]?[\\p{Lu}\\p{Lt}\\p{Lm}\\p{Lo}\\p{M}]+[\\p{Ll}\\p{Lm}\\p{Lo}\\p{M}]*|\\p{N}| ?[^\\s\\p{L}\\p{N}]+[\\r\\n/]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+"
+                regex_exprs = {
+                    "[^\\r\\n\\p{L}\\p{N}]?((?=[\\p{L}])([^a-z]))*((?=[\\p{L}])([^A-Z]))+|[^\\r\\n\\p{L}\\p{N}]?((?=[\\p{L}])([^a-z]))+((?=[\\p{L}])([^A-Z]))*|\\p{N}| ?[^\\s\\p{L}\\p{N}]+[\\r\\n/]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+",
+                };
+                break;
             case LLAMA_VOCAB_PRE_TYPE_STABLELM2:
             case LLAMA_VOCAB_PRE_TYPE_QWEN2:
                 regex_exprs = {
 
@@ -92,6 +92,7 @@ extern "C" {
         LLAMA_VOCAB_PRE_TYPE_CHATGLM4       = 17,
         LLAMA_VOCAB_PRE_TYPE_VIKING         = 18,
         LLAMA_VOCAB_PRE_TYPE_JAIS           = 19,
+        LLAMA_VOCAB_PRE_TYPE_TEKKEN         = 20,
     };
 
     // note: these values should be synchronized with ggml_rope
 
@@ -216,10 +216,12 @@ llama_token llama_sampling_sample(
         llama_sample_apply_guidance(ctx_main, logits, logits_guidance, params.cfg_scale);
     }
 
-    cur.clear();
+    //cur.clear();
+    cur.resize(n_vocab);
 
     for (llama_token token_id = 0; token_id < n_vocab; token_id++) {
-        cur.emplace_back(llama_token_data{token_id, logits[token_id], 0.0f});
+        //cur.emplace_back(llama_token_data{token_id, logits[token_id], 0.0f});
+        cur[token_id] = llama_token_data{token_id, logits[token_id], 0.0f};
     }
 
     llama_token_data_array cur_p = { cur.data(), cur.size(), false };
Original file line number	Diff line number	Diff line change
`@@ -216,10 +216,12 @@ llama_token llama_sampling_sample(`
`216`	`216`	`llama_sample_apply_guidance(ctx_main, logits, logits_guidance, params.cfg_scale);`
`217`	`217`	`}`
`218`	`218`
`219`		`- cur.clear();`
	`219`	`+ //cur.clear();`
	`220`	`+ cur.resize(n_vocab);`
`220`	`221`
`221`	`222`	`for (llama_token token_id = 0; token_id < n_vocab; token_id++) {`
`222`		`- cur.emplace_back(llama_token_data{token_id, logits[token_id], 0.0f});`
	`223`	`+ //cur.emplace_back(llama_token_data{token_id, logits[token_id], 0.0f});`
	`224`	`+ cur[token_id] = llama_token_data{token_id, logits[token_id], 0.0f};`
`223`	`225`	`}`
`224`	`226`
`225`	`227`	`llama_token_data_array cur_p = { cur.data(), cur.size(), false };`