xororz
diff --git a/‎app/build.gradle.kts‎
Lines changed: 2 additions & 2 deletions b/‎app/build.gradle.kts‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎app/src/main/assets/cvtbase/clip.mnn.slimmed‎
-243 KB b/‎app/src/main/assets/cvtbase/clip.mnn.slimmed‎
-243 KB
diff --git a/‎app/src/main/assets/cvtbase/clip_skip_1.mnn‎
156 KB b/‎app/src/main/assets/cvtbase/clip_skip_1.mnn‎
156 KB
diff --git a/‎app/src/main/assets/cvtbase/clip_skip_2.mnn‎
144 KB b/‎app/src/main/assets/cvtbase/clip_skip_2.mnn‎
144 KB
diff --git a/‎app/src/main/assets/cvtbase/clip_skip_2.mnn.slimmed‎
-165 KB b/‎app/src/main/assets/cvtbase/clip_skip_2.mnn.slimmed‎
-165 KB
diff --git a/‎app/src/main/cpp/src/PromptProcessor.hpp‎
Lines changed: 279 additions & 0 deletions b/‎app/src/main/cpp/src/PromptProcessor.hpp‎
Lines changed: 279 additions & 0 deletions
diff --git a/‎app/src/main/cpp/src/SafeTensor2MNN.hpp‎
Lines changed: 12 additions & 51 deletions b/‎app/src/main/cpp/src/SafeTensor2MNN.hpp‎
Lines changed: 12 additions & 51 deletions
diff --git a/‎app/src/main/cpp/src/SafeTensorReader.hpp‎
Lines changed: 6 additions & 1 deletion b/‎app/src/main/cpp/src/SafeTensorReader.hpp‎
Lines changed: 6 additions & 1 deletion
@@ -12,8 +12,8 @@ android {
         minSdk = 28
 //        minSdk = 31
         targetSdk = 36
-        versionCode = 46
-        versionName = "1.9.1"
+        versionCode = 47
+        versionName = "2.0.0"
 
         testInstrumentationRunner = "androidx.test.runner.AndroidJUnitRunner"
         vectorDrawables {
 
@@ -0,0 +1,279 @@
+#include <algorithm>
+#include <cctype>
+#include <filesystem>
+#include <fstream>
+#include <map>
+#include <memory>
+#include <sstream>
+#include <stack>
+#include <stdexcept>
+#include <string>
+#include <vector>
+
+#include "SafeTensorReader.hpp"
+
+struct PromptToken {
+  std::string text;
+  float weight;
+  bool is_embedding;
+  std::vector<float> embedding_data;
+};
+
+class PromptProcessor {
+ private:
+  std::map<std::string, std::vector<float>> embeddings_;
+  std::string embeddings_dir_;
+
+  static std::string toLowerCase(const std::string& str) {
+    std::string result = str;
+    std::transform(result.begin(), result.end(), result.begin(),
+                   [](unsigned char c) { return std::tolower(c); });
+    return result;
+  }
+
+  static std::string trim(const std::string& str) {
+    size_t start = str.find_first_not_of(" \t\r\n");
+    if (start == std::string::npos) return "";
+    size_t end = str.find_last_not_of(" \t\r\n");
+    return str.substr(start, end - start + 1);
+  }
+
+  struct TokenNode {
+    std::string text;
+    float weight;
+    std::vector<TokenNode> children;
+    bool is_group;
+
+    TokenNode() : weight(1.0f), is_group(false) {}
+  };
+
+  TokenNode parsePromptTree(const std::string& prompt) {
+    TokenNode root;
+    root.is_group = true;
+    root.weight = 1.0f;
+    std::stack<TokenNode*> node_stack;
+    node_stack.push(&root);
+
+    std::string current_text;
+    size_t i = 0;
+
+    while (i < prompt.length()) {
+      char c = prompt[i];
+
+      if (c == ' ' || c == '\t' || c == '\r' || c == '\n') {
+        if (!current_text.empty() && i + 1 < prompt.length()) {
+          char next = prompt[i + 1];
+          if (next != '(' && next != ')' && next != '[' && next != ']' &&
+              next != ',' && next != ' ' && next != '\t') {
+            current_text += ' ';
+          }
+        }
+        i++;
+        continue;
+      }
+
+      if (c == '(') {
+        if (!current_text.empty()) {
+          TokenNode text_node;
+          text_node.text = trim(current_text);
+          text_node.weight = 1.0f;
+          text_node.is_group = false;
+          if (!text_node.text.empty()) {
+            node_stack.top()->children.push_back(text_node);
+          }
+          current_text.clear();
+        }
+
+        TokenNode* parent = node_stack.top();
+        parent->children.push_back(TokenNode());
+        TokenNode* new_node = &parent->children.back();
+        new_node->is_group = true;
+        new_node->weight = 1.1f;
+        node_stack.push(new_node);
+        i++;
+
+      } else if (c == ')') {
+        if (!current_text.empty()) {
+          size_t colon_pos = current_text.rfind(':');
+          bool has_weight = false;
+
+          if (colon_pos != std::string::npos && node_stack.size() > 1 &&
+              node_stack.top()->is_group) {
+            std::string weight_str = trim(current_text.substr(colon_pos + 1));
+            std::string text_part = trim(current_text.substr(0, colon_pos));
+
+            try {
+              float weight = std::stof(weight_str);
+              TokenNode text_node;
+              text_node.text = text_part;
+              text_node.weight = weight;
+              text_node.is_group = false;
+              if (!text_node.text.empty()) {
+                node_stack.top()->children.push_back(text_node);
+              }
+              has_weight = true;
+            } catch (...) {
+              // failed to parse weight
+            }
+          }
+
+          if (!has_weight) {
+            TokenNode text_node;
+            text_node.text = trim(current_text);
+            text_node.weight = 1.0f;
+            text_node.is_group = false;
+            if (!text_node.text.empty()) {
+              node_stack.top()->children.push_back(text_node);
+            }
+          }
+          current_text.clear();
+        }
+
+        if (node_stack.size() > 1) {
+          node_stack.pop();
+        }
+        i++;
+
+      } else if (c == '[') {
+        if (!current_text.empty()) {
+          TokenNode text_node;
+          text_node.text = trim(current_text);
+          text_node.weight = 1.0f;
+          text_node.is_group = false;
+          if (!text_node.text.empty()) {
+            node_stack.top()->children.push_back(text_node);
+          }
+          current_text.clear();
+        }
+
+        TokenNode* parent = node_stack.top();
+        parent->children.push_back(TokenNode());
+        TokenNode* new_node = &parent->children.back();
+        new_node->is_group = true;
+        new_node->weight = 0.9f;
+        node_stack.push(new_node);
+        i++;
+
+      } else if (c == ']') {
+        if (!current_text.empty()) {
+          TokenNode text_node;
+          text_node.text = trim(current_text);
+          text_node.weight = 1.0f;
+          text_node.is_group = false;
+          if (!text_node.text.empty()) {
+            node_stack.top()->children.push_back(text_node);
+          }
+          current_text.clear();
+        }
+
+        if (node_stack.size() > 1) {
+          node_stack.pop();
+        }
+        i++;
+
+      } else if (c == ',') {
+        if (!current_text.empty()) {
+          TokenNode text_node;
+          text_node.text = trim(current_text);
+          text_node.weight = 1.0f;
+          text_node.is_group = false;
+          if (!text_node.text.empty()) {
+            node_stack.top()->children.push_back(text_node);
+          }
+          current_text.clear();
+        }
+        TokenNode comma_node;
+        comma_node.text = ",";
+        comma_node.weight = 1.0f;
+        comma_node.is_group = false;
+        node_stack.top()->children.push_back(comma_node);
+        i++;
+
+      } else {
+        current_text += c;
+        i++;
+      }
+    }
+
+    if (!current_text.empty()) {
+      TokenNode text_node;
+      text_node.text = trim(current_text);
+      text_node.weight = 1.0f;
+      text_node.is_group = false;
+      if (!text_node.text.empty()) {
+        node_stack.top()->children.push_back(text_node);
+      }
+    }
+
+    return root;
+  }
+
+  void flattenTree(const TokenNode& node, float parent_weight,
+                   std::vector<PromptToken>& tokens) {
+    float current_weight = parent_weight * node.weight;
+
+    if (node.is_group) {
+      for (const auto& child : node.children) {
+        flattenTree(child, current_weight, tokens);
+      }
+    } else {
+      if (!node.text.empty()) {
+        std::string text_lower = toLowerCase(node.text);
+
+        if (embeddings_.find(text_lower) != embeddings_.end()) {
+          tokens.push_back(
+              {node.text, current_weight, true, embeddings_[text_lower]});
+        } else {
+          tokens.push_back({node.text, current_weight, false, {}});
+        }
+      }
+    }
+  }
+
+ public:
+  PromptProcessor() = default;
+
+  void loadEmbeddings(const std::string& embeddings_dir) {
+    embeddings_dir_ = embeddings_dir;
+    embeddings_.clear();
+
+    if (!std::filesystem::exists(embeddings_dir)) {
+      return;
+    }
+
+    for (const auto& entry :
+         std::filesystem::directory_iterator(embeddings_dir)) {
+      if (entry.path().extension() == ".safetensors") {
+        try {
+          SafeTensorReader reader(entry.path().string());
+          std::string name = entry.path().stem().string();
+          std::string name_lower = toLowerCase(name);
+
+          auto tensor_names = reader.get_tensor_names();
+          if (!tensor_names.empty()) {
+            reader.read(tensor_names[0], true);
+            embeddings_[name_lower] = reader.data;
+          }
+        } catch (const std::exception& e) {
+          // could not load this embedding
+        }
+      }
+    }
+  }
+
+  std::vector<PromptToken> process(const std::string& prompt) {
+    std::vector<PromptToken> tokens;
+
+    TokenNode tree = parsePromptTree(prompt);
+
+    flattenTree(tree, 1.0f, tokens);
+
+    return tokens;
+  }
+
+  size_t getEmbeddingCount() const { return embeddings_.size(); }
+
+  bool hasEmbedding(const std::string& name) const {
+    return embeddings_.find(toLowerCase(name)) != embeddings_.end();
+  }
+};
@@ -348,71 +348,32 @@ void generateClipModel(const std::string& dir,
                        const std::vector<std::string>& loras = {},
                        const std::vector<float>& lora_weights = {}) {
   if (clip_skip_2) {
-    generateModel(dir, safetensor_file, "clip", clip_skip_2_structure, loras,
+    generateModel(dir, safetensor_file, "clip_v2", clip_skip_2_structure, loras,
                   lora_weights);
   } else {
-    generateModel(dir, safetensor_file, "clip", clip_structure, loras,
+    generateModel(dir, safetensor_file, "clip_v2", clip_structure, loras,
                   lora_weights);
   }
 
-  int header_size = 246656;
-  int middle_size = 2256;
-  if (clip_skip_2) {
-    header_size = 167888;
-    middle_size = 888;
-  }
-
-  auto filename = dir + "/clip.mnn.slimmed";
-  if (clip_skip_2) {
-    filename = dir + "/clip_skip_2.mnn.slimmed";
-  }
-
-  std::ifstream slimmed_file(filename, std::ios::binary);
-  slimmed_file.seekg(0, std::ios::end);
-  int slimmed_size = slimmed_file.tellg();
-  slimmed_file.seekg(0, std::ios::beg);
-  std::vector<uint8_t> slimmed_data(slimmed_size);
-  slimmed_file.read(reinterpret_cast<char*>(slimmed_data.data()), slimmed_size);
-  slimmed_file.close();
-
   SafeTensorReader reader(dir + "/" + safetensor_file);
 
   reader.read(
       "cond_stage_model.transformer.text_model.embeddings.position_embedding."
       "weight",
-      false);
-  std::vector<uint8_t> pos_emb_bytes(reader.fp16_data.size() *
-                                     sizeof(uint16_t));
-  std::memcpy(pos_emb_bytes.data(), reader.fp16_data.data(),
-              pos_emb_bytes.size());
+      true);
+  std::ofstream pos_emb_file(dir + "/pos_emb.bin", std::ios::binary);
+  pos_emb_file.write(reinterpret_cast<const char*>(reader.data.data()),
+                     reader.data.size() * sizeof(float));
+  pos_emb_file.close();
 
   reader.read(
       "cond_stage_model.transformer.text_model.embeddings.token_embedding."
       "weight",
-      false);
-  std::vector<uint8_t> token_emb_bytes(reader.fp16_data.size() *
-                                       sizeof(uint16_t));
-  std::memcpy(token_emb_bytes.data(), reader.fp16_data.data(),
-              token_emb_bytes.size());
-
-  std::vector<uint8_t> header(slimmed_data.begin(),
-                              slimmed_data.begin() + header_size);
-  std::vector<uint8_t> middle(slimmed_data.begin() + header_size,
-                              slimmed_data.begin() + header_size + middle_size);
-  std::vector<uint8_t> tail(slimmed_data.begin() + header_size + middle_size,
-                            slimmed_data.end());
-
-  std::ofstream output_file(dir + "/clip.mnn", std::ios::binary);
-  output_file.write(reinterpret_cast<const char*>(header.data()),
-                    header.size());
-  output_file.write(reinterpret_cast<const char*>(pos_emb_bytes.data()),
-                    pos_emb_bytes.size());
-  output_file.write(reinterpret_cast<const char*>(middle.data()),
-                    middle.size());
-  output_file.write(reinterpret_cast<const char*>(token_emb_bytes.data()),
-                    token_emb_bytes.size());
-  output_file.write(reinterpret_cast<const char*>(tail.data()), tail.size());
-  output_file.close();
+      true);
+  std::ofstream token_emb_file(dir + "/token_emb.bin", std::ios::binary);
+  token_emb_file.write(reinterpret_cast<const char*>(reader.data.data()),
+                       reader.data.size() * sizeof(float));
+  token_emb_file.close();
 }
 
 void generateMNNModels(const std::string& dir,
 
@@ -1,3 +1,6 @@
+#ifndef SAFE_TENSOR_READER_HPP
+#define SAFE_TENSOR_READER_HPP
+
 #include <cstring>
 #include <fstream>
 #include <map>
@@ -205,4 +208,6 @@ class SafeTensorReader {
   }
 
   int get_tensor_count() const { return tensor_map_.size(); }
-};
+};
+
+#endif  // SAFE_TENSOR_READER_HPP