fix: CUDA context creation (#285)

giladgd · web-flow · commit a2b2bc3d9f81 · 2024-08-02T19:35:16.000+03:00
* fix: CUDA context creation
* fix: detokenizer unpredictable text length
diff --git a/llama/addon/AddonContext.cpp b/llama/addon/AddonContext.cpp
@@ -398,16 +398,6 @@ class AddonContextSampleTokenWorker : public Napi::AsyncWorker {
 };
 
 AddonContext::AddonContext(const Napi::CallbackInfo& info) : Napi::ObjectWrap<AddonContext>(info) {
-    batchMemorySize = 0;
-    has_batch = false;
-    batch_n_tokens = 0;
-    n_cur = 0;
-
-    uint64_t loadedContextMemorySize = 0;
-    bool contextLoaded = false;
-
-    bool disposed = false;
-
     model = Napi::ObjectWrap<AddonModel>::Unwrap(info[0].As<Napi::Object>());
     model->Ref();
 
diff --git a/llama/addon/AddonContext.h b/llama/addon/AddonContext.h
@@ -9,15 +9,15 @@ class AddonContext : public Napi::ObjectWrap<AddonContext> {
         llama_context_params context_params;
         llama_context* ctx;
         llama_batch batch;
-        uint64_t batchMemorySize;
-        bool has_batch;
-        int32_t batch_n_tokens;
-        int n_cur;
+        uint64_t batchMemorySize = 0;
+        bool has_batch = false;
+        int32_t batch_n_tokens = 0;
+        int n_cur = 0;
 
-        uint64_t loadedContextMemorySize;
-        bool contextLoaded;
+        uint64_t loadedContextMemorySize = 0;
+        bool contextLoaded = false;
 
-        bool disposed;
+        bool disposed = false;
 
         AddonContext(const Napi::CallbackInfo& info);
         ~AddonContext();
diff --git a/llama/addon/AddonGrammar.cpp b/llama/addon/AddonGrammar.cpp
@@ -2,8 +2,6 @@
 #include "AddonGrammar.h"
 
 AddonGrammar::AddonGrammar(const Napi::CallbackInfo& info) : Napi::ObjectWrap<AddonGrammar>(info) {
-    hasAddonExportsRef = false;
-    
     // Get the model path
     std::string grammarCode = info[0].As<Napi::String>().Utf8Value();
     bool should_print_grammar = false;
diff --git a/llama/addon/AddonGrammar.h b/llama/addon/AddonGrammar.h
@@ -9,7 +9,7 @@ class AddonGrammar : public Napi::ObjectWrap<AddonGrammar> {
     public:
         grammar_parser::parse_state parsed_grammar;
         Napi::Reference<Napi::Object> addonExportsRef;
-        bool hasAddonExportsRef;
+        bool hasAddonExportsRef = false;
 
         AddonGrammar(const Napi::CallbackInfo& info);
         ~AddonGrammar();
diff --git a/llama/addon/AddonGrammarEvaluationState.cpp b/llama/addon/AddonGrammarEvaluationState.cpp
@@ -6,8 +6,6 @@
 #include "AddonGrammar.h"
 
 AddonGrammarEvaluationState::AddonGrammarEvaluationState(const Napi::CallbackInfo& info) : Napi::ObjectWrap<AddonGrammarEvaluationState>(info) {
-    grammar = nullptr;
-
     grammarDef = Napi::ObjectWrap<AddonGrammar>::Unwrap(info[0].As<Napi::Object>());
     grammarDef->Ref();
 
diff --git a/llama/addon/AddonGrammarEvaluationState.h b/llama/addon/AddonGrammarEvaluationState.h
@@ -6,7 +6,7 @@
 class AddonGrammarEvaluationState : public Napi::ObjectWrap<AddonGrammarEvaluationState> {
     public:
         AddonGrammar* grammarDef;
-        llama_grammar* grammar;
+        llama_grammar* grammar = nullptr;
 
         AddonGrammarEvaluationState(const Napi::CallbackInfo& info);
         ~AddonGrammarEvaluationState();
diff --git a/llama/addon/AddonModel.cpp b/llama/addon/AddonModel.cpp
@@ -224,17 +224,6 @@ class AddonModelLoadLoraWorker : public Napi::AsyncWorker {
 };
 
 AddonModel::AddonModel(const Napi::CallbackInfo& info) : Napi::ObjectWrap<AddonModel>(info) {
-    loadedModelSize = 0;
-    hasAddonExportsRef = false;
-    modelLoaded = false;
-    abortModelLoad = false;
-    model_load_stopped = false;
-    rawModelLoadPercentage = 0;
-    modelLoadPercentage = 0;
-    onLoadProgressEventCallbackSet = false;
-    hasLoadAbortSignal = false;
-    disposed = false;
-    
     data = new AddonModelData();
     model_params = llama_model_default_params();
 
@@ -456,18 +445,19 @@ Napi::Value AddonModel::Detokenize(const Napi::CallbackInfo& info) {
         ? info[1].As<Napi::Boolean>().Value()
         : false;
 
-    std::vector<char> result(8, 0);
-    const int n_length = llama_detokenize(model, (llama_token*)tokens.Data(), tokens.ElementLength(), result.data(), result.size(), false, decodeSpecialTokens);
+    std::string result;
+    result.resize(std::max(result.capacity(), tokens.ElementLength()));
 
-    if (n_length < 0) {
-        result.resize(-n_length);
-        int check = llama_detokenize(model, (llama_token*)tokens.Data(), tokens.ElementLength(), result.data(), result.size(), false, decodeSpecialTokens);
-        GGML_ASSERT(check == -n_length);
-    } else {
-        result.resize(n_length);
+    int n_chars = llama_detokenize(model, (llama_token*)tokens.Data(), tokens.ElementLength(), &result[0], result.size(), false, decodeSpecialTokens);
+    if (n_chars < 0) {
+        result.resize(-n_chars);
+        n_chars = llama_detokenize(model, (llama_token*)tokens.Data(), tokens.ElementLength(), &result[0], result.size(), false, decodeSpecialTokens);
+        GGML_ASSERT(n_chars <= result.size());  // whitespace trimming is performed after per-token detokenization
     }
 
-    return Napi::String::New(info.Env(), result.data(), result.size());
+    result.resize(n_chars);
+
+    return Napi::String::New(info.Env(), result);
 }
 
 Napi::Value AddonModel::GetTrainContextSize(const Napi::CallbackInfo& info) {
diff --git a/llama/addon/AddonModel.h b/llama/addon/AddonModel.h
@@ -9,22 +9,22 @@ class AddonModel : public Napi::ObjectWrap<AddonModel> {
         llama_model_params model_params;
         std::vector<llama_model_kv_override> kv_overrides;
         llama_model* model;
-        uint64_t loadedModelSize;
+        uint64_t loadedModelSize = 0;
         Napi::Reference<Napi::Object> addonExportsRef;
-        bool hasAddonExportsRef;
+        bool hasAddonExportsRef = false;
         AddonModelData* data;
 
         std::string modelPath;
-        bool modelLoaded;
-        bool abortModelLoad;
-        bool model_load_stopped;
-        float rawModelLoadPercentage;
-        unsigned modelLoadPercentage;
+        bool modelLoaded = false;
+        bool abortModelLoad = false;
+        bool model_load_stopped = false;
+        float rawModelLoadPercentage = 0;
+        unsigned modelLoadPercentage = 0;
         AddonThreadSafeProgressEventCallbackFunction addonThreadSafeOnLoadProgressEventCallback;
-        bool onLoadProgressEventCallbackSet;
-        bool hasLoadAbortSignal;
+        bool onLoadProgressEventCallbackSet = false;
+        bool hasLoadAbortSignal = false;
 
-        bool disposed;
+        bool disposed = false;
 
         AddonModel(const Napi::CallbackInfo& info);
         ~AddonModel();
diff --git a/llama/addon/AddonModelLora.cpp b/llama/addon/AddonModelLora.cpp
@@ -42,8 +42,6 @@ class AddonModelLoraUnloadLoraWorker : public Napi::AsyncWorker {
 };
 
 AddonModelLora::AddonModelLora(const Napi::CallbackInfo& info) : Napi::ObjectWrap<AddonModelLora>(info) {
-    usages = 0;
-
     model = Napi::ObjectWrap<AddonModel>::Unwrap(info[0].As<Napi::Object>());
     loraFilePath = info[1].As<Napi::String>().Utf8Value();
     lora_adapter = nullptr;
diff --git a/llama/addon/AddonModelLora.h b/llama/addon/AddonModelLora.h
@@ -8,7 +8,7 @@ class AddonModelLora : public Napi::ObjectWrap<AddonModelLora> {
         AddonModel* model;
         llama_lora_adapter * lora_adapter;
         std::string loraFilePath;
-        uint32_t usages;
+        uint32_t usages = 0;
 
         AddonModelLora(const Napi::CallbackInfo& info);
         ~AddonModelLora();
diff --git a/src/bindings/utils/compileLLamaCpp.ts b/src/bindings/utils/compileLLamaCpp.ts
@@ -85,8 +85,8 @@ export async function compileLlamaCpp(buildOptions: BuildOptions, compileOptions
                 if (buildOptions.gpu === "vulkan" && !cmakeCustomOptions.has("GGML_VULKAN"))
                     cmakeCustomOptions.set("GGML_VULKAN", "1");
 
-                if (!cmakeCustomOptions.has("LLAMA_CCACHE"))
-                    cmakeCustomOptions.set("LLAMA_CCACHE", "OFF");
+                if (!cmakeCustomOptions.has("GGML_CCACHE"))
+                    cmakeCustomOptions.set("GGML_CCACHE", "OFF");
 
                 if (toolchainFile != null && !cmakeCustomOptions.has("CMAKE_TOOLCHAIN_FILE"))
                     cmakeCustomOptions.set("CMAKE_TOOLCHAIN_FILE", toolchainFile);
diff --git a/src/evaluator/LlamaContext/LlamaContext.ts b/src/evaluator/LlamaContext/LlamaContext.ts
@@ -101,7 +101,7 @@ export class LlamaContext {
         this._disposeAggregator.add(() => {
             this._disposed = true;
         });
-        this._disposeAggregator.add(() => this._gcRegistry.unregister(this));
+        this._disposeAggregator.add(() => void this._gcRegistry.unregister(this));
         this._disposeAggregator.add(this._onReclaimUnusedSequenceId);
         this._disposeAggregator.add(this.onDispose.dispatchEvent);
         this._disposeAggregator.add(