fix(Vulkan): context creation edge cases

giladgd · giladgd · commit f5b56b49f912 · 2025-08-24T19:34:30.000+03:00
diff --git a/llama/addon/globals/getGpuInfo.cpp b/llama/addon/globals/getGpuInfo.cpp
@@ -54,9 +54,13 @@ Napi::Value getGpuVramInfo(const Napi::CallbackInfo& info) {
             // this means that we counted memory from devices that aren't used by llama.cpp
             vulkanDeviceUnifiedVramSize = 0;
         }
-        
+
         unifiedVramSize += vulkanDeviceUnifiedVramSize;
     }
+
+    if (used == 0 && vulkanDeviceUsed != 0) {
+        used = vulkanDeviceUsed;
+    }
 #endif
 
     Napi::Object result = Napi::Object::New(info.Env());
@@ -93,7 +97,7 @@ std::pair<ggml_backend_dev_t, std::string> getGpuDevice() {
     for (size_t i = 0; i < ggml_backend_dev_count(); i++) {
         ggml_backend_dev_t device = ggml_backend_dev_get(i);
         const auto deviceName = std::string(ggml_backend_dev_name(device));
-        
+
         if (deviceName == "Metal") {
             return std::pair<ggml_backend_dev_t, std::string>(device, "metal");
         } else if (std::string(deviceName).find("Vulkan") == 0) {
@@ -106,7 +110,7 @@ std::pair<ggml_backend_dev_t, std::string> getGpuDevice() {
     for (size_t i = 0; i < ggml_backend_dev_count(); i++) {
         ggml_backend_dev_t device = ggml_backend_dev_get(i);
         const auto deviceName = std::string(ggml_backend_dev_name(device));
-        
+
         if (deviceName == "CPU") {
             return std::pair<ggml_backend_dev_t, std::string>(device, "cpu");
         }
@@ -119,7 +123,7 @@ Napi::Value getGpuType(const Napi::CallbackInfo& info) {
     const auto gpuDeviceRes = getGpuDevice();
     const auto device = gpuDeviceRes.first;
     const auto deviceType = gpuDeviceRes.second;
-    
+
     if (deviceType == "cpu") {
         return Napi::Boolean::New(info.Env(), false);
     } else if (device != nullptr && deviceType != "") {
diff --git a/src/evaluator/LlamaContext/LlamaContext.ts b/src/evaluator/LlamaContext/LlamaContext.ts
@@ -28,7 +28,7 @@ const defaultLoraScale = 1;
 const shrinkRetriesMinContextSize = 4096;
 const defaultMaxPunishTokens = 64;
 const defaultFailedCreationRemedy = {
-    retries: 6,
+    retries: 16,
     autoContextSizeShrink: 0.16
 } as const satisfies Required<LlamaContextOptions["failedCreationRemedy"]>;
 const defaultEvaluationPriority: EvaluationPriority = 5;