llama : skip metal device if n_gpu_layers <= 0

jhen0409 · jhen0409 · commit 7ef6580f99f7 · 2024-11-02T11:26:08.000+08:00
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -19086,7 +19086,9 @@ struct llama_model_params llama_model_default_params() {
 
 #ifdef GGML_USE_METAL
     // note: we usually have plenty of VRAM, so by default offload all layers to the GPU
-    result.n_gpu_layers = 999;
+    if (result.n_gpu_layers > 0) {
+        result.n_gpu_layers = 999;
+    }
 #endif
 
     return result;
@@ -19289,7 +19291,13 @@ struct llama_model * llama_load_model_from_file(
                 break;
 
             case GGML_BACKEND_DEVICE_TYPE_GPU:
+#ifdef GGML_USE_METAL
+                if (params.n_gpu_layers > 0) {
+                    model->devices.push_back(dev);
+                }
+#else
                 model->devices.push_back(dev);
+#endif
                 break;
         }
     }