[WIP] Start adding logic for tornado path in service

orionpapadakis · orionpapadakis · commit 6c7486d867f3 · 2025-09-18T21:11:57.000+03:00
diff --git a/llama-tornado b/llama-tornado
@@ -229,6 +229,12 @@ class LlamaRunner:
         if args.service:
             print("Starting GPULlama3.java REST API Service...")
             print(f"Model: {args.model_path}")
+            # Display GPU/backend configuration
+            if args.use_gpu:
+                print(f"GPU Acceleration: Enabled ({args.backend.value.upper()} backend)")
+                print(f"GPU Memory: {args.gpu_memory}")
+            else:
+                print("GPU Acceleration: Disabled (CPU mode)")
             print("API endpoints available at:")
             print("  - http://localhost:8080/chat")
             print("  - http://localhost:8080/chat/stream")
diff --git a/src/main/java/org/beehive/gpullama3/Options.java b/src/main/java/org/beehive/gpullama3/Options.java
@@ -132,6 +132,7 @@ public static Options parseOptions(String[] args) {
     public static Options parseServiceOptions(String[] args) {
         Path modelPath = null;
         int maxTokens = 512; // Default context length
+        Boolean useTornadovm = null;
 
         for (int i = 0; i < args.length; i++) {
             String optionName = args[i];
@@ -152,11 +153,16 @@ public static Options parseServiceOptions(String[] args) {
             switch (optionName) {
                 case "--model", "-m" -> modelPath = Paths.get(nextArg);
                 case "--max-tokens", "-n" -> maxTokens = Integer.parseInt(nextArg);
+                case "--use-tornadovm" -> useTornadovm = Boolean.parseBoolean(nextArg);
             }
         }
 
         require(modelPath != null, "Missing argument: --model <path> is required");
 
+        if (useTornadovm == null) {
+            useTornadovm = getDefaultTornadoVM();
+        }
+
         // Create service-mode Options object
         return new Options(
                 modelPath,
@@ -170,7 +176,7 @@ public static Options parseServiceOptions(String[] args) {
                 maxTokens,
                 false,          // stream - handled per request
                 false,                  // echo - not used in service
-                getDefaultTornadoVM(),
+                useTornadovm,
                 true
         );
     }
diff --git a/src/main/java/org/beehive/gpullama3/api/service/LLMService.java b/src/main/java/org/beehive/gpullama3/api/service/LLMService.java
@@ -45,7 +45,7 @@ public void init() {
             // Step 2: Load model weights
             System.out.println("\nStep 2: Loading model...");
             System.out.println("Loading model from: " + options.modelPath());
-            model = ModelLoader.loadModel(options.modelPath(), options.maxTokens(), true);
+            model = ModelLoader.loadModel(options.modelPath(), options.maxTokens(), true, options.useTornadovm());
             System.out.println("✓ Model loaded successfully");
             System.out.println("  Model type: " + model.getClass().getSimpleName());
             System.out.println("  Vocabulary size: " + model.configuration().vocabularySize());