Replace static USE_TORNADOVM flag with dynamic Options property, removing redundant code and ensuring consistent TornadoVM usage configuration.

mikepapadim · mikepapadim · commit 1d4b5bc043b4 · 2025-09-03T15:16:06.000+03:00
diff --git a/src/main/java/org/beehive/gpullama3/LlamaApp.java b/src/main/java/org/beehive/gpullama3/LlamaApp.java
@@ -19,7 +19,6 @@ public class LlamaApp {
     // Configuration flags for hardware acceleration and optimizations
     public static final boolean USE_VECTOR_API = Boolean.parseBoolean(System.getProperty("llama.VectorAPI", "true"));   // Enable Java Vector API for CPU acceleration
     public static final boolean USE_AOT = Boolean.parseBoolean(System.getProperty("llama.AOT", "false"));               // Use Ahead-of-Time compilation
-    public static final boolean USE_TORNADOVM = Boolean.parseBoolean(System.getProperty("use.tornadovm", "false"));     // Use TornadoVM for GPU acceleration
     public static final boolean SHOW_PERF_INTERACTIVE = Boolean.parseBoolean(System.getProperty("llama.ShowPerfInteractive", "true")); // Show performance metrics in interactive mode
 
     /**
diff --git a/src/main/java/org/beehive/gpullama3/Options.java b/src/main/java/org/beehive/gpullama3/Options.java
@@ -5,12 +5,11 @@
 import java.nio.file.Paths;
 
 public record Options(Path modelPath, String prompt, String systemPrompt, String suffix, boolean interactive,
-                      float temperature, float topp, long seed, int maxTokens, boolean stream, boolean echo) {
+                      float temperature, float topp, long seed, int maxTokens, boolean stream, boolean echo, boolean useTornadovm) {
 
     public static final int DEFAULT_MAX_TOKENS = 1024;
 
     public Options {
-
         require(interactive || prompt != null, "Missing argument: --prompt is required in --instruct mode e.g. --prompt \"Why is the sky blue?\"");
         require(0 <= temperature, "Invalid argument: --temperature must be non-negative");
         require(0 <= topp && topp <= 1, "Invalid argument: --top-p must be within [0, 1]");
@@ -25,6 +24,11 @@ static void require(boolean condition, String messageFormat, Object... args) {
         }
     }
 
+    private static boolean getDefaultTornadoVM() {
+        return Boolean.parseBoolean(System.getProperty("use.tornadovm", "false"));
+    }
+
+
     static void printUsage(PrintStream out) {
         out.println("Usage:  jbang Llama3.java [options]");
         out.println();
@@ -58,8 +62,9 @@ public static Options getDefaultOptions() {
         boolean interactive = false;
         boolean stream = true;
         boolean echo = false;
+        boolean useTornadoVM = getDefaultTornadoVM();
 
-        return new Options(modelPath, prompt, systemPrompt, suffix, interactive, temperature, topp, seed, maxTokens, stream, echo);
+        return new Options(modelPath, prompt, systemPrompt, suffix, interactive, temperature, topp, seed, maxTokens, stream, echo, useTornadoVM);
     }
 
     public static Options parseOptions(String[] args) {
@@ -75,6 +80,7 @@ public static Options parseOptions(String[] args) {
         boolean interactive = false;
         boolean stream = false;
         boolean echo = false;
+        Boolean useTornadovm = null; // null means not specified via command line
 
         for (int i = 0; i < args.length; i++) {
             String optionName = args[i];
@@ -116,7 +122,10 @@ public static Options parseOptions(String[] args) {
 
         require(modelPath != null, "Missing argument: --model <path> is required");
 
+        if (useTornadovm == null) {
+            useTornadovm = getDefaultTornadoVM();
+        }
 
-        return new Options(modelPath, prompt, systemPrompt, suffix, interactive, temperature, topp, seed, maxTokens, stream, echo);
+        return new Options(modelPath, prompt, systemPrompt, suffix, interactive, temperature, topp, seed, maxTokens, stream, echo, useTornadovm);
     }
 }
diff --git a/src/main/java/org/beehive/gpullama3/model/Model.java b/src/main/java/org/beehive/gpullama3/model/Model.java
@@ -17,7 +17,6 @@
 import java.util.function.IntConsumer;
 
 import static org.beehive.gpullama3.LlamaApp.SHOW_PERF_INTERACTIVE;
-import static org.beehive.gpullama3.LlamaApp.USE_TORNADOVM;
 
 public interface Model {
 
@@ -81,7 +80,7 @@ default void runInteractive(Sampler sampler, Options options) {
         Scanner in = new Scanner(System.in);
 
         // Initialize TornadoVM plan once at the beginning if GPU path is enabled
-        if (USE_TORNADOVM && tornadoVMPlan == null) {
+        if (Options.getDefaultOptions().useTornadovm() && tornadoVMPlan == null) {
             tornadoVMPlan = TornadoVMMasterPlan.initializeTornadoVMPlan(state, this);
         }
 
@@ -108,7 +107,7 @@ default void runInteractive(Sampler sampler, Options options) {
                 };
 
                 // Choose between GPU and CPU path based on configuration
-                if (USE_TORNADOVM) {
+                if (Options.getDefaultOptions().useTornadovm()) {
                     // GPU path using TornadoVM
                     responseTokens = generateTokensGPU(state, startPosition, conversationTokens.subList(startPosition, conversationTokens.size()), stopTokens, options.maxTokens(), sampler,
                             options.echo(), options.stream() ? tokenConsumer : null, tornadoVMPlan);
@@ -143,7 +142,7 @@ default void runInteractive(Sampler sampler, Options options) {
             }
         } finally {
             // Clean up TornadoVM resources when exiting the chat loop
-            if (USE_TORNADOVM && tornadoVMPlan != null) {
+            if (Options.getDefaultOptions().useTornadovm() && tornadoVMPlan != null) {
                 try {
                     tornadoVMPlan.freeTornadoExecutionPlan();
                 } catch (Exception e) {
@@ -176,7 +175,7 @@ default String runInstructOnce(Sampler sampler, Options options) {
         }
 
         // Initialize TornadoVM plan once at the beginning if GPU path is enabled
-        if (USE_TORNADOVM && tornadoVMPlan == null) {
+        if (Options.getDefaultOptions().useTornadovm() && tornadoVMPlan == null) {
             tornadoVMPlan = TornadoVMMasterPlan.initializeTornadoVMPlan(state, this);
         }
 
@@ -195,9 +194,8 @@ default String runInstructOnce(Sampler sampler, Options options) {
 
         Set<Integer> stopTokens = chatFormat.getStopTokens();
 
-        if (USE_TORNADOVM) {
-            // GPU path using TornadoVM
-            // Call generateTokensGPU without the token consumer parameter
+        if (Options.getDefaultOptions().useTornadovm()) {
+            // GPU path using TornadoVM - Call generateTokensGPU without the token consumer parameter
             responseTokens = generateTokensGPU(state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null, tornadoVMPlan);
         } else {
             // CPU path
@@ -208,7 +206,7 @@ default String runInstructOnce(Sampler sampler, Options options) {
             responseTokens.removeLast();
         }
 
-        String responseText = null;
+        String responseText = "";
         if (!options.stream()) {
             responseText = tokenizer().decode(responseTokens);
         }
@@ -242,7 +240,7 @@ default String runInstructOnceLangChain4J(Sampler sampler, Options options, Cons
         }
 
         // Initialize TornadoVM plan once at the beginning if GPU path is enabled
-        if (USE_TORNADOVM && tornadoVMPlan == null) {
+        if (Options.getDefaultOptions().useTornadovm() && tornadoVMPlan == null) {
             tornadoVMPlan = TornadoVMMasterPlan.initializeTornadoVMPlan(state, this);
         }
 
@@ -262,9 +260,8 @@ default String runInstructOnceLangChain4J(Sampler sampler, Options options, Cons
 
         Set<Integer> stopTokens = chatFormat.getStopTokens();
 
-        if (USE_TORNADOVM) {
-            // GPU path using TornadoVM
-            // Call generateTokensGPU without the token consumer parameter
+        if (Options.getDefaultOptions().useTornadovm()) {
+            // GPU path using TornadoVM Call generateTokensGPU without the token consumer parameter
             responseTokens = generateTokensGPU(state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null, tornadoVMPlan);
         } else {
             // CPU path
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java
@@ -1,6 +1,6 @@
 package org.beehive.gpullama3.model.loader;
 
-import org.beehive.gpullama3.LlamaApp;
+import org.beehive.gpullama3.Options;
 import org.beehive.gpullama3.core.model.GGMLType;
 import org.beehive.gpullama3.core.model.GGUF;
 import org.beehive.gpullama3.core.model.tensor.ArrayFloatTensor;
@@ -18,7 +18,6 @@
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.model.Model;
 import org.beehive.gpullama3.model.ModelType;
-import org.beehive.gpullama3.model.llama.Llama;
 import org.beehive.gpullama3.tornadovm.TornadoVMMasterPlan;
 import uk.ac.manchester.tornado.api.types.HalfFloat;
 import uk.ac.manchester.tornado.api.types.arrays.ByteArray;
@@ -34,11 +33,7 @@
 import java.util.Map;
 import java.util.function.IntFunction;
 
-import static org.beehive.gpullama3.tornadovm.TornadoVMMasterPlan.ENABLE_TORNADOVM_INIT_TIME;
-
 public abstract class ModelLoader {
-    private static final String TOKENIZER_LLAMA_3_MODEL = "gpt2";
-    private static final String TOKENIZER_MISTRAL_MODEL = "llama";
 
     protected FileChannel fileChannel;
     protected GGUF gguf;
@@ -223,7 +218,7 @@ public Weights loadWeights(Map<String, GGMLTensorEntry> tensorEntries, Configura
         GGMLTensorEntry tokenEmbeddings = tensorEntries.get("token_embd.weight");
         GGMLTensorEntry outputWeight = tensorEntries.getOrDefault("output.weight", tokenEmbeddings);
 
-        if (LlamaApp.USE_TORNADOVM) {
+        if (Options.getDefaultOptions().useTornadovm()) {
             if (TornadoVMMasterPlan.ENABLE_TORNADOVM_INIT_TIME) {
                 System.out.println("Loading model weights in TornadoVM format (loading " + outputWeight.ggmlType() + " -> " + GGMLType.F16 + ")");
             }
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/Phi3ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/Phi3ModelLoader.java
@@ -1,6 +1,7 @@
 package org.beehive.gpullama3.model.loader;
 
 import org.beehive.gpullama3.LlamaApp;
+import org.beehive.gpullama3.Options;
 import org.beehive.gpullama3.auxiliary.Timer;
 import org.beehive.gpullama3.core.model.GGMLType;
 import org.beehive.gpullama3.core.model.GGUF;
@@ -97,7 +98,7 @@ private Weights loadWeights(Map<String, GGMLTensorEntry> tensorEntries, Configur
         GGMLTensorEntry tokenEmbeddings = tensorEntries.get("token_embd.weight");
         GGMLTensorEntry outputWeight = tensorEntries.get("output.weight"); // Phi3 always has separate output weight
 
-        if (LlamaApp.USE_TORNADOVM) {
+        if (Options.getDefaultOptions().useTornadovm()) {
             if (TornadoVMMasterPlan.ENABLE_TORNADOVM_INIT_TIME) {
                 System.out.println("Loading model weights in TornadoVM format (loading " + outputWeight.ggmlType() + " -> " + GGMLType.F16 + ")");
             }
@@ -155,6 +156,5 @@ public Weights createStandardWeights(Map<String, GGMLTensorEntry> tensorEntries,
                 outputWeight.ggmlType()                                                                                      // weightType
         );
     }
-
     // @formatter:on
 }
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/Qwen3ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/Qwen3ModelLoader.java
@@ -1,6 +1,6 @@
 package org.beehive.gpullama3.model.loader;
 
-import org.beehive.gpullama3.LlamaApp;
+import org.beehive.gpullama3.Options;
 import org.beehive.gpullama3.auxiliary.Timer;
 import org.beehive.gpullama3.core.model.GGMLType;
 import org.beehive.gpullama3.core.model.GGUF;
@@ -101,7 +101,7 @@ public Weights loadWeights(Map<String, GGMLTensorEntry> tensorEntries, Configura
         GGMLTensorEntry tokenEmbeddings = tensorEntries.get("token_embd.weight");
         GGMLTensorEntry outputWeight = tensorEntries.getOrDefault("output.weight", tokenEmbeddings);
 
-        if (LlamaApp.USE_TORNADOVM) {
+        if (Options.getDefaultOptions().useTornadovm()) {
             if (TornadoVMMasterPlan.ENABLE_TORNADOVM_INIT_TIME) {
                 System.out.println("Loading model weights in TornadoVM format (loading " + outputWeight.ggmlType() + " -> " + GGMLType.F16 + ")");
             }