Merge pull request #50 from mikepapadim/feat/handle_gpu_cpu_switch

mikepapadim · web-flow · commit bb71b95e1030 · 2025-09-13T12:11:04.000+03:00
Add `useTornadovm` flag to model loader to handle Builder option in Langchain4j
diff --git a/src/main/java/org/beehive/gpullama3/LlamaApp.java b/src/main/java/org/beehive/gpullama3/LlamaApp.java
@@ -130,7 +130,7 @@ private static Model loadModel(Options options) throws IOException {
             }
             return model;
         }
-        return ModelLoader.loadModel(options.modelPath(), options.maxTokens(), true);
+        return ModelLoader.loadModel(options.modelPath(), options.maxTokens(), true, options.useTornadovm());
     }
 
     private static Sampler createSampler(Model model, Options options) {
diff --git a/src/main/java/org/beehive/gpullama3/Options.java b/src/main/java/org/beehive/gpullama3/Options.java
@@ -25,7 +25,7 @@ static void require(boolean condition, String messageFormat, Object... args) {
     }
 
     private static boolean getDefaultTornadoVM() {
-        return Boolean.parseBoolean(System.getProperty("use.tornadovm", "false"));
+        return Boolean.parseBoolean(System.getProperty("use.tornadovm", "true"));
     }
 
     static void printUsage(PrintStream out) {
diff --git a/src/main/java/org/beehive/gpullama3/aot/AOT.java b/src/main/java/org/beehive/gpullama3/aot/AOT.java
@@ -48,7 +48,7 @@ private static PartialModel preLoadGGUF(String modelPath) {
             }
             GGUF gguf = GGUF.loadModel(path);
             try (FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ)) {
-                modelLoader = new LlamaModelLoader(fileChannel, gguf, Options.DEFAULT_MAX_TOKENS, false);
+                modelLoader = new LlamaModelLoader(fileChannel, gguf, Options.DEFAULT_MAX_TOKENS, false, false);
                 return new PartialModel(path.getFileName().toString(), modelLoader.loadModel(), // TODO: needs proper handling for AOT
                         gguf.getTensorDataOffset(), gguf.getTensorInfos());
             }
diff --git a/src/main/java/org/beehive/gpullama3/model/Model.java b/src/main/java/org/beehive/gpullama3/model/Model.java
@@ -1,5 +1,6 @@
 package org.beehive.gpullama3.model;
 
+import dev.langchain4j.model.chat.request.ChatRequest;
 import org.beehive.gpullama3.Options;
 import org.beehive.gpullama3.auxiliary.LastRunMetrics;
 import org.beehive.gpullama3.inference.sampler.Sampler;
@@ -92,7 +93,7 @@ default void runInteractive(Sampler sampler, Options options) {
         Scanner in = new Scanner(System.in);
 
         // Initialize TornadoVM plan once at the beginning if GPU path is enabled
-        if (Options.getDefaultOptions().useTornadovm() && tornadoVMPlan == null) {
+        if (options.useTornadovm() && tornadoVMPlan == null) {
             tornadoVMPlan = TornadoVMMasterPlan.initializeTornadoVMPlan(state, this);
         }
 
@@ -131,7 +132,7 @@ default void runInteractive(Sampler sampler, Options options) {
                 };
 
                 // Choose between GPU and CPU path based on configuration
-                if (Options.getDefaultOptions().useTornadovm()) {
+                if (options.useTornadovm()) {
                     // GPU path using TornadoVM
                     responseTokens = generateTokensGPU(state, startPosition, conversationTokens.subList(startPosition, conversationTokens.size()), stopTokens, options.maxTokens(), sampler,
                             options.echo(), options.stream() ? tokenConsumer : null, tornadoVMPlan);
@@ -170,7 +171,7 @@ default void runInteractive(Sampler sampler, Options options) {
             }
         } finally {
             // Clean up TornadoVM resources when exiting the chat loop
-            if (Options.getDefaultOptions().useTornadovm() && tornadoVMPlan != null) {
+            if (options.useTornadovm() && tornadoVMPlan != null) {
                 try {
                     tornadoVMPlan.freeTornadoExecutionPlan();
                 } catch (Exception e) {
@@ -201,7 +202,7 @@ default String runInstructOnce(Sampler sampler, Options options) {
         }
 
         // Initialize TornadoVM plan once at the beginning if GPU path is enabled
-        if (Options.getDefaultOptions().useTornadovm() && tornadoVMPlan == null) {
+        if (options.useTornadovm() && tornadoVMPlan == null) {
             tornadoVMPlan = TornadoVMMasterPlan.initializeTornadoVMPlan(state, this);
         }
 
@@ -231,7 +232,7 @@ default String runInstructOnce(Sampler sampler, Options options) {
 
         Set<Integer> stopTokens = chatFormat.getStopTokens();
 
-        if (Options.getDefaultOptions().useTornadovm()) {
+        if (options.useTornadovm()) {
             // GPU path using TornadoVM - Call generateTokensGPU without the token consumer parameter
             responseTokens = generateTokensGPU(state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null, tornadoVMPlan);
         } else {
@@ -275,7 +276,7 @@ default String runInstructOnceLangChain4J(Sampler sampler, Options options, Cons
         }
 
         // Initialize TornadoVM plan once at the beginning if GPU path is enabled
-        if (Options.getDefaultOptions().useTornadovm() && tornadoVMPlan == null) {
+        if (options.useTornadovm() && tornadoVMPlan == null) {
             tornadoVMPlan = TornadoVMMasterPlan.initializeTornadoVMPlan(state, this);
         }
 
@@ -305,7 +306,7 @@ default String runInstructOnceLangChain4J(Sampler sampler, Options options, Cons
 
         Set<Integer> stopTokens = chatFormat.getStopTokens();
 
-        if (Options.getDefaultOptions().useTornadovm()) {
+        if (options.useTornadovm()) {
             // GPU path using TornadoVM Call generateTokensGPU without the token consumer parameter
             responseTokens = generateTokensGPU(state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null, tornadoVMPlan);
         } else {
@@ -332,4 +333,5 @@ default String runInstructOnceLangChain4J(Sampler sampler, Options options, Cons
 
         return responseText;
     }
+
 }
diff --git a/src/main/java/org/beehive/gpullama3/model/ModelType.java b/src/main/java/org/beehive/gpullama3/model/ModelType.java
@@ -24,55 +24,55 @@
 public enum ModelType {
     LLAMA_3 {
         @Override
-        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-            return new LlamaModelLoader(fileChannel, gguf, contextLength, loadWeights).loadModel();
+        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+            return new LlamaModelLoader(fileChannel, gguf, contextLength, loadWeights, useTornadovm).loadModel();
         }
     },
 
     MISTRAL {
         @Override
-        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-            return new MistralModelLoader(fileChannel, gguf, contextLength, loadWeights).loadModel();
+        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+            return new MistralModelLoader(fileChannel, gguf, contextLength, loadWeights, useTornadovm).loadModel();
         }
     },
 
     QWEN_2 {
         @Override
-        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-            return new Qwen2ModelLoader(fileChannel, gguf, contextLength, loadWeights).loadModel();
+        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+            return new Qwen2ModelLoader(fileChannel, gguf, contextLength, loadWeights, useTornadovm).loadModel();
         }
     },
 
     QWEN_3 {
         @Override
-        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-            return new Qwen3ModelLoader(fileChannel, gguf, contextLength, loadWeights).loadModel();
+        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+            return new Qwen3ModelLoader(fileChannel, gguf, contextLength, loadWeights, useTornadovm).loadModel();
         }
     },
 
     DEEPSEEK_R1_DISTILL_QWEN {
         @Override
-        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-            return new Qwen2ModelLoader(fileChannel, gguf, contextLength, loadWeights).loadModel();
+        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+            return new Qwen2ModelLoader(fileChannel, gguf, contextLength, loadWeights, useTornadovm).loadModel();
         }
     },
 
     PHI_3 {
         @Override
-        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-            return new Phi3ModelLoader(fileChannel, gguf, contextLength, loadWeights).loadModel();
+        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+            return new Phi3ModelLoader(fileChannel, gguf, contextLength, loadWeights, useTornadovm).loadModel();
         }
     },
 
     UNKNOWN {
         @Override
-        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
+        public Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
             throw new UnsupportedOperationException("Cannot load unknown model type");
         }
     };
 
     // Abstract method that each enum constant must implement
-    public abstract Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights);
+    public abstract Model loadModel(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm);
 
     public boolean isDeepSeekR1() {
         return this == DEEPSEEK_R1_DISTILL_QWEN;
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/LlamaModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/LlamaModelLoader.java
@@ -17,8 +17,8 @@
 
 public class LlamaModelLoader extends ModelLoader {
 
-    public LlamaModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-        super(fileChannel, gguf, contextLength, loadWeights);
+    public LlamaModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadoVM) {
+        super(fileChannel, gguf, contextLength, loadWeights, useTornadoVM);
     }
 
     // @formatter:off
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/MistralModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/MistralModelLoader.java
@@ -17,8 +17,8 @@
 
 public class MistralModelLoader extends ModelLoader {
 
-    public MistralModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-        super(fileChannel, gguf, contextLength, loadWeights);
+    public MistralModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+        super(fileChannel, gguf, contextLength, loadWeights, useTornadovm);
     }
 
     // @formatter:off
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java
@@ -39,12 +39,14 @@ public abstract class ModelLoader {
     protected GGUF gguf;
     protected int contextLength;
     protected boolean loadWeights;
+    protected boolean useTornadovm;
 
-    public ModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
+    public ModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
         this.fileChannel = fileChannel;
         this.gguf = gguf;
         this.contextLength = contextLength;
         this.loadWeights = loadWeights;
+        this.useTornadovm = useTornadovm;
     }
 
     private static ModelType detectModelType(Map<String, Object> metadata) {
@@ -74,14 +76,14 @@ private static ModelType detectModelType(Map<String, Object> metadata) {
         return ModelType.UNKNOWN;
     }
 
-    public static Model loadModel(Path ggufPath, int contextLength, boolean loadWeights) throws IOException {
+    public static Model loadModel(Path ggufPath, int contextLength, boolean loadWeights, boolean useTornadovm) throws IOException {
         // initial load of metadata from gguf file
         GGUF gguf = GGUF.loadModel(ggufPath);
         FileChannel fileChannel = FileChannel.open(ggufPath, StandardOpenOption.READ);
         // detect model type
         ModelType modelType = detectModelType(gguf.getMetadata());
         // model type-specific load
-        return modelType.loadModel(fileChannel, gguf, contextLength, loadWeights);
+        return modelType.loadModel(fileChannel, gguf, contextLength, loadWeights, useTornadovm);
     }
 
     public static FloatTensor loadQuantized(GGMLTensorEntry entry) {
@@ -222,7 +224,7 @@ public Weights loadWeights(Map<String, GGMLTensorEntry> tensorEntries, Configura
         GGMLTensorEntry tokenEmbeddings = tensorEntries.get("token_embd.weight");
         GGMLTensorEntry outputWeight = tensorEntries.getOrDefault("output.weight", tokenEmbeddings);
 
-        if (Options.getDefaultOptions().useTornadovm()) {
+        if (useTornadovm) {
             if (TornadoVMMasterPlan.ENABLE_TORNADOVM_INIT_TIME) {
                 System.out.println("Loading model weights in TornadoVM format (loading " + outputWeight.ggmlType() + " -> " + GGMLType.F16 + ")");
             }
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/Phi3ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/Phi3ModelLoader.java
@@ -27,8 +27,8 @@
 import java.util.Map;
 
 public class Phi3ModelLoader extends ModelLoader {
-    public Phi3ModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-        super(fileChannel, gguf, contextLength, loadWeights);
+    public Phi3ModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+        super(fileChannel, gguf, contextLength, loadWeights, useTornadovm);
     }
 
     // @formatter:off
@@ -98,7 +98,7 @@ private Weights loadWeights(Map<String, GGMLTensorEntry> tensorEntries, Configur
         GGMLTensorEntry tokenEmbeddings = tensorEntries.get("token_embd.weight");
         GGMLTensorEntry outputWeight = tensorEntries.get("output.weight"); // Phi3 always has separate output weight
 
-        if (Options.getDefaultOptions().useTornadovm()) {
+        if (useTornadovm) {
             if (TornadoVMMasterPlan.ENABLE_TORNADOVM_INIT_TIME) {
                 System.out.println("Loading model weights in TornadoVM format (loading " + outputWeight.ggmlType() + " -> " + GGMLType.F16 + ")");
             }
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/Qwen2ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/Qwen2ModelLoader.java
@@ -30,8 +30,8 @@
 
 public class Qwen2ModelLoader extends ModelLoader {
 
-    public Qwen2ModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-        super(fileChannel, gguf, contextLength, loadWeights);
+    public Qwen2ModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+        super(fileChannel, gguf, contextLength, loadWeights, useTornadovm);
     }
 
     @Override
@@ -96,7 +96,7 @@ public Weights loadWeights(Map<String, GGMLTensorEntry> tensorEntries, Configura
         GGMLTensorEntry tokenEmbeddings = tensorEntries.get("token_embd.weight");
         GGMLTensorEntry outputWeight = tensorEntries.getOrDefault("output.weight", tokenEmbeddings);
 
-        if (Options.getDefaultOptions().useTornadovm()) {
+        if (useTornadovm) {
             if (TornadoVMMasterPlan.ENABLE_TORNADOVM_INIT_TIME) {
                 System.out.println("Loading model weights in TornadoVM format (loading " + outputWeight.ggmlType() + " -> " + GGMLType.F16 + ")");
             }
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/Qwen3ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/Qwen3ModelLoader.java
@@ -30,8 +30,8 @@
 
 public class Qwen3ModelLoader extends ModelLoader {
 
-    public Qwen3ModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {
-        super(fileChannel, gguf, contextLength, loadWeights);
+    public Qwen3ModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadovm) {
+        super(fileChannel, gguf, contextLength, loadWeights, useTornadovm);
     }
 
     // @formatter:off
@@ -101,7 +101,7 @@ public Weights loadWeights(Map<String, GGMLTensorEntry> tensorEntries, Configura
         GGMLTensorEntry tokenEmbeddings = tensorEntries.get("token_embd.weight");
         GGMLTensorEntry outputWeight = tensorEntries.getOrDefault("output.weight", tokenEmbeddings);
 
-        if (Options.getDefaultOptions().useTornadovm()) {
+        if (useTornadovm) {
             if (TornadoVMMasterPlan.ENABLE_TORNADOVM_INIT_TIME) {
                 System.out.println("Loading model weights in TornadoVM format (loading " + outputWeight.ggmlType() + " -> " + GGMLType.F16 + ")");
             }

Original file line number	Diff line number	Diff line change
`@@ -130,7 +130,7 @@ private static Model loadModel(Options options) throws IOException {`
`130`	`130`	`}`
`131`	`131`	`return model;`
`132`	`132`	`}`
`133`		`- return ModelLoader.loadModel(options.modelPath(), options.maxTokens(), true);`
	`133`	`+ return ModelLoader.loadModel(options.modelPath(), options.maxTokens(), true, options.useTornadovm());`
`134`	`134`	`}`
`135`	`135`
`136`	`136`	`private static Sampler createSampler(Model model, Options options) {`
Original file line number	Diff line number	Diff line change
`@@ -25,7 +25,7 @@ static void require(boolean condition, String messageFormat, Object... args) {`
`25`	`25`	`}`
`26`	`26`
`27`	`27`	`private static boolean getDefaultTornadoVM() {`
`28`		`- return Boolean.parseBoolean(System.getProperty("use.tornadovm", "false"));`
	`28`	`+ return Boolean.parseBoolean(System.getProperty("use.tornadovm", "true"));`
`29`	`29`	`}`
`30`	`30`
`31`	`31`	`static void printUsage(PrintStream out) {`
Original file line number	Diff line number	Diff line change
`@@ -48,7 +48,7 @@ private static PartialModel preLoadGGUF(String modelPath) {`
`48`	`48`	`}`
`49`	`49`	`GGUF gguf = GGUF.loadModel(path);`
`50`	`50`	`try (FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ)) {`
`51`		`- modelLoader = new LlamaModelLoader(fileChannel, gguf, Options.DEFAULT_MAX_TOKENS, false);`
	`51`	`+ modelLoader = new LlamaModelLoader(fileChannel, gguf, Options.DEFAULT_MAX_TOKENS, false, false);`
`52`	`52`	`return new PartialModel(path.getFileName().toString(), modelLoader.loadModel(), // TODO: needs proper handling for AOT`
`53`	`53`	`gguf.getTensorDataOffset(), gguf.getTensorInfos());`
`54`	`54`	`}`
Original file line number	Diff line number	Diff line change
`@@ -17,8 +17,8 @@`
`17`	`17`
`18`	`18`	`public class LlamaModelLoader extends ModelLoader {`
`19`	`19`
`20`		`- public LlamaModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights) {`
`21`		`- super(fileChannel, gguf, contextLength, loadWeights);`
	`20`	`+ public LlamaModelLoader(FileChannel fileChannel, GGUF gguf, int contextLength, boolean loadWeights, boolean useTornadoVM) {`
	`21`	`+ super(fileChannel, gguf, contextLength, loadWeights, useTornadoVM);`
`22`	`22`	`}`
`23`	`23`
`24`	`24`	`// @formatter:off`