Cleanup model

orionpapadakis · orionpapadakis · commit 4541c14c6323 · 2025-07-30T16:04:17.000+03:00
diff --git a/src/main/java/com/example/model/Model.java b/src/main/java/com/example/model/Model.java
@@ -2,7 +2,6 @@
 
 import com.example.Options;
 import com.example.auxiliary.LastRunMetrics;
-import com.example.inference.InferenceEngine;
 import com.example.inference.sampler.Sampler;
 import com.example.inference.state.State;
 import com.example.inference.weights.Weights;
@@ -194,12 +193,12 @@ default void runInstructOnce(Sampler sampler, Options options) {
         Set<Integer> stopTokens = chatFormat.getStopTokens();
 
         if (USE_TORNADOVM) {
+            // GPU path using TornadoVM
             tornadoVMPlan = TornadoVMMasterPlan.initializeTornadoVMPlan(state, this);
             // Call generateTokensGPU without the token consumer parameter
-            //responseTokens = InferenceEngine.generateTokensGPU(this, state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null,
-            //        tornadoVMPlan);
             responseTokens = generateTokensGPU(state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), options.stream() ? tokenConsumer : null, tornadoVMPlan);
         } else {
+            // CPU path
             responseTokens = generateTokens(state, 0, promptTokens, stopTokens, options.maxTokens(), sampler, options.echo(), tokenConsumer);
         }
 
diff --git a/src/main/java/com/example/model/loader/Qwen3ModelLoader.java b/src/main/java/com/example/model/loader/Qwen3ModelLoader.java
@@ -47,9 +47,7 @@ public Qwen3 loadModel() {
                 contextLength = modelContextLength;
             }
 
-            //String modelName = ggufPath.getFileName().toString();
             Qwen3Configuration config = new Qwen3Configuration(
-                    //modelName,
                     (int) metadata.get("qwen3.embedding_length"),
                     (int) metadata.get("qwen3.feed_forward_length"),
                     (int) metadata.get("qwen3.block_count"),
@@ -110,7 +108,6 @@ public Weights loadWeights(Map<String, GGMLTensorEntry> tensorEntries, Configura
     @Override
     public Weights createTornadoVMWeights(Map<String, GGMLTensorEntry> tensorEntries, Configuration config, Pair<float[], float[]> ropeFreqs, GGMLTensorEntry tokenEmbeddings,
             GGMLTensorEntry outputWeight) {
-        //throw new UnsupportedOperationException("Not supported yet.");
         return new Qwen3TornadoWeights(
                 loadTensorAsFloatArray(tokenEmbeddings),
                 loadArrayAsFloatArrayFromBuffer(config.numberOfLayers(), i -> tensorEntries.get("blk." + i + ".attn_norm.weight")),