[WIP] Update service logic

orionpapadakis · orionpapadakis · commit b5e9c2a58842 · 2025-09-18T20:52:43.000+03:00
diff --git a/src/main/java/org/beehive/gpullama3/api/controller/ChatController.java b/src/main/java/org/beehive/gpullama3/api/controller/ChatController.java
@@ -19,31 +19,44 @@ public class ChatController {
 
     @PostMapping("/chat")
     public Map<String, String> chat(@RequestBody ChatRequest request) {
-        logRequest("NON_STREAMING", request, 150, 0.7, 0.9);
+        // Use request parameters with fallbacks to defaults
+        int maxTokens = request.getMaxTokens() != null ? request.getMaxTokens() : 150;
+        double temperature = request.getTemperature() != null ? request.getTemperature() : 0.7;
+        double topP = request.getTopP() != null ? request.getTopP() : 0.9;
+
+        logRequest("NON_STREAMING", request, maxTokens, temperature, topP);
 
         if (request.getMessage() == null || request.getMessage().trim().isEmpty()) {
             throw new IllegalArgumentException("Message cannot be empty");
         }
 
-        String response = llmService.generateResponse(request.getMessage(), request.getSystemMessage());
+        String response = llmService.generateResponse(request.getMessage(), request.getSystemMessage(),
+                maxTokens, temperature, topP);
 
         return Map.of("response", response);
     }
 
     @PostMapping(value = "/chat/stream", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
     public SseEmitter streamChat(@RequestBody ChatRequest request) {
-        logRequest("STREAMING", request, 150, 0.7, 0.9);
+        // Use request parameters with fallbacks to defaults
+        int maxTokens = request.getMaxTokens() != null ? request.getMaxTokens() : 150;
+        double temperature = request.getTemperature() != null ? request.getTemperature() : 0.7;
+        double topP = request.getTopP() != null ? request.getTopP() : 0.9;
+
+        logRequest("STREAMING", request, maxTokens, temperature, topP);
 
         if (request.getMessage() == null || request.getMessage().trim().isEmpty()) {
             throw new IllegalArgumentException("Message cannot be empty");
         }
 
         SseEmitter emitter = new SseEmitter(Long.MAX_VALUE);
-        llmService.generateStreamingResponse(request.getMessage(), request.getSystemMessage(), emitter);
+        llmService.generateStreamingResponse(request.getMessage(), request.getSystemMessage(),
+                emitter, maxTokens, temperature, topP);
 
         return emitter;
     }
 
+
     @GetMapping("/health")
     public Map<String, String> health() {
         return Map.of("status", "healthy", "timestamp", String.valueOf(System.currentTimeMillis()));
@@ -69,11 +82,29 @@ private String truncate(String text, int maxLength) {
     public static class ChatRequest {
         private String message;
         private String systemMessage;
+        private Integer maxTokens;
+        private Double temperature;
+        private Double topP;
+        private Long seed;
 
+        // Getters and Setters
         public String getMessage() { return message; }
         public void setMessage(String message) { this.message = message; }
 
         public String getSystemMessage() { return systemMessage; }
         public void setSystemMessage(String systemMessage) { this.systemMessage = systemMessage; }
+
+        public Integer getMaxTokens() { return maxTokens; }
+        public void setMaxTokens(Integer maxTokens) { this.maxTokens = maxTokens; }
+
+        public Double getTemperature() { return temperature; }
+        public void setTemperature(Double temperature) { this.temperature = temperature; }
+
+        public Double getTopP() { return topP; }
+        public void setTopP(Double topP) { this.topP = topP; }
+
+        public Long getSeed() { return seed; }
+        public void setSeed(Long seed) { this.seed = seed; }
     }
+
 }
diff --git a/src/main/java/org/beehive/gpullama3/api/service/LLMService.java b/src/main/java/org/beehive/gpullama3/api/service/LLMService.java
@@ -61,14 +61,22 @@ public void init() {
         }
     }
 
+    /**
+     * Generate response with default parameters.
+     */
     public String generateResponse(String message, String systemMessage) {
         return generateResponse(message, systemMessage, 150, 0.7, 0.9);
     }
 
     public String generateResponse(String message, String systemMessage, int maxTokens, double temperature, double topP) {
+        return generateResponse(message, systemMessage, maxTokens, temperature, topP, null);
+    }
+
+    public String generateResponse(String message, String systemMessage, int maxTokens, double temperature, double topP, Long seed) {
         try {
             // Create sampler and state like runInstructOnce
-            Sampler sampler = selectSampler(model.configuration().vocabularySize(), (float) temperature, (float) topP, System.currentTimeMillis());
+            long actualSeed = seed != null ? seed : System.currentTimeMillis();
+            Sampler sampler = selectSampler(model.configuration().vocabularySize(), (float) temperature, (float) topP, actualSeed);
             State state = model.createNewState();
 
             // Use model's ChatFormat
@@ -115,7 +123,6 @@ public String generateResponse(String message, String systemMessage, int maxToke
             System.out.printf("COMPLETED tokens=%d duration=%dms rate=%.1f tok/s%n",
                     generatedTokens.size(), duration, tokensPerSecond);
 
-
             String responseText = model.tokenizer().decode(generatedTokens);
 
             // Add reasoning prefix for non-streaming if needed
@@ -132,9 +139,20 @@ public String generateResponse(String message, String systemMessage, int maxToke
     }
 
     public void generateStreamingResponse(String message, String systemMessage, SseEmitter emitter) {
+        generateStreamingResponse(message, systemMessage, emitter, 150, 0.7, 0.9);
+    }
+
+    public void generateStreamingResponse(String message, String systemMessage, SseEmitter emitter,
+            int maxTokens, double temperature, double topP) {
+        generateStreamingResponse(message, systemMessage, emitter, maxTokens, temperature, topP, null);
+    }
+
+    public void generateStreamingResponse(String message, String systemMessage, SseEmitter emitter,
+            int maxTokens, double temperature, double topP, Long seed) {
         CompletableFuture.runAsync(() -> {
             try {
-                Sampler sampler = selectSampler(model.configuration().vocabularySize(), 0.7f, 0.9f, System.currentTimeMillis());
+                long actualSeed = seed != null ? seed : System.currentTimeMillis();
+                Sampler sampler = selectSampler(model.configuration().vocabularySize(), (float) temperature, (float) topP, actualSeed);
                 State state = model.createNewState();
 
                 // Use proper chat format like in runInstructOnce
@@ -164,13 +182,14 @@ public void generateStreamingResponse(String message, String systemMessage, SseE
                 final int[] tokenCount = {0};
                 long startTime = System.currentTimeMillis();
                 List<Integer> generatedTokens = model.generateTokens(
-                        state, 0, promptTokens, stopTokens, 150, sampler, false,
+                        state, 0, promptTokens, stopTokens, maxTokens, sampler, false,
                         token -> {
                             try {
                                 // Only display tokens that should be displayed (like in your original)
                                 if (model.tokenizer().shouldDisplayToken(token)) {
                                     String tokenText = model.tokenizer().decode(List.of(token));
                                     emitter.send(SseEmitter.event().data(tokenText));
+                                    //emitter.send(SseEmitter.event().comment("flush"));
                                     tokenCount[0]++;
                                 }
                             } catch (Exception e) {