Minor changes

orionpapadakis · orionpapadakis · commit 6b76b08421ba · 2025-09-19T14:26:13.000+03:00
diff --git a/src/main/java/org/beehive/gpullama3/api/controller/ChatController.java b/src/main/java/org/beehive/gpullama3/api/controller/ChatController.java
@@ -50,8 +50,14 @@ public SseEmitter streamChat(@RequestBody ChatRequest request) {
         }
 
         SseEmitter emitter = new SseEmitter(Long.MAX_VALUE);
-        llmService.generateStreamingResponse(request.getMessage(), request.getSystemMessage(),
-                emitter, maxTokens, temperature, topP);
+        llmService.generateStreamingResponse(
+                request.getMessage(),
+                request.getSystemMessage(),
+                emitter,
+                maxTokens,
+                temperature,
+                topP,
+                request.getSeed());
 
         return emitter;
     }
diff --git a/src/main/java/org/beehive/gpullama3/api/service/LLMService.java b/src/main/java/org/beehive/gpullama3/api/service/LLMService.java
@@ -138,15 +138,6 @@ public String generateResponse(String message, String systemMessage, int maxToke
         }
     }
 
-    public void generateStreamingResponse(String message, String systemMessage, SseEmitter emitter) {
-        generateStreamingResponse(message, systemMessage, emitter, 150, 0.7, 0.9);
-    }
-
-    public void generateStreamingResponse(String message, String systemMessage, SseEmitter emitter,
-            int maxTokens, double temperature, double topP) {
-        generateStreamingResponse(message, systemMessage, emitter, maxTokens, temperature, topP, null);
-    }
-
     public void generateStreamingResponse(String message, String systemMessage, SseEmitter emitter,
             int maxTokens, double temperature, double topP, Long seed) {
         CompletableFuture.runAsync(() -> {
@@ -170,11 +161,12 @@ public void generateStreamingResponse(String message, String systemMessage, SseE
                 promptTokens.addAll(chatFormat.encodeMessage(new ChatFormat.Message(ChatFormat.Role.USER, message)));
                 promptTokens.addAll(chatFormat.encodeHeader(new ChatFormat.Message(ChatFormat.Role.ASSISTANT, "")));
 
-                // Handle reasoning tokens for streaming
+                // Include reasoning for Deepseek-R1-Distill-Qwen
                 if (model.shouldIncludeReasoning()) {
                     List<Integer> thinkStartTokens = model.tokenizer().encode("<think>\n", model.tokenizer().getSpecialTokens().keySet());
                     promptTokens.addAll(thinkStartTokens);
-                    emitter.send(SseEmitter.event().data("<think>\n")); // Output immediately
+                    // We are in streaming, immediately output the think start
+                    emitter.send(SseEmitter.event().data("<think>\n"));
                 }
 
                 Set<Integer> stopTokens = chatFormat.getStopTokens();