Merge pull request #999 from mariofusco/jlama-log

geoand · web-flow · commit 4bbcc726001f · 2024-10-23T18:56:59.000+03:00
Add optional logging to jlama requests and responses
diff --git a/model-providers/jlama/runtime/src/main/java/io/quarkiverse/langchain4j/jlama/JlamaChatModel.java b/model-providers/jlama/runtime/src/main/java/io/quarkiverse/langchain4j/jlama/JlamaChatModel.java
@@ -8,12 +8,13 @@
 import java.util.Optional;
 import java.util.UUID;
 
+import org.jboss.logging.Logger;
+
 import com.github.tjake.jlama.model.AbstractModel;
 import com.github.tjake.jlama.model.functions.Generator;
 import com.github.tjake.jlama.safetensors.DType;
 import com.github.tjake.jlama.safetensors.prompt.PromptContext;
 import com.github.tjake.jlama.safetensors.prompt.PromptSupport;
-import com.github.tjake.jlama.safetensors.prompt.Tool;
 import com.github.tjake.jlama.safetensors.prompt.ToolCall;
 import com.github.tjake.jlama.safetensors.prompt.ToolResult;
 import com.github.tjake.jlama.util.JsonSupport;
@@ -35,9 +36,14 @@
 import dev.langchain4j.model.output.TokenUsage;
 
 public class JlamaChatModel implements ChatLanguageModel {
+
+    private static final Logger log = Logger.getLogger(JlamaChatModel.class);
+
     private final AbstractModel model;
     private final Float temperature;
     private final Integer maxTokens;
+    private final Boolean logRequests;
+    private final Boolean logResponses;
 
     public JlamaChatModel(JlamaChatModelBuilder builder) {
 
@@ -46,21 +52,27 @@ public JlamaChatModel(JlamaChatModelBuilder builder) {
                 .withRetry(() -> registry.downloadModel(builder.modelName, Optional.ofNullable(builder.authToken)), 3);
 
         JlamaModel.Loader loader = jlamaModel.loader();
-        if (builder.quantizeModelAtRuntime != null && builder.quantizeModelAtRuntime)
+        if (builder.quantizeModelAtRuntime != null && builder.quantizeModelAtRuntime) {
             loader = loader.quantized();
+        }
 
-        if (builder.workingQuantizedType != null)
+        if (builder.workingQuantizedType != null) {
             loader = loader.workingQuantizationType(builder.workingQuantizedType);
+        }
 
-        if (builder.threadCount != null)
+        if (builder.threadCount != null) {
             loader = loader.threadCount(builder.threadCount);
+        }
 
-        if (builder.workingDirectory != null)
+        if (builder.workingDirectory != null) {
             loader = loader.workingDirectory(builder.workingDirectory);
+        }
 
         this.model = loader.load();
         this.temperature = builder.temperature == null ? 0.3f : builder.temperature;
         this.maxTokens = builder.maxTokens == null ? model.getConfig().contextLength : builder.maxTokens;
+        this.logRequests = builder.logRequests != null && builder.logRequests;
+        this.logResponses = builder.logResponses != null && builder.logResponses;
     }
 
     public static JlamaChatModelBuilder builder() {
@@ -74,9 +86,29 @@ public Response<AiMessage> generate(List<ChatMessage> messages) {
 
     @Override
     public Response<AiMessage> generate(List<ChatMessage> messages, List<ToolSpecification> toolSpecifications) {
-        if (model.promptSupport().isEmpty())
+        if (model.promptSupport().isEmpty()) {
             throw new UnsupportedOperationException("This model does not support chat generation");
+        }
+
+        if (logRequests) {
+            log.info("Request: " + messages);
+        }
+
+        PromptSupport.Builder promptBuilder = promptBuilder(messages);
+        Generator.Response r = model.generate(UUID.randomUUID(), promptContext(promptBuilder, toolSpecifications), temperature,
+                maxTokens, (token, time) -> {
+                });
+        Response<AiMessage> aiResponse = Response.from(aiMessageForResponse(r),
+                new TokenUsage(r.promptTokens, r.generatedTokens), toFinishReason(r.finishReason));
 
+        if (logResponses) {
+            log.info("Response: " + aiResponse);
+        }
+
+        return aiResponse;
+    }
+
+    private PromptSupport.Builder promptBuilder(List<ChatMessage> messages) {
         PromptSupport.Builder promptBuilder = model.promptSupport().get().builder();
 
         for (ChatMessage message : messages) {
@@ -86,17 +118,18 @@ public Response<AiMessage> generate(List<ChatMessage> messages, List<ToolSpecifi
                     StringBuilder finalMessage = new StringBuilder();
                     UserMessage userMessage = (UserMessage) message;
                     for (Content content : userMessage.contents()) {
-                        if (content.type() != ContentType.TEXT)
+                        if (content.type() != ContentType.TEXT) {
                             throw new UnsupportedOperationException("Unsupported content type: " + content.type());
-
+                        }
                         finalMessage.append(((TextContent) content).text());
                     }
                     promptBuilder.addUserMessage(finalMessage.toString());
                 }
                 case AI -> {
                     AiMessage aiMessage = (AiMessage) message;
-                    if (aiMessage.text() != null)
+                    if (aiMessage.text() != null) {
                         promptBuilder.addAssistantMessage(aiMessage.text());
+                    }
 
                     if (aiMessage.hasToolExecutionRequests())
                         for (ToolExecutionRequest toolExecutionRequest : aiMessage.toolExecutionRequests()) {
@@ -113,26 +146,26 @@ public Response<AiMessage> generate(List<ChatMessage> messages, List<ToolSpecifi
                 default -> throw new IllegalArgumentException("Unsupported message type: " + message.type());
             }
         }
+        return promptBuilder;
+    }
 
-        List<Tool> tools = toolSpecifications.stream().map(JlamaModel::toTool).toList();
-
-        PromptContext promptContext = tools.isEmpty() ? promptBuilder.build() : promptBuilder.build(tools);
-        Generator.Response r = model.generate(UUID.randomUUID(), promptContext, temperature, maxTokens, (token, time) -> {
-        });
+    private PromptContext promptContext(PromptSupport.Builder promptBuilder, List<ToolSpecification> toolSpecifications) {
+        return toolSpecifications.isEmpty() ? promptBuilder.build()
+                : promptBuilder.build(toolSpecifications.stream().map(JlamaModel::toTool).toList());
+    }
 
+    private AiMessage aiMessageForResponse(Generator.Response r) {
         if (r.finishReason == Generator.FinishReason.TOOL_CALL) {
             List<ToolExecutionRequest> toolCalls = r.toolCalls.stream().map(f -> ToolExecutionRequest.builder()
                     .name(f.getName())
                     .id(f.getId())
                     .arguments(JsonSupport.toJson(f.getParameters()))
                     .build()).toList();
 
-            return Response.from(AiMessage.from(toolCalls), new TokenUsage(r.promptTokens, r.generatedTokens),
-                    toFinishReason(r.finishReason));
+            return AiMessage.from(toolCalls);
         }
 
-        return Response.from(AiMessage.from(r.responseText), new TokenUsage(r.promptTokens, r.generatedTokens),
-                toFinishReason(r.finishReason));
+        return AiMessage.from(r.responseText);
     }
 
     @Override
@@ -152,6 +185,8 @@ public static class JlamaChatModelBuilder {
         private DType workingQuantizedType;
         private Float temperature;
         private Integer maxTokens;
+        private Boolean logRequests;
+        private Boolean logResponses;
 
         public JlamaChatModelBuilder modelCachePath(Optional<Path> modelCachePath) {
             this.modelCachePath = modelCachePath;
@@ -198,6 +233,16 @@ public JlamaChatModelBuilder maxTokens(Integer maxTokens) {
             return this;
         }
 
+        public JlamaChatModelBuilder logRequests(Boolean logRequests) {
+            this.logRequests = logRequests;
+            return this;
+        }
+
+        public JlamaChatModelBuilder logResponses(Boolean logResponses) {
+            this.logResponses = logResponses;
+            return this;
+        }
+
         public JlamaChatModel build() {
             return new JlamaChatModel(this);
         }
diff --git a/model-providers/jlama/runtime/src/main/java/io/quarkiverse/langchain4j/jlama/runtime/JlamaAiRecorder.java b/model-providers/jlama/runtime/src/main/java/io/quarkiverse/langchain4j/jlama/runtime/JlamaAiRecorder.java
@@ -35,12 +35,11 @@ public Supplier<ChatLanguageModel> chatModel(LangChain4jJlamaConfig runtimeConfi
                     .modelName(modelName)
                     .modelCachePath(fixedRuntimeConfig.modelsPath());
 
-            if (chatModelConfig.temperature().isPresent()) {
-                builder.temperature((float) chatModelConfig.temperature().getAsDouble());
-            }
-            if (chatModelConfig.maxTokens().isPresent()) {
-                builder.maxTokens(chatModelConfig.maxTokens().getAsInt());
-            }
+            jlamaConfig.logRequests().ifPresent(builder::logRequests);
+            jlamaConfig.logResponses().ifPresent(builder::logResponses);
+
+            chatModelConfig.temperature().ifPresent(temp -> builder.temperature((float) temp));
+            chatModelConfig.maxTokens().ifPresent(builder::maxTokens);
 
             return new Supplier<>() {
                 @Override
@@ -72,9 +71,8 @@ public Supplier<StreamingChatLanguageModel> streamingChatModel(LangChain4jJlamaC
                     .modelName(jlamaFixedRuntimeConfig.chatModel().modelName())
                     .modelCachePath(fixedRuntimeConfig.modelsPath());
 
-            if (chatModelConfig.temperature().isPresent()) {
-                builder.temperature((float) chatModelConfig.temperature().getAsDouble());
-            }
+            chatModelConfig.temperature().ifPresent(temp -> builder.temperature((float) temp));
+
             return new Supplier<>() {
                 @Override
                 public StreamingChatLanguageModel get() {
@@ -121,25 +119,15 @@ public EmbeddingModel get() {
 
     private LangChain4jJlamaConfig.JlamaConfig correspondingJlamaConfig(LangChain4jJlamaConfig runtimeConfig,
             String configName) {
-        LangChain4jJlamaConfig.JlamaConfig jlamaConfig;
-        if (NamedConfigUtil.isDefault(configName)) {
-            jlamaConfig = runtimeConfig.defaultConfig();
-        } else {
-            jlamaConfig = runtimeConfig.namedConfig().get(configName);
-        }
-        return jlamaConfig;
+        return NamedConfigUtil.isDefault(configName) ? runtimeConfig.defaultConfig()
+                : runtimeConfig.namedConfig().get(configName);
     }
 
     private LangChain4jJlamaFixedRuntimeConfig.JlamaConfig correspondingJlamaFixedRuntimeConfig(
             LangChain4jJlamaFixedRuntimeConfig runtimeConfig,
             String configName) {
-        LangChain4jJlamaFixedRuntimeConfig.JlamaConfig jlamaConfig;
-        if (NamedConfigUtil.isDefault(configName)) {
-            jlamaConfig = runtimeConfig.defaultConfig();
-        } else {
-            jlamaConfig = runtimeConfig.namedConfig().get(configName);
-        }
-        return jlamaConfig;
+        return NamedConfigUtil.isDefault(configName) ? runtimeConfig.defaultConfig()
+                : runtimeConfig.namedConfig().get(configName);
     }
 
 }
diff --git a/model-providers/jlama/runtime/src/main/java/io/quarkiverse/langchain4j/jlama/runtime/config/LangChain4jJlamaConfig.java b/model-providers/jlama/runtime/src/main/java/io/quarkiverse/langchain4j/jlama/runtime/config/LangChain4jJlamaConfig.java
@@ -3,7 +3,9 @@
 import static io.quarkus.runtime.annotations.ConfigPhase.RUN_TIME;
 
 import java.util.Map;
+import java.util.Optional;
 
+import io.quarkus.runtime.annotations.ConfigDocDefault;
 import io.quarkus.runtime.annotations.ConfigDocMapKey;
 import io.quarkus.runtime.annotations.ConfigDocSection;
 import io.quarkus.runtime.annotations.ConfigGroup;
@@ -46,5 +48,19 @@ interface JlamaConfig {
          */
         @WithDefault("true")
         Boolean enableIntegration();
+
+        /**
+         * Whether Jlama should log requests
+         */
+        @ConfigDocDefault("false")
+        @WithDefault("${quarkus.langchain4j.log-requests}")
+        Optional<Boolean> logRequests();
+
+        /**
+         * Whether Jlama client should log responses
+         */
+        @ConfigDocDefault("false")
+        @WithDefault("${quarkus.langchain4j.log-responses}")
+        Optional<Boolean> logResponses();
     }
 }