OCI GenAi - Cohere tool history fix #391 (#431)

danielkec · web-flow · commit 5b5b542d1f78 · 2025-10-31T17:11:09.000+08:00
diff --git a/models/langchain4j-community-oci-genai/src/main/java/dev/langchain4j/community/model/oracle/oci/genai/BaseCohereChatModel.java b/models/langchain4j-community-oci-genai/src/main/java/dev/langchain4j/community/model/oracle/oci/genai/BaseCohereChatModel.java
@@ -11,7 +11,6 @@
 import com.oracle.bmc.generativeaiinference.model.CohereResponseFormat;
 import com.oracle.bmc.generativeaiinference.model.CohereResponseJsonFormat;
 import com.oracle.bmc.generativeaiinference.model.CohereResponseTextFormat;
-import com.oracle.bmc.generativeaiinference.model.CohereSystemMessage;
 import com.oracle.bmc.generativeaiinference.model.CohereTool;
 import com.oracle.bmc.generativeaiinference.model.CohereToolCall;
 import com.oracle.bmc.generativeaiinference.model.CohereToolResult;
@@ -172,9 +171,11 @@ private CohereChatRequest.Builder map(ChatRequest chatRequest) {
                 }
                 case SYSTEM -> {
                     var systemMessage = (dev.langchain4j.data.message.SystemMessage) chatMessage;
-                    chatHistory.add(CohereSystemMessage.builder()
-                            .message(systemMessage.text())
-                            .build());
+                    // https://docs.cohere.com/v1/reference/chat
+                    // The chat_history parameter should not be used for SYSTEM messages in most cases.
+                    // Instead, to add a SYSTEM role message at the beginning of a conversation,
+                    // the preamble parameter should be used.
+                    builder.preambleOverride(systemMessage.text());
                 }
                 case AI -> {
                     var aiMessage = (dev.langchain4j.data.message.AiMessage) chatMessage;
@@ -184,19 +185,15 @@ private CohereChatRequest.Builder map(ChatRequest chatRequest) {
                     if (aiMessage.hasToolExecutionRequests()) {
                         var toolCalls = new ArrayList<CohereToolCall>();
                         for (ToolExecutionRequest toolExecReq : aiMessage.toolExecutionRequests()) {
-                            toolCalls.add(CohereToolCall.builder()
-                                    .name(toolExecReq.name())
-                                    .parameters(fromJson(toolExecReq.arguments(), Map.class))
-                                    .build());
+                            toolCalls.add(map(toolExecReq));
                         }
                         assistantMessageBuilder.toolCalls(toolCalls);
                     }
                     // https://docs.cohere.com/v1/reference/chat
-                    // Chat calls with tool_results should not be included in the Chat history
-                    // to avoid duplication of the message text.
-                    //                        chatHistory.add(assistantMessageBuilder
-                    //                                .message(aiMessage.text())
-                    //                                .build());
+                    // "Chat calls with tool_results should not be included in the Chat history
+                    // to avoid duplication of the message text."
+                    // BUT - sequential tool calls wouldn't work!
+                    chatHistory.add(assistantMessageBuilder.build());
                 }
                 default -> throw new UnsupportedOperationException("Unsupported message type: " + chatMessage.type());
             }
@@ -228,6 +225,13 @@ private CohereChatRequest.Builder map(ChatRequest chatRequest) {
         return builder;
     }
 
+    CohereToolCall map(ToolExecutionRequest toolExecReq) {
+        return CohereToolCall.builder()
+                .name(toolExecReq.name())
+                .parameters(fromJson(toolExecReq.arguments(), Map.class))
+                .build();
+    }
+
     CohereResponseFormat map(ResponseFormat responseFormat) {
         if (responseFormat == null) {
             return null;
diff --git a/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/CohereChatModelIT.java b/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/CohereChatModelIT.java
@@ -43,7 +43,7 @@ protected List<ChatModel> models() {
                 .authProvider(authProvider)
                 .region(Region.fromRegionCodeOrId(OCI_GENAI_MODEL_REGION))
                 .seed(TestEnvProps.SEED)
-                .maxTokens(600)
+                .maxTokens(1000)
                 .temperature(0.7)
                 .topP(1.0)
                 .build());
@@ -57,6 +57,7 @@ protected ChatModel createModelWith(final ChatRequestParameters parameters) {
                 .authProvider(authProvider)
                 .region(Region.fromRegionCodeOrId(OCI_GENAI_MODEL_REGION))
                 .seed(TestEnvProps.SEED)
+                .maxTokens(1000)
                 .defaultRequestParameters(parameters)
                 .build();
     }
@@ -105,6 +106,11 @@ protected boolean supportsSingleImageInputAsPublicURL() {
         return false;
     }
 
+    @Override
+    protected boolean supportsToolChoiceRequiredWithMultipleTools() {
+        return false;
+    }
+
     @Override
     protected boolean supportsToolChoiceRequiredWithSingleTool() {
         return false;
@@ -114,6 +120,14 @@ protected boolean assertResponseId() {
         return false;
     }
 
+    protected boolean assertTokenUsage() {
+        return false;
+    }
+
+    protected boolean supportsJsonResponseFormatWithRawSchema() {
+        return false;
+    }
+
     @Override
     @Disabled("Not supported by testing model")
     protected void should_execute_multiple_tools_in_parallel_then_answer(ChatModel model) {
diff --git a/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/CohereStreamingChatModelIT.java b/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/CohereStreamingChatModelIT.java
@@ -9,7 +9,9 @@
 import static dev.langchain4j.community.model.oracle.oci.genai.TestEnvProps.OCI_GENAI_COMPARTMENT_ID_PROPERTY;
 import static dev.langchain4j.community.model.oracle.oci.genai.TestEnvProps.OCI_GENAI_MODEL_REGION;
 import static dev.langchain4j.community.model.oracle.oci.genai.TestEnvProps.OCI_GENAI_MODEL_REGION_PROPERTY;
+import static org.mockito.ArgumentMatchers.any;
 import static org.mockito.ArgumentMatchers.anyString;
+import static org.mockito.Mockito.atLeast;
 import static org.mockito.Mockito.atLeastOnce;
 
 import com.oracle.bmc.Region;
@@ -82,10 +84,17 @@ protected ChatRequestParameters createIntegrationSpecificParameters(final int ma
 
     @Override
     protected void verifyToolCallbacks(StreamingChatResponseHandler handler, InOrder io, String id) {
+        io.verify(handler, atLeast(0)).onPartialResponse(any(), any());
         io.verify(handler, atLeastOnce()).onPartialResponse(anyString());
         io.verify(handler).onCompleteToolCall(complete(0, id, "getWeather", "{\"city\":\"Munich\"}"));
     }
 
+    @Override
+    protected void verifyToolCallbacks(StreamingChatResponseHandler handler, InOrder io, StreamingChatModel model) {
+        io.verify(handler, atLeastOnce()).onPartialResponse(anyString());
+        super.verifyToolCallbacks(handler, io, model);
+    }
+
     @Disabled("Know issue: response_format is not supported with RAG")
     @Override
     protected void should_execute_a_tool_then_answer_respecting_JSON_response_format_with_schema(StreamingChatModel m) {
@@ -150,6 +159,19 @@ protected boolean assertThreads() {
         return false;
     }
 
+    protected boolean assertTokenUsage() {
+        return false;
+    }
+
+    protected boolean supportsJsonResponseFormatWithRawSchema() {
+        return false;
+    }
+
+    @Override
+    protected boolean supportsStreamingCancellation() {
+        return false;
+    }
+
     @Override
     @Disabled("Not supported by testing model")
     protected void should_execute_multiple_tools_in_parallel_then_answer(StreamingChatModel model) {
diff --git a/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/CohereToolHistoryTest.java b/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/CohereToolHistoryTest.java
@@ -0,0 +1,169 @@
+package dev.langchain4j.community.model.oracle.oci.genai;
+
+import static dev.langchain4j.community.model.oracle.oci.genai.TestEnvProps.NON_EMPTY;
+import static dev.langchain4j.community.model.oracle.oci.genai.TestEnvProps.OCI_GENAI_COHERE_CHAT_MODEL_NAME_PROPERTY;
+import static dev.langchain4j.community.model.oracle.oci.genai.TestEnvProps.OCI_GENAI_COMPARTMENT_ID_PROPERTY;
+import static dev.langchain4j.community.model.oracle.oci.genai.TestEnvProps.OCI_GENAI_MODEL_REGION_PROPERTY;
+import static org.hamcrest.MatcherAssert.assertThat;
+import static org.hamcrest.Matchers.contains;
+import static org.hamcrest.Matchers.containsString;
+import static org.junit.jupiter.api.Assertions.fail;
+
+import com.oracle.bmc.Region;
+import com.oracle.bmc.auth.AuthenticationDetailsProvider;
+import com.oracle.bmc.generativeaiinference.GenerativeAiInferenceClient;
+import com.oracle.bmc.generativeaiinference.model.EmbedTextDetails;
+import com.oracle.bmc.generativeaiinference.model.OnDemandServingMode;
+import com.oracle.bmc.generativeaiinference.requests.EmbedTextRequest;
+import com.oracle.bmc.generativeaiinference.responses.EmbedTextResponse;
+import dev.langchain4j.agent.tool.P;
+import dev.langchain4j.agent.tool.Tool;
+import dev.langchain4j.agent.tool.ToolExecutionRequest;
+import dev.langchain4j.service.AiServices;
+import dev.langchain4j.service.Result;
+import dev.langchain4j.service.SystemMessage;
+import dev.langchain4j.service.UserMessage;
+import dev.langchain4j.service.V;
+import dev.langchain4j.service.tool.ToolExecution;
+import java.util.ArrayList;
+import java.util.List;
+import java.util.concurrent.CompletableFuture;
+import java.util.concurrent.ExecutionException;
+import java.util.concurrent.TimeUnit;
+import java.util.concurrent.TimeoutException;
+import java.util.concurrent.atomic.AtomicInteger;
+import java.util.stream.IntStream;
+import org.junit.jupiter.api.Test;
+import org.junit.jupiter.api.condition.EnabledIfEnvironmentVariable;
+import org.junit.jupiter.api.condition.EnabledIfEnvironmentVariables;
+import org.slf4j.Logger;
+import org.slf4j.LoggerFactory;
+
+@EnabledIfEnvironmentVariables({
+    @EnabledIfEnvironmentVariable(named = OCI_GENAI_MODEL_REGION_PROPERTY, matches = NON_EMPTY),
+    @EnabledIfEnvironmentVariable(named = OCI_GENAI_COMPARTMENT_ID_PROPERTY, matches = NON_EMPTY),
+    @EnabledIfEnvironmentVariable(named = OCI_GENAI_COHERE_CHAT_MODEL_NAME_PROPERTY, matches = NON_EMPTY)
+})
+public class CohereToolHistoryTest {
+
+    static final Logger LOGGER = LoggerFactory.getLogger(CohereToolHistoryTest.class);
+    static final AuthenticationDetailsProvider authProvider = TestEnvProps.createAuthProvider();
+    static final List<List<Float>> EMBEDDINGS = new ArrayList<>();
+    static final AtomicInteger EMBEDDINGS_SEQ = new AtomicInteger(0);
+
+    @Test
+    public void sequentialToolCalls() throws ExecutionException, InterruptedException, TimeoutException {
+        try (var model = OciGenAiCohereChatModel.builder()
+                .modelName(TestEnvProps.OCI_GENAI_COHERE_CHAT_MODEL_NAME)
+                .compartmentId(TestEnvProps.OCI_GENAI_COMPARTMENT_ID)
+                .region(Region.fromRegionCodeOrId(TestEnvProps.OCI_GENAI_MODEL_REGION))
+                .authProvider(authProvider)
+                .temperature(0.3)
+                .seed(TestEnvProps.SEED)
+                .maxTokens(4000)
+                .build()) {
+
+            var tools = new TestTools();
+
+            var embeddingAiService = AiServices.builder(TestEmbeddingAiService.class)
+                    .tools(tools)
+                    .toolExecutionErrorHandler((throwable, context) -> fail(throwable))
+                    .chatModel(model)
+                    .build();
+
+            var result = embeddingAiService.embed("It's bucketing down", "It's raining cats and dogs");
+            LOGGER.info("Result> {}", result.content());
+
+            assertThat(
+                    result.toolExecutions().stream()
+                            .map(ToolExecution::request)
+                            .map(ToolExecutionRequest::name)
+                            .toList(),
+                    contains("storeEmbedding", "storeEmbedding", "calculateCosineSimilarity"));
+
+            assertThat(result.content(), containsString(String.valueOf(tools.similarity.get(10, TimeUnit.SECONDS))));
+        }
+    }
+
+    interface TestEmbeddingAiService {
+
+        @SystemMessage(
+                """
+                You must use provided tool to calculate cosine similarity between the two embedding ids.
+                You must never calculate cosine similarity yourself, always use tool.
+                """)
+        @UserMessage(
+                """
+                Store embeddings of following two strings "{{firstEmbedString}}", "{{secondEmbedString}}"..
+                When you have two resulting embedding ids use them to calculate cosine similarity, use tool for that.
+                """)
+        Result<String> embed(
+                @V("firstEmbedString") String firstEmbedString, @V("secondEmbedString") String secondEmbedString);
+    }
+
+    static class TestTools {
+
+        CompletableFuture<Double> similarity = new CompletableFuture<>();
+        EmbeddingClient embeddingClient = new EmbeddingClient();
+
+        @Tool("Store embedding of an input in the embedding database. Return the result id of the stored embedding.")
+        int storeEmbedding(@P("String input for embeddings") String input) {
+            LOGGER.info("Storing embedding \"{}\"", input);
+            var nextId = EMBEDDINGS_SEQ.getAndIncrement();
+            EMBEDDINGS.add(nextId, embeddingClient.getEmbeddings(List.of(input)).get(0));
+            return nextId;
+        }
+
+        @Tool("Calculate cosine similarity between the two embeddings identified by provided ids.")
+        double calculateCosineSimilarity(@P("First embedding id") int id1, @P("Second embedding id") int id2) {
+            LOGGER.info("Computing similarity id1={} id2={}", id1, id2);
+            var similarity = getCosineSimilarity(EMBEDDINGS.get(id1), EMBEDDINGS.get(id2));
+            LOGGER.info("Computed similarity is {}", similarity);
+            this.similarity.complete(similarity);
+            return similarity;
+        }
+
+        public static double[] getL2Normed(List<Float> vector) {
+            var norm = (float) Math.sqrt(vector.stream().mapToDouble(e -> e * e).sum());
+            return vector.stream().mapToDouble(e -> e / norm).toArray();
+        }
+
+        public static double getCosineSimilarity(List<Float> vector1, List<Float> vector2) {
+            if (vector1.size() != vector2.size()) throw new RuntimeException("Vectors are having different size");
+
+            var vector1Normed = getL2Normed(vector1);
+            var vector2Normed = getL2Normed(vector2);
+
+            return IntStream.range(0, vector1.size())
+                    .mapToDouble(i -> vector1Normed[i] * vector2Normed[i])
+                    .sum();
+        }
+    }
+
+    public static class EmbeddingClient {
+        public EmbeddingClient() {}
+
+        public List<List<Float>> getEmbeddings(List<String> input) {
+            var clientBuilder = GenerativeAiInferenceClient.builder()
+                    .region(Region.fromRegionCodeOrId(TestEnvProps.OCI_GENAI_MODEL_REGION));
+
+            try (var embedClient = clientBuilder.build(authProvider)) {
+                EmbedTextDetails embedTextDetails = EmbedTextDetails.builder()
+                        .inputs(input)
+                        .compartmentId(TestEnvProps.OCI_GENAI_COMPARTMENT_ID)
+                        .servingMode(OnDemandServingMode.builder()
+                                .modelId("cohere.embed-v4.0")
+                                .build())
+                        .build();
+
+                EmbedTextRequest request = EmbedTextRequest.builder()
+                        .embedTextDetails(embedTextDetails)
+                        .build();
+                EmbedTextResponse response = embedClient.embedText(request);
+                return response.getEmbedTextResult().getEmbeddings();
+            } catch (Exception ex) {
+                throw new RuntimeException(ex);
+            }
+        }
+    }
+}
diff --git a/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/GenericStreamingChatModelIT.java b/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/GenericStreamingChatModelIT.java
@@ -167,6 +167,27 @@ protected boolean assertTokenUsage() {
         return false;
     }
 
+    @Override
+    protected boolean supportsStreamingCancellation() {
+        return false;
+    }
+
+    @Override
+    protected void verifyToolCallbacks(StreamingChatResponseHandler handler, InOrder io, StreamingChatModel model) {
+        // Some providers can talk before calling a tool. "atLeast(0)" is meant to ignore it.
+        io.verify(handler, atLeast(0)).onPartialResponse(any(), any());
+
+        if (supportsPartialToolStreaming(model)) {
+            io.verify(handler, atLeast(0)).onPartialToolCall(any());
+        }
+        io.verify(handler).onCompleteToolCall(any());
+    }
+
+    @Override
+    protected boolean supportsPartialToolStreaming(final StreamingChatModel model) {
+        return true;
+    }
+
     @Override
     @Disabled("Enable when token usage is supported by SDK")
     protected void should_respect_maxOutputTokens_in_default_model_parameters() {
diff --git a/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/GenericStreamingTest.java b/models/langchain4j-community-oci-genai/src/test/java/dev/langchain4j/community/model/oracle/oci/genai/GenericStreamingTest.java
@@ -96,7 +96,6 @@ void streamedText2() {
         var toolExecutionRequests = chatResponse.aiMessage().toolExecutionRequests();
         assertThat(toolExecutionRequests.size(), is(0));
         assertThat(chatResponse.aiMessage().text(), is("Hello "));
-        System.out.println(handler.partialResponses);
         assertThat(handler.partialResponses, contains("Hello "));
         assertThat(handler.completeResponses, contains("Hello "));
     }

Original file line number	Diff line number	Diff line change
`@@ -96,7 +96,6 @@ void streamedText2() {`
`96`	`96`	`var toolExecutionRequests = chatResponse.aiMessage().toolExecutionRequests();`
`97`	`97`	`assertThat(toolExecutionRequests.size(), is(0));`
`98`	`98`	`assertThat(chatResponse.aiMessage().text(), is("Hello "));`
`99`		`- System.out.println(handler.partialResponses);`
`100`	`99`	`assertThat(handler.partialResponses, contains("Hello "));`
`101`	`100`	`assertThat(handler.completeResponses, contains("Hello "));`
`102`	`101`	`}`