reasoning

ygree · ygree · commit ac392515730a · 2025-12-12T22:46:04.000-08:00
diff --git a/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/OpenAiDecorator.java b/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/OpenAiDecorator.java
@@ -5,6 +5,7 @@
 import com.openai.core.http.Headers;
 import com.openai.core.http.HttpResponse;
 import com.openai.helpers.ChatCompletionAccumulator;
+import com.openai.models.Reasoning;
 import com.openai.models.ResponsesModel;
 import com.openai.models.chat.completions.ChatCompletion;
 import com.openai.models.chat.completions.ChatCompletionChunk;
@@ -24,7 +25,9 @@
 import com.openai.models.responses.ResponseOutputItem;
 import com.openai.models.responses.ResponseOutputMessage;
 import com.openai.models.responses.ResponseOutputText;
+import com.openai.models.responses.ResponseReasoningItem;
 import com.openai.models.responses.ResponseStreamEvent;
+import datadog.json.JsonWriter;
 import datadog.trace.api.DDSpanId;
 import datadog.trace.api.llmobs.LLMObs;
 import datadog.trace.api.llmobs.LLMObsContext;
@@ -366,21 +369,15 @@ public void withResponseCreateParams(AgentSpan span, ResponseCreateParams params
     String modelName = extractResponseModel(params._model());
     span.setTag(REQUEST_MODEL, modelName);
 
-    // Set model_name and model_provider as fallback (will be overridden by withResponse if called)
-    // span.setTag("_ml_obs_tag.model_name", modelName);
-    // span.setTag("_ml_obs_tag.model_provider", "openai");
-
     List<LLMObs.LLMMessage> inputMessages = new ArrayList<>();
 
-    // Add instructions as system message first (if present)
     params
         .instructions()
         .ifPresent(
             instructions -> {
               inputMessages.add(LLMObs.LLMMessage.from("system", instructions));
             });
 
-    // Add user input message
     Optional<String> textOpt = params._input().asString();
     if (textOpt.isPresent()) {
       inputMessages.add(LLMObs.LLMMessage.from("user", textOpt.get()));
@@ -389,6 +386,43 @@ public void withResponseCreateParams(AgentSpan span, ResponseCreateParams params
     if (!inputMessages.isEmpty()) {
       span.setTag("_ml_obs_tag.input", inputMessages);
     }
+
+    extractReasoningFromParams(params)
+        .ifPresent(reasoningMap -> span.setTag("_ml_obs_request.reasoning", reasoningMap));
+  }
+
+  private Optional<Map<String, String>> extractReasoningFromParams(ResponseCreateParams params) {
+    com.openai.core.JsonField<Reasoning> reasoningField = params._reasoning();
+    if (reasoningField.isMissing()) {
+      return Optional.empty();
+    }
+
+    Map<String, String> reasoningMap = new HashMap<>();
+
+    Optional<Reasoning> knownReasoning = reasoningField.asKnown();
+    if (knownReasoning.isPresent()) {
+      Reasoning reasoning = knownReasoning.get();
+      reasoning.effort().ifPresent(effort -> reasoningMap.put("effort", effort.asString()));
+      reasoning.summary().ifPresent(summary -> reasoningMap.put("summary", summary.asString()));
+    } else {
+      Optional<Map<String, com.openai.core.JsonValue>> rawObject = reasoningField.asObject();
+      if (rawObject.isPresent()) {
+        Map<String, com.openai.core.JsonValue> obj = rawObject.get();
+        com.openai.core.JsonValue effortVal = obj.get("effort");
+        if (effortVal != null) {
+          effortVal.asString().ifPresent(v -> reasoningMap.put("effort", String.valueOf(v)));
+        }
+        com.openai.core.JsonValue summaryVal = obj.get("summary");
+        if (summaryVal == null) {
+          summaryVal = obj.get("generate_summary");
+        }
+        if (summaryVal != null) {
+          summaryVal.asString().ifPresent(v -> reasoningMap.put("summary", String.valueOf(v)));
+        }
+      }
+    }
+
+    return reasoningMap.isEmpty() ? Optional.empty() : Optional.of(reasoningMap);
   }
 
   public void withResponse(AgentSpan span, Response response) {
@@ -423,11 +457,15 @@ private void withResponse(AgentSpan span, Response response, boolean stream) {
 
     Map<String, Object> metadata = new HashMap<>();
 
+    Object reasoningTag = span.getTag("_ml_obs_request.reasoning");
+    if (reasoningTag != null) {
+      metadata.put("reasoning", reasoningTag);
+    }
+
     response.maxOutputTokens().ifPresent(v -> metadata.put("max_output_tokens", v));
     response.temperature().ifPresent(v -> metadata.put("temperature", v));
     response.topP().ifPresent(v -> metadata.put("top_p", v));
 
-    // Extract tool_choice as string
     Response.ToolChoice toolChoice = response.toolChoice();
     if (toolChoice.isOptions()) {
       metadata.put("tool_choice", toolChoice.asOptions()._value().asString().orElse(null));
@@ -437,14 +475,12 @@ private void withResponse(AgentSpan span, Response response, boolean stream) {
       metadata.put("tool_choice", "function");
     }
 
-    // Extract truncation as string
     response
         .truncation()
         .ifPresent(
             (Response.Truncation t) ->
                 metadata.put("truncation", t._value().asString().orElse(null)));
 
-    // Extract text format
     response
         .text()
         .ifPresent(
@@ -491,24 +527,35 @@ private void withResponse(AgentSpan span, Response response, boolean stream) {
 
   private List<LLMObs.LLMMessage> extractResponseOutputMessages(List<ResponseOutputItem> output) {
     List<LLMObs.LLMMessage> messages = new ArrayList<>();
-    List<LLMObs.ToolCall> toolCalls = new ArrayList<>();
-    String textContent = null;
 
     for (ResponseOutputItem item : output) {
       if (item.isFunctionCall()) {
         ResponseFunctionToolCall functionCall = item.asFunctionCall();
         LLMObs.ToolCall toolCall = ToolCallExtractor.getToolCall(functionCall);
         if (toolCall != null) {
-          toolCalls.add(toolCall);
+          List<LLMObs.ToolCall> toolCalls = Collections.singletonList(toolCall);
+          messages.add(LLMObs.LLMMessage.from("assistant", null, toolCalls));
         }
       } else if (item.isMessage()) {
         ResponseOutputMessage message = item.asMessage();
-        textContent = extractMessageContent(message);
+        String textContent = extractMessageContent(message);
+        Optional<String> roleOpt = message._role().asString();
+        String role = roleOpt.orElse("assistant");
+        messages.add(LLMObs.LLMMessage.from(role, textContent));
+      } else if (item.isReasoning()) {
+        ResponseReasoningItem reasoning = item.asReasoning();
+        try (JsonWriter writer = new JsonWriter()) {
+          writer.beginObject();
+          if (!reasoning.summary().isEmpty()) {
+            writer.name("summary").value(reasoning.summary().get(0).text());
+          }
+          reasoning.encryptedContent().ifPresent(v -> writer.name("encrypted_content").value(v));
+          writer.name("id").value(reasoning.id());
+          writer.endObject();
+          messages.add(LLMObs.LLMMessage.from("reasoning", writer.toString()));
+        }
       }
     }
-
-    messages.add(LLMObs.LLMMessage.from("assistant", textContent, toolCalls));
-
     return messages;
   }
 
diff --git a/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/test/groovy/OpenAiTest.groovy b/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/test/groovy/OpenAiTest.groovy
@@ -9,12 +9,15 @@ import com.openai.core.JsonValue
 import com.openai.models.ChatModel
 import com.openai.models.FunctionDefinition
 import com.openai.models.FunctionParameters
+import com.openai.models.Reasoning
+import com.openai.models.ReasoningEffort
 import com.openai.models.chat.completions.ChatCompletionCreateParams
 import com.openai.models.chat.completions.ChatCompletionFunctionTool
 import com.openai.models.completions.CompletionCreateParams
 import com.openai.models.embeddings.EmbeddingCreateParams
 import com.openai.models.embeddings.EmbeddingModel
 import com.openai.models.responses.ResponseCreateParams
+import com.openai.models.responses.ResponseIncludable
 import datadog.trace.agent.test.server.http.TestHttpServer
 import datadog.trace.core.util.LRUCache
 import datadog.trace.llmobs.LlmObsSpecification
@@ -146,6 +149,23 @@ abstract class OpenAiTest extends LlmObsSpecification {
     .build()
   }
 
+  ResponseCreateParams responseCreateParamsWithReasoning(boolean json) {
+    if (json) {
+      return ResponseCreateParams.builder()
+      .model("o4-mini")
+      .input("If one plus a number is 10, what is the number?")
+      .include(Collections.singletonList(ResponseIncludable.REASONING_ENCRYPTED_CONTENT)) // TODO "include":["reasoning.encrypted_content"]
+      .reasoning(JsonValue.from([effort: "medium", summary: "detailed"]))
+      .build()
+    }
+    return ResponseCreateParams.builder()
+    .model("o4-mini")
+    .input("If one plus a number is 10, what is the number?")
+    .include(Collections.singletonList(ResponseIncludable.REASONING_ENCRYPTED_CONTENT))
+    .reasoning(Reasoning.builder().effort(ReasoningEffort.MEDIUM).summary(Reasoning.Summary.DETAILED).build())
+    .build()
+  }
+
   ChatCompletionCreateParams chatCompletionCreateParamsWithTools() {
     ChatCompletionCreateParams.builder()
     .model(ChatModel.GPT_4O_MINI)
diff --git a/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/test/groovy/ResponseServiceTest.groovy b/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/test/groovy/ResponseServiceTest.groovy
@@ -22,7 +22,7 @@ class ResponseServiceTest extends OpenAiTest {
     expect:
     resp != null
     and:
-    assertResponseTrace(false)
+    assertResponseTrace(false, "gpt-3.5-turbo", "gpt-3.5-turbo-0125", null)
   }
 
   def "create response test withRawResponse"() {
@@ -34,7 +34,7 @@ class ResponseServiceTest extends OpenAiTest {
     resp.statusCode() == 200
     resp.parse().valid // force response parsing, so it sets all the tags
     and:
-    assertResponseTrace(false)
+    assertResponseTrace(false, "gpt-3.5-turbo", "gpt-3.5-turbo-0125", null)
   }
 
   def "create streaming response test (#scenario)"() {
@@ -48,14 +48,31 @@ class ResponseServiceTest extends OpenAiTest {
     }
 
     expect:
-    assertResponseTrace(true)
+    assertResponseTrace(true, "gpt-3.5-turbo", "gpt-3.5-turbo-0125", null)
 
     where:
     scenario     | params
     "complete"   | responseCreateParams()
     "incomplete" | responseCreateParamsWithMaxOutputTokens()
   }
 
+  def "create streaming response test (reasoning)"() {
+    runnableUnderTrace("parent") {
+      StreamResponse<ResponseStreamEvent> streamResponse = openAiClient.responses().createStreaming(responseCreateParams)
+      try (Stream stream = streamResponse.stream()) {
+        stream.forEach {
+          // consume the stream
+        }
+      }
+    }
+
+    expect:
+    assertResponseTrace(true, "o4-mini", "o4-mini-2025-04-16", [effort: "medium",  summary: "detailed"])
+
+    where:
+    responseCreateParams << [responseCreateParamsWithReasoning(false), responseCreateParamsWithReasoning(true)]
+  }
+
   def "create streaming response test withRawResponse"() {
     runnableUnderTrace("parent") {
       HttpResponseFor<StreamResponse<ResponseStreamEvent>> streamResponse = openAiClient.responses().withRawResponse().createStreaming(responseCreateParams())
@@ -67,7 +84,7 @@ class ResponseServiceTest extends OpenAiTest {
     }
 
     expect:
-    assertResponseTrace(true)
+    assertResponseTrace(true, "gpt-3.5-turbo", "gpt-3.5-turbo-0125", null)
   }
 
   def "create async response test"() {
@@ -78,7 +95,7 @@ class ResponseServiceTest extends OpenAiTest {
     responseFuture.get()
 
     expect:
-    assertResponseTrace(false)
+    assertResponseTrace(false, "gpt-3.5-turbo", "gpt-3.5-turbo-0125", null)
   }
 
   def "create async response test withRawResponse"() {
@@ -90,7 +107,7 @@ class ResponseServiceTest extends OpenAiTest {
     resp.parse().valid // force response parsing, so it sets all the tags
 
     expect:
-    assertResponseTrace(false)
+    assertResponseTrace(false, "gpt-3.5-turbo", "gpt-3.5-turbo-0125", null)
   }
 
   def "create streaming async response test"() {
@@ -102,7 +119,7 @@ class ResponseServiceTest extends OpenAiTest {
     }
     asyncResp.onCompleteFuture().get()
     expect:
-    assertResponseTrace(true)
+    assertResponseTrace(true, "gpt-3.5-turbo", "gpt-3.5-turbo-0125", null)
   }
 
   def "create streaming async response test withRawResponse"() {
@@ -117,10 +134,10 @@ class ResponseServiceTest extends OpenAiTest {
     }
     expect:
     resp.statusCode() == 200
-    assertResponseTrace(true)
+    assertResponseTrace(true, "gpt-3.5-turbo", "gpt-3.5-turbo-0125", null)
   }
 
-  private void assertResponseTrace(boolean isStreaming) {
+  private void assertResponseTrace(boolean isStreaming, String reqModel, String respModel, Map reasoning) {
     assertTraces(1) {
       trace(3) {
         sortSpansByStart()
@@ -146,18 +163,21 @@ class ResponseServiceTest extends OpenAiTest {
             "_ml_obs_metric.total_tokens" Long
             "_ml_obs_metric.cache_read_input_tokens" Long
             "_ml_obs_tag.parent_id" "undefined"
+            if (reasoning != null) {
+              "_ml_obs_request.reasoning" reasoning
+            }
             "openai.request.method" "POST"
             "openai.request.endpoint" "v1/responses"
             "openai.api_base" openAiBaseApi
-            "$OpenAiDecorator.RESPONSE_MODEL" "gpt-3.5-turbo-0125"
+            "$OpenAiDecorator.RESPONSE_MODEL" respModel
             if (!isStreaming) {
               "openai.organization.ratelimit.requests.limit" 10000
               "openai.organization.ratelimit.requests.remaining" Integer
               "openai.organization.ratelimit.tokens.limit" 50000000
               "openai.organization.ratelimit.tokens.remaining" Integer
             }
             "$OpenAiDecorator.OPENAI_ORGANIZATION_NAME" "datadog-staging"
-            "$OpenAiDecorator.REQUEST_MODEL" "gpt-3.5-turbo"
+            "$OpenAiDecorator.REQUEST_MODEL" reqModel
             "$Tags.COMPONENT" "openai"
             "$Tags.SPAN_KIND" Tags.SPAN_KIND_CLIENT
             defaultTags()
diff --git a/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/test/resources/http-records/responses/cacab2d655cda645+7cb661ee9f414322.POST.rec b/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/test/resources/http-records/responses/cacab2d655cda645+7cb661ee9f414322.POST.rec