TestOpenAiLlmObs::test_responses_create_tool_call

ygree · ygree · commit f5a9beab7de6 · 2025-12-09T14:02:49.000-08:00
diff --git a/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/OpenAiDecorator.java b/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/OpenAiDecorator.java
@@ -20,7 +20,12 @@
 import com.openai.models.embeddings.EmbeddingCreateParams;
 import com.openai.models.responses.Response;
 import com.openai.models.responses.ResponseCreateParams;
+import com.openai.models.responses.ResponseFunctionToolCall;
+import com.openai.models.responses.ResponseOutputItem;
+import com.openai.models.responses.ResponseOutputMessage;
+import com.openai.models.responses.ResponseOutputText;
 import com.openai.models.responses.ResponseStreamEvent;
+import com.openai.models.responses.ResponseUsage;
 import datadog.trace.api.DDSpanId;
 import datadog.trace.api.llmobs.LLMObs;
 import datadog.trace.api.llmobs.LLMObsContext;
@@ -348,7 +353,8 @@ public void withCreateEmbeddingResponse(AgentSpan span, CreateEmbeddingResponse
     }
   }
 
-  public void withResponseCreateParams(AgentSpan span, ResponseCreateParams params) {
+  public void withResponseCreateParams(
+      AgentSpan span, ResponseCreateParams params, boolean stream) {
     span.setTag("_ml_obs_tag.span.kind", Tags.LLMOBS_LLM_SPAN_KIND);
     span.setResourceName(RESPONSES_CREATE);
     span.setTag("openai.request.endpoint", "v1/responses");
@@ -360,12 +366,77 @@ public void withResponseCreateParams(AgentSpan span, ResponseCreateParams params
     // ResponsesModel to Optional<ResponsesModel> in
     // https://github.com/openai/openai-java/commit/87dd64658da6cec7564f3b571e15ec0e2db0660b
     span.setTag(REQUEST_MODEL, extractResponseModel(params._model()));
+
+    Optional<String> textOpt = params._input().asString();
+    if (textOpt.isPresent()) {
+      LLMObs.LLMMessage msg = LLMObs.LLMMessage.from("user", textOpt.get());
+      span.setTag("_ml_obs_tag.input", Collections.singletonList(msg));
+    }
+
+    Map<String, Object> metadata = new HashMap<>();
+    params.maxOutputTokens().ifPresent(v -> metadata.put("max_tokens", v));
+    params.temperature().ifPresent(v -> metadata.put("temperature", v));
+    if (stream) {
+      metadata.put("stream", true);
+    }
+    span.setTag("_ml_obs_tag.metadata", metadata);
   }
 
   public void withResponse(AgentSpan span, Response response) {
-    span.setTag(RESPONSE_MODEL, extractResponseModel(response._model()));
+    String modelName = extractResponseModel(response._model());
+    span.setTag(RESPONSE_MODEL, modelName);
+    span.setTag("_ml_obs_tag.model_name", modelName);
+    span.setTag("_ml_obs_tag.model_provider", "openai");
 
-    // TODO set LLMObs tags
+    List<LLMObs.LLMMessage> outputMessages = extractResponseOutputMessages(response.output());
+    if (!outputMessages.isEmpty()) {
+      span.setTag("_ml_obs_tag.output", outputMessages);
+    }
+
+    response.usage().ifPresent(usage -> withResponseUsage(span, usage));
+  }
+
+  private List<LLMObs.LLMMessage> extractResponseOutputMessages(List<ResponseOutputItem> output) {
+    List<LLMObs.LLMMessage> messages = new ArrayList<>();
+    List<LLMObs.ToolCall> toolCalls = new ArrayList<>();
+    String textContent = null;
+
+    for (ResponseOutputItem item : output) {
+      if (item.isFunctionCall()) {
+        ResponseFunctionToolCall functionCall = item.asFunctionCall();
+        LLMObs.ToolCall toolCall = ToolCallExtractor.getToolCall(functionCall);
+        if (toolCall != null) {
+          toolCalls.add(toolCall);
+        }
+      } else if (item.isMessage()) {
+        ResponseOutputMessage message = item.asMessage();
+        textContent = extractMessageContent(message);
+      }
+    }
+
+    messages.add(LLMObs.LLMMessage.from("assistant", textContent, toolCalls));
+
+    return messages;
+  }
+
+  private String extractMessageContent(ResponseOutputMessage message) {
+    StringBuilder contentBuilder = new StringBuilder();
+    for (ResponseOutputMessage.Content content : message.content()) {
+      if (content.isOutputText()) {
+        ResponseOutputText outputText = content.asOutputText();
+        contentBuilder.append(outputText.text());
+      }
+    }
+    String result = contentBuilder.toString();
+    return result.isEmpty() ? null : result;
+  }
+
+  private static void withResponseUsage(AgentSpan span, ResponseUsage usage) {
+    span.setTag("_ml_obs_metric.input_tokens", usage.inputTokens());
+    span.setTag("_ml_obs_metric.output_tokens", usage.outputTokens());
+    span.setTag("_ml_obs_metric.total_tokens", usage.totalTokens());
+    span.setTag(
+        "_ml_obs_metric.cache_read_input_tokens", usage.inputTokensDetails().cachedTokens());
   }
 
   private String extractResponseModel(JsonField<ResponsesModel> model) {
@@ -396,11 +467,13 @@ private String extractResponseModel(JsonField<ResponsesModel> model) {
   }
 
   public void withResponseStreamEvent(AgentSpan span, List<ResponseStreamEvent> events) {
-    if (!events.isEmpty()) {
-      // ResponseStreamEvent responseStreamEvent = events.get(0);
-      // span.setTag(RESPONSE_MODEL, responseStreamEvent.res()); // TODO there is no model
+    // Find the completed event which contains the full response
+    for (ResponseStreamEvent event : events) {
+      if (event.isCompleted()) {
+        Response response = event.asCompleted().response();
+        withResponse(span, response);
+        return;
+      }
     }
-
-    // TODO set LLMObs tags
   }
 }
diff --git a/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/ResponseServiceAsyncInstrumentation.java b/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/ResponseServiceAsyncInstrumentation.java
@@ -52,7 +52,7 @@ public static AgentScope enter(
       AgentSpan span = startSpan(OpenAiDecorator.INSTRUMENTATION_NAME, OpenAiDecorator.SPAN_NAME);
       DECORATE.afterStart(span);
       DECORATE.withClientOptions(span, clientOptions);
-      DECORATE.withResponseCreateParams(span, params);
+      DECORATE.withResponseCreateParams(span, params, false);
       return activateSpan(span);
     }
 
@@ -86,7 +86,7 @@ public static AgentScope enter(
       AgentSpan span = startSpan(OpenAiDecorator.INSTRUMENTATION_NAME, OpenAiDecorator.SPAN_NAME);
       DECORATE.afterStart(span);
       DECORATE.withClientOptions(span, clientOptions);
-      DECORATE.withResponseCreateParams(span, params);
+      DECORATE.withResponseCreateParams(span, params, true);
       return activateSpan(span);
     }
 
diff --git a/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/ResponseServiceInstrumentation.java b/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/ResponseServiceInstrumentation.java
@@ -54,7 +54,7 @@ public static AgentScope enter(
       AgentSpan span = startSpan(OpenAiDecorator.INSTRUMENTATION_NAME, OpenAiDecorator.SPAN_NAME);
       DECORATE.afterStart(span);
       DECORATE.withClientOptions(span, clientOptions);
-      DECORATE.withResponseCreateParams(span, params);
+      DECORATE.withResponseCreateParams(span, params, false);
       return activateSpan(span);
     }
 
@@ -89,7 +89,7 @@ public static AgentScope enter(
       AgentSpan span = startSpan(OpenAiDecorator.INSTRUMENTATION_NAME, OpenAiDecorator.SPAN_NAME);
       DECORATE.afterStart(span);
       DECORATE.withClientOptions(span, clientOptions);
-      DECORATE.withResponseCreateParams(span, params);
+      DECORATE.withResponseCreateParams(span, params, true);
       return activateSpan(span);
     }
 
diff --git a/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/ToolCallExtractor.java b/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/main/java/datadog/trace/instrumentation/openai_java/ToolCallExtractor.java
@@ -4,6 +4,7 @@
 import com.fasterxml.jackson.databind.ObjectMapper;
 import com.openai.models.chat.completions.ChatCompletionMessageFunctionToolCall;
 import com.openai.models.chat.completions.ChatCompletionMessageToolCall;
+import com.openai.models.responses.ResponseFunctionToolCall;
 import datadog.trace.api.llmobs.LLMObs;
 import java.util.Collections;
 import java.util.Map;
@@ -29,24 +30,46 @@ public static LLMObs.ToolCall getToolCall(ChatCompletionMessageToolCall toolCall
       String name = function.name();
       String argumentsJson = function.arguments();
 
-      Map<String, Object> arguments;
-      try {
-        arguments = MAPPER.readValue(argumentsJson, MAP_TYPE_REF);
-      } catch (Exception e) {
-        log.debug("Failed to parse tool call arguments as JSON: {}", argumentsJson, e);
-        arguments = Collections.singletonMap("value", argumentsJson);
-      }
-
       String type = "function";
       Optional<String> typeOpt = functionToolCall._type().asString();
       if (typeOpt.isPresent()) {
         type = typeOpt.get();
       }
 
+      Map<String, Object> arguments = parseArguments(argumentsJson);
       return LLMObs.ToolCall.from(name, type, toolId, arguments);
     } catch (Exception e) {
       log.debug("Failed to extract tool call information", e);
     }
     return null;
   }
+
+  public static LLMObs.ToolCall getToolCall(ResponseFunctionToolCall functionCall) {
+    try {
+      String name = functionCall.name();
+      String callId = functionCall.callId();
+      String argumentsJson = functionCall.arguments();
+
+      String type = "function_call";
+      Optional<String> typeOpt = functionCall._type().asString();
+      if (typeOpt.isPresent()) {
+        type = typeOpt.get();
+      }
+
+      Map<String, Object> arguments = parseArguments(argumentsJson);
+      return LLMObs.ToolCall.from(name, type, callId, arguments);
+    } catch (Exception e) {
+      log.debug("Failed to extract tool call information", e);
+    }
+    return null;
+  }
+
+  private static Map<String, Object> parseArguments(String argumentsJson) {
+    try {
+      return MAPPER.readValue(argumentsJson, MAP_TYPE_REF);
+    } catch (Exception e) {
+      log.debug("Failed to parse tool call arguments as JSON: {}", argumentsJson, e);
+      return Collections.singletonMap("value", argumentsJson);
+    }
+  }
 }
diff --git a/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/test/groovy/ResponseServiceTest.groovy b/dd-java-agent/instrumentation/openai-java/openai-java-3.0/src/test/groovy/ResponseServiceTest.groovy
@@ -132,18 +132,25 @@ class ResponseServiceTest extends OpenAiTest {
           spanType DDSpanTypes.LLMOBS
           tags {
             "_ml_obs_tag.span.kind" "llm"
+            "_ml_obs_tag.model_provider" "openai"
+            "_ml_obs_tag.model_name" String
+            "_ml_obs_tag.metadata" Map
+            "_ml_obs_tag.output" List // TODO capture to validate tool calls
+            "_ml_obs_metric.input_tokens" Long
+            "_ml_obs_metric.output_tokens" Long
+            "_ml_obs_metric.total_tokens" Long
+            "_ml_obs_metric.cache_read_input_tokens" Long
             "_ml_obs_tag.parent_id" "undefined"
             "openai.request.method" "POST"
             "openai.request.endpoint" "v1/responses"
             "openai.api_base" openAiBaseApi
+            "$OpenAiDecorator.RESPONSE_MODEL" "gpt-3.5-turbo-0125"
             if (!isStreaming) {
               // TODO no limit headers when streaming
               "openai.organization.ratelimit.requests.limit" 10000
               "openai.organization.ratelimit.requests.remaining" Integer
               "openai.organization.ratelimit.tokens.limit" 50000000
               "openai.organization.ratelimit.tokens.remaining" Integer
-              // TODO no response model
-              "$OpenAiDecorator.RESPONSE_MODEL" "gpt-3.5-turbo-0125"
             }
             "$OpenAiDecorator.OPENAI_ORGANIZATION_NAME" "datadog-staging"
             "$OpenAiDecorator.REQUEST_MODEL" "gpt-3.5-turbo"