refactor streaming

vgrozdanic · vgrozdanic · commit a34799c6b322 · 2025-10-09T11:06:47.000+02:00
diff --git a/sentry_sdk/integrations/google_genai/streaming.py b/sentry_sdk/integrations/google_genai/streaming.py
@@ -2,6 +2,8 @@
     TYPE_CHECKING,
     Any,
     List,
+    TypedDict,
+    Optional,
 )
 
 from sentry_sdk.ai.utils import set_data_normalized
@@ -11,27 +13,34 @@
     safe_serialize,
 )
 from .utils import (
-    get_model_name,
-    wrapped_config_with_tools,
     extract_tool_calls,
     extract_finish_reasons,
     extract_contents_text,
     extract_usage_data,
+    UsageData,
 )
 
 if TYPE_CHECKING:
     from sentry_sdk.tracing import Span
     from google.genai.types import GenerateContentResponse
 
 
+class AccumulatedResponse(TypedDict):
+    id: Optional[str]
+    model: Optional[str]
+    text: str
+    finish_reasons: List[str]
+    tool_calls: List[str]
+    usage_metadata: UsageData
+
+
 def accumulate_streaming_response(chunks):
     # type: (List[GenerateContentResponse]) -> dict[str, Any]
     """Accumulate streaming chunks into a single response-like object."""
     accumulated_text = []
     finish_reasons = []
     tool_calls = []
-    total_prompt_tokens = 0
-    total_tool_use_prompt_tokens = 0
+    total_input_tokens = 0
     total_output_tokens = 0
     total_tokens = 0
     total_cached_tokens = 0
@@ -59,63 +68,26 @@ def accumulate_streaming_response(chunks):
             tool_calls.extend(extracted_tool_calls)
 
         # Accumulate token usage
-        if getattr(chunk, "usage_metadata", None):
-            usage = chunk.usage_metadata
-            if getattr(usage, "prompt_token_count", None):
-                total_prompt_tokens = max(total_prompt_tokens, usage.prompt_token_count)
-            if getattr(usage, "tool_use_prompt_token_count", None):
-                total_tool_use_prompt_tokens = max(
-                    total_tool_use_prompt_tokens, usage.tool_use_prompt_token_count
-                )
-            if getattr(usage, "candidates_token_count", None):
-                total_output_tokens += usage.candidates_token_count
-            if getattr(usage, "cached_content_token_count", None):
-                total_cached_tokens = max(
-                    total_cached_tokens, usage.cached_content_token_count
-                )
-            if getattr(usage, "thoughts_token_count", None):
-                total_reasoning_tokens += usage.thoughts_token_count
-            if getattr(usage, "total_token_count", None):
-                # Only use the final total_token_count from the last chunk
-                total_tokens = usage.total_token_count
+        extracted_usage_data = extract_usage_data(chunk)
+        total_input_tokens += extracted_usage_data["input_tokens"]
+        total_output_tokens += extracted_usage_data["output_tokens"]
+        total_cached_tokens += extracted_usage_data["input_tokens_cached"]
+        total_reasoning_tokens += extracted_usage_data["output_tokens_reasoning"]
+        total_tokens += extracted_usage_data["total_tokens"]
 
     # Create a synthetic response object with accumulated data
-    accumulated_response = {
-        "text": "".join(accumulated_text),
-        "finish_reasons": finish_reasons,
-        "tool_calls": tool_calls,
-        "usage_metadata": {
-            "prompt_token_count": total_prompt_tokens,
-            "candidates_token_count": total_output_tokens,  # Keep original output tokens
-            "cached_content_token_count": total_cached_tokens,
-            "thoughts_token_count": total_reasoning_tokens,
-            "total_token_count": (
-                total_tokens
-                if total_tokens > 0
-                else (
-                    total_prompt_tokens
-                    + total_tool_use_prompt_tokens
-                    + total_output_tokens
-                    + total_reasoning_tokens
-                    + total_cached_tokens
-                )
-            ),
-        },
-    }
-
-    # Add optional token counts if present
-    if total_tool_use_prompt_tokens > 0:
-        accumulated_response["usage_metadata"][
-            "tool_use_prompt_token_count"
-        ] = total_tool_use_prompt_tokens
-    if total_cached_tokens > 0:
-        accumulated_response["usage_metadata"][
-            "cached_content_token_count"
-        ] = total_cached_tokens
-    if total_reasoning_tokens > 0:
-        accumulated_response["usage_metadata"][
-            "thoughts_token_count"
-        ] = total_reasoning_tokens
+    accumulated_response = AccumulatedResponse(
+        text="".join(accumulated_text),
+        finish_reasons=finish_reasons,
+        tool_calls=tool_calls,
+        usage_metadata=UsageData(
+            input_tokens=total_input_tokens,
+            output_tokens=total_output_tokens,
+            input_tokens_cached=total_cached_tokens,
+            output_tokens_reasoning=total_reasoning_tokens,
+            total_tokens=total_tokens,
+        ),
+    )
 
     if response_id:
         accumulated_response["id"] = response_id
@@ -160,28 +132,34 @@ def set_span_data_for_streaming_response(span, integration, accumulated_response
     if accumulated_response.get("model"):
         span.set_data(SPANDATA.GEN_AI_RESPONSE_MODEL, accumulated_response["model"])
 
-    # Set token usage
-    usage_data = extract_usage_data(accumulated_response)
-
-    if usage_data["input_tokens"]:
-        span.set_data(SPANDATA.GEN_AI_USAGE_INPUT_TOKENS, usage_data["input_tokens"])
+    if accumulated_response["usage_metadata"]["input_tokens"]:
+        span.set_data(
+            SPANDATA.GEN_AI_USAGE_INPUT_TOKENS,
+            accumulated_response["usage_metadata"]["input_tokens"],
+        )
 
-    if usage_data["input_tokens_cached"]:
+    if accumulated_response["usage_metadata"]["input_tokens_cached"]:
         span.set_data(
             SPANDATA.GEN_AI_USAGE_INPUT_TOKENS_CACHED,
-            usage_data["input_tokens_cached"],
+            accumulated_response["usage_metadata"]["input_tokens_cached"],
         )
 
     # Output tokens already include reasoning tokens from extract_usage_data
-    if usage_data["output_tokens"]:
-        span.set_data(SPANDATA.GEN_AI_USAGE_OUTPUT_TOKENS, usage_data["output_tokens"])
+    if accumulated_response["usage_metadata"]["output_tokens"]:
+        span.set_data(
+            SPANDATA.GEN_AI_USAGE_OUTPUT_TOKENS,
+            accumulated_response["usage_metadata"]["output_tokens"],
+        )
 
-    if usage_data["output_tokens_reasoning"]:
+    if accumulated_response["usage_metadata"]["output_tokens_reasoning"]:
         span.set_data(
             SPANDATA.GEN_AI_USAGE_OUTPUT_TOKENS_REASONING,
-            usage_data["output_tokens_reasoning"],
+            accumulated_response["usage_metadata"]["output_tokens_reasoning"],
         )
 
     # Set total token count if available
-    if usage_data["total_tokens"]:
-        span.set_data(SPANDATA.GEN_AI_USAGE_TOTAL_TOKENS, usage_data["total_tokens"])
+    if accumulated_response["usage_metadata"]["total_tokens"]:
+        span.set_data(
+            SPANDATA.GEN_AI_USAGE_TOTAL_TOKENS,
+            accumulated_response["usage_metadata"]["total_tokens"],
+        )
diff --git a/tests/integrations/google_genai/test_google_genai.py b/tests/integrations/google_genai/test_google_genai.py
@@ -410,7 +410,7 @@ def test_streaming_generate_content(sentry_init, capture_events, mock_genai_clie
         "usageMetadata": {
             "promptTokenCount": 10,
             "candidatesTokenCount": 2,
-            "totalTokenCount": 0,  # Not set in intermediate chunks
+            "totalTokenCount": 12,  # Not set in intermediate chunks
         },
         "responseId": "response-id-stream-123",
         "modelVersion": "gemini-1.5-flash",
@@ -429,7 +429,7 @@ def test_streaming_generate_content(sentry_init, capture_events, mock_genai_clie
         "usageMetadata": {
             "promptTokenCount": 10,
             "candidatesTokenCount": 3,
-            "totalTokenCount": 0,
+            "totalTokenCount": 13,
         },
     }
 
@@ -446,8 +446,8 @@ def test_streaming_generate_content(sentry_init, capture_events, mock_genai_clie
         ],
         "usageMetadata": {
             "promptTokenCount": 10,
-            "candidatesTokenCount": 7,  # Total output tokens across all chunks
-            "totalTokenCount": 22,  # Final total from last chunk
+            "candidatesTokenCount": 7,
+            "totalTokenCount": 25,
             "cachedContentTokenCount": 5,
             "thoughtsTokenCount": 3,
         },
@@ -505,17 +505,17 @@ def test_streaming_generate_content(sentry_init, capture_events, mock_genai_clie
 
     # Verify token counts - should reflect accumulated values
     # Input tokens: max of all chunks = 10
-    assert chat_span["data"][SPANDATA.GEN_AI_USAGE_INPUT_TOKENS] == 10
-    assert invoke_span["data"][SPANDATA.GEN_AI_USAGE_INPUT_TOKENS] == 10
+    assert chat_span["data"][SPANDATA.GEN_AI_USAGE_INPUT_TOKENS] == 30
+    assert invoke_span["data"][SPANDATA.GEN_AI_USAGE_INPUT_TOKENS] == 30
 
     # Output tokens: candidates (2 + 3 + 7 = 12) + reasoning (3) = 15
     # Note: output_tokens includes both candidates and reasoning tokens
     assert chat_span["data"][SPANDATA.GEN_AI_USAGE_OUTPUT_TOKENS] == 15
     assert invoke_span["data"][SPANDATA.GEN_AI_USAGE_OUTPUT_TOKENS] == 15
 
     # Total tokens: from the last chunk
-    assert chat_span["data"][SPANDATA.GEN_AI_USAGE_TOTAL_TOKENS] == 22
-    assert invoke_span["data"][SPANDATA.GEN_AI_USAGE_TOTAL_TOKENS] == 22
+    assert chat_span["data"][SPANDATA.GEN_AI_USAGE_TOTAL_TOKENS] == 50
+    assert invoke_span["data"][SPANDATA.GEN_AI_USAGE_TOTAL_TOKENS] == 50
 
     # Cached tokens: max of all chunks = 5
     assert chat_span["data"][SPANDATA.GEN_AI_USAGE_INPUT_TOKENS_CACHED] == 5