Include thoughts tokens in output_tokens for Google models (#2634)

alexmojaki · web-flow · commit efbb1e7d25ef · 2025-08-21T12:46:54.000+01:00
diff --git a/pydantic_ai_slim/pydantic_ai/models/gemini.py b/pydantic_ai_slim/pydantic_ai/models/gemini.py
@@ -890,7 +890,7 @@ def _metadata_as_usage(response: _GeminiResponse) -> usage.RequestUsage:
 
     return usage.RequestUsage(
         input_tokens=metadata.get('prompt_token_count', 0),
-        output_tokens=metadata.get('candidates_token_count', 0),
+        output_tokens=metadata.get('candidates_token_count', 0) + thoughts_token_count,
         cache_read_tokens=cached_content_token_count,
         input_audio_tokens=input_audio_tokens,
         output_audio_tokens=output_audio_tokens,
diff --git a/pydantic_ai_slim/pydantic_ai/models/google.py b/pydantic_ai_slim/pydantic_ai/models/google.py
@@ -678,7 +678,7 @@ def _metadata_as_usage(response: GenerateContentResponse) -> usage.RequestUsage:
     if cached_content_token_count := metadata.cached_content_token_count:
         details['cached_content_tokens'] = cached_content_token_count
 
-    if thoughts_token_count := metadata.thoughts_token_count:
+    if thoughts_token_count := (metadata.thoughts_token_count or 0):
         details['thoughts_tokens'] = thoughts_token_count
 
     if tool_use_prompt_token_count := metadata.tool_use_prompt_token_count:
@@ -711,7 +711,7 @@ def _metadata_as_usage(response: GenerateContentResponse) -> usage.RequestUsage:
 
     return usage.RequestUsage(
         input_tokens=metadata.prompt_token_count or 0,
-        output_tokens=metadata.candidates_token_count or 0,
+        output_tokens=(metadata.candidates_token_count or 0) + thoughts_token_count,
         cache_read_tokens=cached_content_token_count or 0,
         input_audio_tokens=input_audio_tokens,
         output_audio_tokens=output_audio_tokens,
diff --git a/tests/models/test_gemini.py b/tests/models/test_gemini.py
@@ -1230,7 +1230,7 @@ async def get_image() -> BinaryContent:
                     ToolCallPart(tool_name='get_image', args={}, tool_call_id=IsStr()),
                 ],
                 usage=RequestUsage(
-                    input_tokens=38, output_tokens=28, details={'thoughts_tokens': 361, 'text_prompt_tokens': 38}
+                    input_tokens=38, output_tokens=389, details={'thoughts_tokens': 361, 'text_prompt_tokens': 38}
                 ),
                 model_name='gemini-2.5-pro-preview-03-25',
                 timestamp=IsDatetime(),
@@ -1257,7 +1257,7 @@ async def get_image() -> BinaryContent:
                 parts=[TextPart(content='The image shows a kiwi fruit, sliced in half.')],
                 usage=RequestUsage(
                     input_tokens=360,
-                    output_tokens=11,
+                    output_tokens=212,
                     details={'thoughts_tokens': 201, 'text_prompt_tokens': 102, 'image_prompt_tokens': 258},
                 ),
                 model_name='gemini-2.5-pro-preview-03-25',
@@ -1570,7 +1570,7 @@ async def test_gemini_model_thinking_part(allow_model_requests: None, gemini_api
                     ),
                 ],
                 usage=RequestUsage(
-                    input_tokens=801, output_tokens=1519, details={'thoughts_tokens': 794, 'text_prompt_tokens': 801}
+                    input_tokens=801, output_tokens=2313, details={'thoughts_tokens': 794, 'text_prompt_tokens': 801}
                 ),
                 model_name='gemini-2.5-flash-preview-04-17',
                 timestamp=IsDatetime(),
@@ -1844,7 +1844,7 @@ def upcase(text: str) -> str:
                     )
                 ],
                 usage=RequestUsage(
-                    input_tokens=9, output_tokens=44, details={'thoughts_tokens': 545, 'text_prompt_tokens': 9}
+                    input_tokens=9, output_tokens=589, details={'thoughts_tokens': 545, 'text_prompt_tokens': 9}
                 ),
                 model_name='models/gemini-2.5-pro-preview-05-06',
                 timestamp=IsDatetime(),
@@ -2063,7 +2063,7 @@ async def get_user_country() -> str:
             ModelResponse(
                 parts=[ToolCallPart(tool_name='get_user_country', args={}, tool_call_id=IsStr())],
                 usage=RequestUsage(
-                    input_tokens=123, output_tokens=12, details={'thoughts_tokens': 318, 'text_prompt_tokens': 123}
+                    input_tokens=123, output_tokens=330, details={'thoughts_tokens': 318, 'text_prompt_tokens': 123}
                 ),
                 model_name='models/gemini-2.5-pro-preview-05-06',
                 timestamp=IsDatetime(),
@@ -2090,7 +2090,7 @@ async def get_user_country() -> str:
             ModelResponse(
                 parts=[TextPart(content='{"city": "Mexico City", "country": "Mexico"}')],
                 usage=RequestUsage(
-                    input_tokens=154, output_tokens=13, details={'thoughts_tokens': 94, 'text_prompt_tokens': 154}
+                    input_tokens=154, output_tokens=107, details={'thoughts_tokens': 94, 'text_prompt_tokens': 154}
                 ),
                 model_name='models/gemini-2.5-pro-preview-05-06',
                 timestamp=IsDatetime(),
@@ -2175,7 +2175,7 @@ def test_map_usage():
         RequestUsage(
             input_tokens=1,
             cache_read_tokens=9100,
-            output_tokens=2,
+            output_tokens=9502,
             input_audio_tokens=9200,
             cache_audio_read_tokens=9300,
             output_audio_tokens=9400,
diff --git a/tests/models/test_google.py b/tests/models/test_google.py
@@ -257,7 +257,7 @@ async def get_capital(country: str) -> str:
             ModelResponse(
                 parts=[ToolCallPart(tool_name='get_capital', args={'country': 'France'}, tool_call_id=IsStr())],
                 usage=RequestUsage(
-                    input_tokens=57, output_tokens=15, details={'thoughts_tokens': 155, 'text_prompt_tokens': 57}
+                    input_tokens=57, output_tokens=170, details={'thoughts_tokens': 155, 'text_prompt_tokens': 57}
                 ),
                 model_name='models/gemini-2.5-pro',
                 timestamp=IsDatetime(),
@@ -282,7 +282,7 @@ async def get_capital(country: str) -> str:
                     )
                 ],
                 usage=RequestUsage(
-                    input_tokens=104, output_tokens=22, details={'thoughts_tokens': 178, 'text_prompt_tokens': 104}
+                    input_tokens=104, output_tokens=200, details={'thoughts_tokens': 178, 'text_prompt_tokens': 104}
                 ),
                 model_name='models/gemini-2.5-pro',
                 timestamp=IsDatetime(),
@@ -943,7 +943,7 @@ async def test_google_model_thinking_part(allow_model_requests: None, google_pro
             ModelResponse(
                 parts=[IsInstance(ThinkingPart), IsInstance(TextPart)],
                 usage=RequestUsage(
-                    input_tokens=15, output_tokens=1041, details={'thoughts_tokens': 1647, 'text_prompt_tokens': 15}
+                    input_tokens=15, output_tokens=2688, details={'thoughts_tokens': 1647, 'text_prompt_tokens': 15}
                 ),
                 model_name='models/gemini-2.5-pro',
                 timestamp=IsDatetime(),
@@ -1352,7 +1352,7 @@ async def get_user_country() -> str:
             ModelResponse(
                 parts=[ToolCallPart(tool_name='get_user_country', args={}, tool_call_id=IsStr())],
                 usage=RequestUsage(
-                    input_tokens=49, output_tokens=12, details={'thoughts_tokens': 264, 'text_prompt_tokens': 49}
+                    input_tokens=49, output_tokens=276, details={'thoughts_tokens': 264, 'text_prompt_tokens': 49}
                 ),
                 model_name='models/gemini-2.5-pro',
                 timestamp=IsDatetime(),
@@ -1373,7 +1373,7 @@ async def get_user_country() -> str:
             ModelResponse(
                 parts=[TextPart(content='The largest city in Mexico is Mexico City.')],
                 usage=RequestUsage(
-                    input_tokens=80, output_tokens=9, details={'thoughts_tokens': 150, 'text_prompt_tokens': 80}
+                    input_tokens=80, output_tokens=159, details={'thoughts_tokens': 150, 'text_prompt_tokens': 80}
                 ),
                 model_name='models/gemini-2.5-pro',
                 timestamp=IsDatetime(),
@@ -1587,7 +1587,7 @@ async def get_user_country() -> str:
             ModelResponse(
                 parts=[ToolCallPart(tool_name='get_user_country', args={}, tool_call_id=IsStr())],
                 usage=RequestUsage(
-                    input_tokens=123, output_tokens=12, details={'thoughts_tokens': 132, 'text_prompt_tokens': 123}
+                    input_tokens=123, output_tokens=144, details={'thoughts_tokens': 132, 'text_prompt_tokens': 123}
                 ),
                 model_name='models/gemini-2.5-pro',
                 timestamp=IsDatetime(),
@@ -1615,7 +1615,7 @@ async def get_user_country() -> str:
             ModelResponse(
                 parts=[TextPart(content='{"city": "Mexico City", "country": "Mexico"}')],
                 usage=RequestUsage(
-                    input_tokens=154, output_tokens=13, details={'thoughts_tokens': 153, 'text_prompt_tokens': 154}
+                    input_tokens=154, output_tokens=166, details={'thoughts_tokens': 153, 'text_prompt_tokens': 154}
                 ),
                 model_name='models/gemini-2.5-pro',
                 timestamp=IsDatetime(),
@@ -1754,7 +1754,7 @@ def test_map_usage():
         RequestUsage(
             input_tokens=1,
             cache_read_tokens=9100,
-            output_tokens=2,
+            output_tokens=9502,
             input_audio_tokens=9200,
             cache_audio_read_tokens=9300,
             output_audio_tokens=9400,
diff --git a/tests/test_mcp.py b/tests/test_mcp.py
@@ -683,7 +683,7 @@ async def test_tool_returning_audio_resource(
                 ModelResponse(
                     parts=[ToolCallPart(tool_name='get_audio_resource', args={}, tool_call_id=IsStr())],
                     usage=RequestUsage(
-                        input_tokens=383, output_tokens=12, details={'thoughts_tokens': 125, 'text_prompt_tokens': 383}
+                        input_tokens=383, output_tokens=137, details={'thoughts_tokens': 125, 'text_prompt_tokens': 383}
                     ),
                     model_name='models/gemini-2.5-pro-preview-05-06',
                     timestamp=IsDatetime(),
@@ -745,7 +745,7 @@ async def test_tool_returning_audio_resource_link(
                         ToolCallPart(tool_name='get_audio_resource_link', args={}, tool_call_id=IsStr()),
                     ],
                     usage=RequestUsage(
-                        input_tokens=561, output_tokens=41, details={'thoughts_tokens': 195, 'text_prompt_tokens': 561}
+                        input_tokens=561, output_tokens=236, details={'thoughts_tokens': 195, 'text_prompt_tokens': 561}
                     ),
                     model_name='models/gemini-2.5-pro',
                     timestamp=IsDatetime(),
diff --git a/uv.lock b/uv.lock