fix(gemini): gemini input token calculation when implicit cache is hit using langchain (#1451)

aablsk · web-flow · commit d233bc4557c9 · 2025-12-01T14:08:03.000+01:00
fix: gemini caching token calculation when using langchain

Currently:
When `input_modality_1` contains tokens, `input` token count is 0.
The cached token logic only subtracts cached tokens from `input`, when they should be subtracted from the `input_modality_1`.

Proposed fix:
Subtract `cache_tokens_details` from the corresponding `input_modality` in addition to subtracting from `input`.
diff --git a/langfuse/langchain/CallbackHandler.py b/langfuse/langchain/CallbackHandler.py
@@ -1175,6 +1175,9 @@ def _parse_usage_model(usage: Union[pydantic.BaseModel, dict]) -> Any:
                     if "input" in usage_model:
                         usage_model["input"] = max(0, usage_model["input"] - value)
 
+                    if f"input_modality_{item['modality']}" in usage_model:
+                        usage_model[f"input_modality_{item['modality']}"] = max(0, usage_model[f"input_modality_{item['modality']}"] - value)
+
     usage_model = {k: v for k, v in usage_model.items() if isinstance(v, int)}
 
     return usage_model if usage_model else None