fix: add cache reporting support for OpenAI-Native provider

hannesrudolph · hannesrudolph · commit e8d4b5b9b68d · 2025-09-02T14:39:56.000-06:00
- Add normalizeUsage method to properly extract cache tokens from Responses API
- Support both detailed token shapes (input_tokens_details) and legacy fields
- Calculate cache read/write tokens with proper fallbacks
- Include reasoning tokens when available in output_tokens_details
- Ensure accurate cost calculation using uncached input tokens

This fixes the issue where caching information was not being reported
when using the OpenAI-Native provider with the Responses API.
diff --git a/src/api/providers/openai-native.ts b/src/api/providers/openai-native.ts
@@ -68,25 +68,46 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 
 		const totalInputTokens = usage.input_tokens ?? usage.prompt_tokens ?? 0
 		const totalOutputTokens = usage.output_tokens ?? usage.completion_tokens ?? 0
-		const cacheWriteTokens = usage.cache_creation_input_tokens ?? usage.cache_write_tokens ?? 0
-		const cacheReadTokens = usage.cache_read_input_tokens ?? usage.cache_read_tokens ?? usage.cached_tokens ?? 0
+
+		// Prefer detailed shapes when available (Responses API)
+		const inputDetails = (usage.input_tokens_details || usage.prompt_tokens_details) ?? undefined
+		const cachedFromDetails = typeof inputDetails?.cached_tokens === "number" ? inputDetails.cached_tokens : 0
+		const missFromDetails = typeof inputDetails?.cache_miss_tokens === "number" ? inputDetails.cache_miss_tokens : 0
+
+		const cacheWriteTokens = usage.cache_creation_input_tokens ?? usage.cache_write_tokens ?? missFromDetails ?? 0
+
+		const cacheReadTokens =
+			usage.cache_read_input_tokens ?? usage.cache_read_tokens ?? usage.cached_tokens ?? cachedFromDetails ?? 0
+
+		// Use uncached input tokens for costing to avoid double-counting with cache reads
+		const uncachedInputTokens =
+			typeof cacheReadTokens === "number" ? Math.max(0, totalInputTokens - cacheReadTokens) : totalInputTokens
 
 		const totalCost = calculateApiCostOpenAI(
 			model.info,
-			totalInputTokens,
+			uncachedInputTokens,
 			totalOutputTokens,
 			cacheWriteTokens || 0,
 			cacheReadTokens || 0,
 		)
 
-		return {
+		const reasoningTokens =
+			typeof usage.output_tokens_details?.reasoning_tokens === "number"
+				? usage.output_tokens_details.reasoning_tokens
+				: undefined
+
+		const out: ApiStreamUsageChunk = {
 			type: "usage",
+			// Keep inputTokens as TOTAL input to preserve correct context length,
+			// cost is computed with uncachedInputTokens above.
 			inputTokens: totalInputTokens,
 			outputTokens: totalOutputTokens,
 			cacheWriteTokens,
 			cacheReadTokens,
+			...(typeof reasoningTokens === "number" ? { reasoningTokens } : {}),
 			totalCost,
 		}
+		return out
 	}
 
 	private resolveResponseId(responseId: string | undefined): void {