Portkey-AI · narengogi · Oct 28, 2025 · Oct 28, 2025 · roh26it · Nov 4, 2025
diff --git a/src/providers/google-vertex-ai/chatComplete.ts b/src/providers/google-vertex-ai/chatComplete.ts
@@ -772,7 +772,15 @@ export const VertexAnthropicChatCompleteResponseTransform: (
   }
 
   if ('content' in response) {
-    const { input_tokens = 0, output_tokens = 0 } = response?.usage ?? {};
+    const {
+      input_tokens = 0,
+      output_tokens = 0,
+      cache_creation_input_tokens,
+      cache_read_input_tokens,
+    } = response?.usage ?? {};
+
+    const shouldSendCacheUsage =
+      cache_creation_input_tokens || cache_read_input_tokens;
 
     let content: AnthropicContentItem[] | string = strictOpenAiCompliance
       ? ''
@@ -827,7 +835,15 @@ export const VertexAnthropicChatCompleteResponseTransform: (
       usage: {
         prompt_tokens: input_tokens,
         completion_tokens: output_tokens,
-        total_tokens: input_tokens + output_tokens,
+        total_tokens:
+          input_tokens +
+          output_tokens +
+          (cache_creation_input_tokens ?? 0) +
+          (cache_read_input_tokens ?? 0),
+        ...(shouldSendCacheUsage && {
+          cache_read_input_tokens: cache_read_input_tokens,
+          cache_creation_input_tokens: cache_creation_input_tokens,
+        }),
       },
     };
   }
@@ -895,11 +911,20 @@ export const VertexAnthropicChatCompleteStreamChunkTransform: (
     );
   }
 
+  const shouldSendCacheUsage =
+    parsedChunk.message?.usage?.cache_read_input_tokens ||
+    parsedChunk.message?.usage?.cache_creation_input_tokens;
+
   if (parsedChunk.type === 'message_start' && parsedChunk.message?.usage) {
     streamState.model = parsedChunk?.message?.model ?? '';
-
     streamState.usage = {
-      prompt_tokens: parsedChunk.message.usage?.input_tokens,
+      prompt_tokens: parsedChunk.message?.usage?.input_tokens,
+      ...(shouldSendCacheUsage && {
+        cache_read_input_tokens:
+          parsedChunk.message?.usage?.cache_read_input_tokens,
+        cache_creation_input_tokens:
+          parsedChunk.message?.usage?.cache_creation_input_tokens,
+      }),
     };
     return (
       `data: ${JSON.stringify({
@@ -926,6 +951,11 @@ export const VertexAnthropicChatCompleteStreamChunkTransform: (
   }
 
   if (parsedChunk.type === 'message_delta' && parsedChunk.usage) {
+    const totalTokens =
+      (streamState?.usage?.prompt_tokens ?? 0) +
+      (streamState?.usage?.cache_creation_input_tokens ?? 0) +
+      (streamState?.usage?.cache_read_input_tokens ?? 0) +
+      (parsedChunk.usage.output_tokens ?? 0);
     return (
       `data: ${JSON.stringify({
         id: fallbackId,
@@ -945,10 +975,8 @@ export const VertexAnthropicChatCompleteStreamChunkTransform: (
         ],
         usage: {
           completion_tokens: parsedChunk.usage?.output_tokens,
-          prompt_tokens: streamState.usage?.prompt_tokens,
-          total_tokens:
-            (streamState.usage?.prompt_tokens || 0) +
-            (parsedChunk.usage?.output_tokens || 0),
+          ...streamState.usage,
+          total_tokens: totalTokens,
         },
       })}` + '\n\n'
     );