refactor(translator): reduce Anthropic SDK usage in main path (envoyproxy#1616)

mathetake · web-flow · commit 1b063468d664 · 2025-12-04T18:50:07.000Z
**Description** This reduces the Anthropic SDK usage in the translator package. **Related Issues/PRs (if applicable)** Related to envoyproxy#1611 --------- Signed-off-by: Takeshi Yoneda <t.y.mathetake@gmail.com>
diff --git a/internal/translator/anthropic_anthropic.go b/internal/translator/anthropic_anthropic.go
@@ -96,7 +96,13 @@ func (a *anthropicToAnthropicTranslator) ResponseBody(_ map[string]string, body
 	if err := json.NewDecoder(body).Decode(anthropicResp); err != nil {
 		return nil, nil, tokenUsage, responseModel, fmt.Errorf("failed to unmarshal body: %w", err)
 	}
-	tokenUsage = ExtractLLMTokenUsageFromUsage(anthropicResp.Usage)
+	tokenUsage = extractTokenUsageFromAnthropic(
+		anthropicResp.Usage.InputTokens,
+		anthropicResp.Usage.OutputTokens,
+		anthropicResp.Usage.CacheReadInputTokens,
+		anthropicResp.Usage.CacheCreationInputTokens,
+	)
+
 	responseModel = cmp.Or(internalapi.ResponseModel(anthropicResp.Model), a.requestModel)
 	return nil, nil, tokenUsage, responseModel, nil
 }
@@ -128,9 +134,21 @@ func (a *anthropicToAnthropicTranslator) extractUsageFromBufferEvent() (tokenUsa
 				a.streamingResponseModel = internalapi.ResponseModel(eventUnion.Message.Model)
 			}
 			// Extract usage from message_start event
-			tokenUsage = ExtractLLMTokenUsageFromUsage(eventUnion.Message.Usage)
+			usage := eventUnion.Message.Usage
+			tokenUsage = extractTokenUsageFromAnthropic(
+				usage.InputTokens,
+				usage.OutputTokens,
+				usage.CacheReadInputTokens,
+				usage.CacheCreationInputTokens,
+			)
 		case "message_delta":
-			tokenUsage = ExtractLLMTokenUsageFromDeltaUsage(eventUnion.Usage)
+			usage := eventUnion.Usage
+			tokenUsage = extractTokenUsageFromAnthropic(
+				usage.InputTokens,
+				usage.OutputTokens,
+				usage.CacheReadInputTokens,
+				usage.CacheCreationInputTokens,
+			)
 		}
 	}
 }
diff --git a/internal/translator/anthropic_usage.go b/internal/translator/anthropic_usage.go
@@ -6,18 +6,16 @@
 package translator
 
 import (
-	"github.com/anthropics/anthropic-sdk-go"
-
 	"github.com/envoyproxy/ai-gateway/internal/metrics"
 )
 
-// ExtractLLMTokenUsage extracts the correct token usage from Anthropic API response.
+// extractTokenUsageFromAnthropic extracts the correct token usage from Anthropic API response.
 // According to Claude API documentation, total input tokens is the summation of:
 // input_tokens + cache_creation_input_tokens + cache_read_input_tokens
 //
 // This function works for both streaming and non-streaming responses by accepting
 // the common usage fields that exist in all Anthropic usage structures.
-func ExtractLLMTokenUsage(inputTokens, outputTokens, cacheReadTokens, cacheCreationTokens int64) metrics.TokenUsage {
+func extractTokenUsageFromAnthropic(inputTokens, outputTokens, cacheReadTokens, cacheCreationTokens int64) metrics.TokenUsage {
 	// Calculate total input tokens as per Anthropic API documentation
 	totalInputTokens := inputTokens + cacheCreationTokens + cacheReadTokens
 
@@ -31,23 +29,3 @@ func ExtractLLMTokenUsage(inputTokens, outputTokens, cacheReadTokens, cacheCreat
 	usage.SetCachedInputTokens(uint32(totalCachedTokens))         //nolint:gosec
 	return usage
 }
-
-// ExtractLLMTokenUsageFromUsage extracts token usage from anthropic.Usage struct (non-streaming).
-func ExtractLLMTokenUsageFromUsage(usage anthropic.Usage) metrics.TokenUsage {
-	return ExtractLLMTokenUsage(
-		usage.InputTokens,
-		usage.OutputTokens,
-		usage.CacheReadInputTokens,
-		usage.CacheCreationInputTokens,
-	)
-}
-
-// ExtractLLMTokenUsageFromDeltaUsage extracts token usage from streaming message_delta events.
-func ExtractLLMTokenUsageFromDeltaUsage(usage anthropic.MessageDeltaUsage) metrics.TokenUsage {
-	return ExtractLLMTokenUsage(
-		usage.InputTokens,
-		usage.OutputTokens,
-		usage.CacheReadInputTokens,
-		usage.CacheCreationInputTokens,
-	)
-}
diff --git a/internal/translator/anthropic_usage_test.go b/internal/translator/anthropic_usage_test.go
@@ -94,7 +94,7 @@ func TestExtractLLMTokenUsage(t *testing.T) {
 
 	for _, tt := range tests {
 		t.Run(tt.name, func(t *testing.T) {
-			result := ExtractLLMTokenUsage(
+			result := extractTokenUsageFromAnthropic(
 				tt.inputTokens,
 				tt.outputTokens,
 				tt.cacheReadTokens,
@@ -165,7 +165,11 @@ func TestExtractLLMTokenUsageFromUsage(t *testing.T) {
 
 	for _, tt := range tests {
 		t.Run(tt.name, func(t *testing.T) {
-			result := ExtractLLMTokenUsageFromUsage(tt.usage)
+			result := extractTokenUsageFromAnthropic(tt.usage.InputTokens,
+				tt.usage.OutputTokens,
+				tt.usage.CacheReadInputTokens,
+				tt.usage.CacheCreationInputTokens,
+			)
 			expected := tokenUsageFrom(tt.expectedInputTokens, 0, tt.expectedOutputTokens, tt.expectedTotalTokens)
 			expected.SetCachedInputTokens(tt.expectedCachedTokens)
 			assert.Equal(t, expected, result)
@@ -225,7 +229,11 @@ func TestExtractLLMTokenUsageFromDeltaUsage(t *testing.T) {
 
 	for _, tt := range tests {
 		t.Run(tt.name, func(t *testing.T) {
-			result := ExtractLLMTokenUsageFromDeltaUsage(tt.usage)
+			result := extractTokenUsageFromAnthropic(tt.usage.InputTokens,
+				tt.usage.OutputTokens,
+				tt.usage.CacheReadInputTokens,
+				tt.usage.CacheCreationInputTokens,
+			)
 			expected := tokenUsageFrom(tt.expectedInputTokens, 0, tt.expectedOutputTokens, tt.expectedTotalTokens)
 			expected.SetCachedInputTokens(tt.expectedCachedTokens)
 			assert.Equal(t, expected, result)
@@ -238,7 +246,7 @@ func TestExtractLLMTokenUsage_EdgeCases(t *testing.T) {
 	t.Run("negative values should be handled", func(t *testing.T) {
 		// Note: In practice, the Anthropic API shouldn't return negative values,
 		// but our function should handle them gracefully by casting to uint32.
-		result := ExtractLLMTokenUsage(-10, -5, -2, -1)
+		result := extractTokenUsageFromAnthropic(-10, -5, -2, -1)
 
 		// Negative int64 values will wrap around when cast to uint32.
 		// This test documents current behavior rather than prescribing it.
@@ -249,7 +257,7 @@ func TestExtractLLMTokenUsage_EdgeCases(t *testing.T) {
 	t.Run("maximum int64 values", func(t *testing.T) {
 		// Test with very large values to ensure no overflow issues.
 		// Note: This will result in truncation when casting to uint32.
-		result := ExtractLLMTokenUsage(9223372036854775807, 1000, 500, 100)
+		result := extractTokenUsageFromAnthropic(9223372036854775807, 1000, 500, 100)
 		assert.NotNil(t, result)
 	})
 }
@@ -266,7 +274,7 @@ func TestExtractLLMTokenUsage_ClaudeAPIDocumentationCompliance(t *testing.T) {
 		cacheReadTokens := int64(30)
 		outputTokens := int64(50)
 
-		result := ExtractLLMTokenUsage(inputTokens, outputTokens, cacheReadTokens, cacheCreationTokens)
+		result := extractTokenUsageFromAnthropic(inputTokens, outputTokens, cacheReadTokens, cacheCreationTokens)
 
 		// Total input should be sum of all input token types.
 		expectedTotalInputInt := inputTokens + cacheCreationTokens + cacheReadTokens
diff --git a/internal/translator/openai_gcpanthropic.go b/internal/translator/openai_gcpanthropic.go
@@ -785,7 +785,13 @@ func (o *openAIToGCPAnthropicTranslatorV1ChatCompletion) ResponseBody(_ map[stri
 		Choices: make([]openai.ChatCompletionResponseChoice, 0),
 		Created: openai.JSONUNIXTime(time.Now()),
 	}
-	tokenUsage = ExtractLLMTokenUsageFromUsage(anthropicResp.Usage)
+	usage := anthropicResp.Usage
+	tokenUsage = extractTokenUsageFromAnthropic(
+		usage.InputTokens,
+		usage.OutputTokens,
+		usage.CacheReadInputTokens,
+		usage.CacheCreationInputTokens,
+	)
 	inputTokens, _ := tokenUsage.InputTokens()
 	outputTokens, _ := tokenUsage.OutputTokens()
 	totalTokens, _ := tokenUsage.TotalTokens()
diff --git a/internal/translator/openai_gcpanthropic_stream.go b/internal/translator/openai_gcpanthropic_stream.go
@@ -200,7 +200,13 @@ func (p *anthropicStreamParser) handleAnthropicStreamEvent(eventType []byte, dat
 		}
 		p.activeMessageID = event.Message.ID
 		p.created = openai.JSONUNIXTime(time.Now())
-		usage := ExtractLLMTokenUsageFromUsage(event.Message.Usage)
+		u := event.Message.Usage
+		usage := extractTokenUsageFromAnthropic(
+			u.InputTokens,
+			u.OutputTokens,
+			u.CacheReadInputTokens,
+			u.CacheCreationInputTokens,
+		)
 		// For message_start, we store the initial usage but don't add to the accumulated
 		// The message_delta event will contain the final totals
 		if input, ok := usage.InputTokens(); ok {
@@ -282,7 +288,13 @@ func (p *anthropicStreamParser) handleAnthropicStreamEvent(eventType []byte, dat
 		if err := json.Unmarshal(data, &event); err != nil {
 			return nil, fmt.Errorf("unmarshal message_delta: %w", err)
 		}
-		usage := ExtractLLMTokenUsageFromDeltaUsage(event.Usage)
+		u := event.Usage
+		usage := extractTokenUsageFromAnthropic(
+			u.InputTokens,
+			u.OutputTokens,
+			u.CacheReadInputTokens,
+			u.CacheCreationInputTokens,
+		)
 		// For message_delta, accumulate the incremental output tokens
 		if output, ok := usage.OutputTokens(); ok {
 			p.tokenUsage.AddOutputTokens(output)