envoyproxy
diff --git a/‎internal/extproc/chatcompletion_processor.go‎
Lines changed: 20 additions & 24 deletions b/‎internal/extproc/chatcompletion_processor.go‎
Lines changed: 20 additions & 24 deletions
diff --git a/‎internal/extproc/chatcompletion_processor_test.go‎
Lines changed: 14 additions & 11 deletions b/‎internal/extproc/chatcompletion_processor_test.go‎
Lines changed: 14 additions & 11 deletions
diff --git a/‎internal/extproc/completions_processor.go‎
Lines changed: 6 additions & 10 deletions b/‎internal/extproc/completions_processor.go‎
Lines changed: 6 additions & 10 deletions
diff --git a/‎internal/extproc/completions_processor_test.go‎
Lines changed: 28 additions & 25 deletions b/‎internal/extproc/completions_processor_test.go‎
Lines changed: 28 additions & 25 deletions
diff --git a/‎internal/extproc/embeddings_processor.go‎
Lines changed: 3 additions & 5 deletions b/‎internal/extproc/embeddings_processor.go‎
Lines changed: 3 additions & 5 deletions
diff --git a/‎internal/extproc/embeddings_processor_test.go‎
Lines changed: 6 additions & 8 deletions b/‎internal/extproc/embeddings_processor_test.go‎
Lines changed: 6 additions & 8 deletions
@@ -189,7 +189,7 @@ type chatCompletionProcessorUpstreamFilter struct {
 	// onRetry is true if this is a retry request at the upstream filter.
 	onRetry bool
 	// cost is the cost of the request that is accumulated during the processing of the response.
-	costs translator.LLMTokenUsage
+	costs metrics.TokenUsage
 	// metrics tracking.
 	metrics metrics.Metrics
 	// stream is set to true if the request is a streaming request.
@@ -413,17 +413,8 @@ func (c *chatCompletionProcessorUpstreamFilter) ProcessResponseBody(ctx context.
 		},
 	}
 
-	// Update accumulated token usage.
-	// TODO: we need to investigate if we need to accumulate the token usage for streaming responses.
-	if c.stream {
-		// For streaming, translators report cumulative usage; keep the latest totals.
-		if tokenUsage != (translator.LLMTokenUsage{}) {
-			c.costs = tokenUsage
-		}
-	} else {
-		// Non-streaming: single-shot totals.
-		c.costs = tokenUsage
-	}
+	// Translator reports the latest cumulative token usage which we use to override existing costs.
+	c.costs.Override(tokenUsage)
 
 	// Set the response model for metrics
 	c.metrics.SetResponseModel(responseModel)
@@ -432,16 +423,17 @@ func (c *chatCompletionProcessorUpstreamFilter) ProcessResponseBody(ctx context.
 	if c.stream {
 		// Token latency is only recorded for streaming responses, otherwise it doesn't make sense since
 		// these metrics are defined as a difference between the two output events.
-		c.metrics.RecordTokenLatency(ctx, tokenUsage.OutputTokens, body.EndOfStream, c.requestHeaders)
+		out, _ := c.costs.OutputTokens()
+		c.metrics.RecordTokenLatency(ctx, out, body.EndOfStream, c.requestHeaders)
 		// Emit usage once at end-of-stream using final totals.
 		if body.EndOfStream {
-			c.metrics.RecordTokenUsage(ctx, metrics.OptUint32(c.costs.InputTokens), metrics.OptUint32(c.costs.CachedInputTokens), metrics.OptUint32(c.costs.OutputTokens), c.requestHeaders)
+			c.metrics.RecordTokenUsage(ctx, c.costs, c.requestHeaders)
 		}
 		// TODO: if c.forcedStreamOptionIncludeUsage is true, we should not include usage in the response body since
 		// that's what the clients would expect. However, it is a little bit tricky as we simply just reading the streaming
 		// chunk by chunk, we only want to drop a specific line before the last chunk.
 	} else {
-		c.metrics.RecordTokenUsage(ctx, metrics.OptUint32(tokenUsage.InputTokens), metrics.OptUint32(tokenUsage.CachedInputTokens), metrics.OptUint32(tokenUsage.OutputTokens), c.requestHeaders)
+		c.metrics.RecordTokenUsage(ctx, c.costs, c.requestHeaders)
 	}
 
 	if body.EndOfStream && len(c.config.RequestCosts) > 0 {
@@ -554,29 +546,33 @@ func buildContentLengthDynamicMetadataOnRequest(contentLength int) *structpb.Str
 // This function is called by the upstream filter only at the end of the stream (body.EndOfStream=true)
 // when the response is successfully completed. It is not called for failed requests or partial responses.
 // The metadata includes token usage costs and model information for downstream processing.
-func buildDynamicMetadata(config *filterapi.RuntimeConfig, costs *translator.LLMTokenUsage, requestHeaders map[string]string, backendName string) (*structpb.Struct, error) {
+func buildDynamicMetadata(config *filterapi.RuntimeConfig, costs *metrics.TokenUsage, requestHeaders map[string]string, backendName string) (*structpb.Struct, error) {
 	metadata := make(map[string]*structpb.Value, len(config.RequestCosts)+2)
 	for i := range config.RequestCosts {
 		rc := &config.RequestCosts[i]
 		var cost uint32
 		switch rc.Type {
 		case filterapi.LLMRequestCostTypeInputToken:
-			cost = costs.InputTokens
+			cost, _ = costs.InputTokens()
 		case filterapi.LLMRequestCostTypeCachedInputToken:
-			cost = costs.CachedInputTokens
+			cost, _ = costs.CachedInputTokens()
 		case filterapi.LLMRequestCostTypeOutputToken:
-			cost = costs.OutputTokens
+			cost, _ = costs.OutputTokens()
 		case filterapi.LLMRequestCostTypeTotalToken:
-			cost = costs.TotalTokens
+			cost, _ = costs.TotalTokens()
 		case filterapi.LLMRequestCostTypeCEL:
+			in, _ := costs.InputTokens()
+			cachedIn, _ := costs.CachedInputTokens()
+			out, _ := costs.OutputTokens()
+			total, _ := costs.TotalTokens()
 			costU64, err := llmcostcel.EvaluateProgram(
 				rc.CELProg,
 				requestHeaders[internalapi.ModelNameHeaderKeyDefault],
 				backendName,
-				costs.InputTokens,
-				costs.CachedInputTokens,
-				costs.OutputTokens,
-				costs.TotalTokens,
+				in,
+				cachedIn,
+				out,
+				total,
 			)
 			if err != nil {
 				return nil, fmt.Errorf("failed to evaluate CEL expression: %w", err)
 
@@ -25,9 +25,9 @@ import (
 	"github.com/envoyproxy/ai-gateway/internal/headermutator"
 	"github.com/envoyproxy/ai-gateway/internal/internalapi"
 	"github.com/envoyproxy/ai-gateway/internal/llmcostcel"
+	"github.com/envoyproxy/ai-gateway/internal/metrics"
 	"github.com/envoyproxy/ai-gateway/internal/testing/testotel"
 	tracing "github.com/envoyproxy/ai-gateway/internal/tracing/api"
-	"github.com/envoyproxy/ai-gateway/internal/translator"
 )
 
 func TestChatCompletion_Schema(t *testing.T) {
@@ -253,8 +253,10 @@ func Test_chatCompletionProcessorUpstreamFilter_ProcessResponseBody(t *testing.T
 		mt := &mockTranslator{
 			t: t, expResponseBody: inBody,
 			retHeaderMutation: []internalapi.Header{{"foo", "bar"}},
-			retUsedToken:      translator.LLMTokenUsage{OutputTokens: 123, InputTokens: 1, CachedInputTokens: 1},
 		}
+		mt.retUsedToken.SetOutputTokens(123)
+		mt.retUsedToken.SetInputTokens(1)
+		mt.retUsedToken.SetCachedInputTokens(1)
 
 		celProgInt, err := llmcostcel.NewProgram("54321")
 		require.NoError(t, err)
@@ -351,7 +353,7 @@ func Test_chatCompletionProcessorUpstreamFilter_ProcessResponseBody(t *testing.T
 		// First chunk (not end of stream) should not complete the request.
 		chunk := &extprocv3.HttpBody{Body: []byte("chunk-1"), EndOfStream: false}
 		mt.expResponseBody = chunk
-		mt.retUsedToken = translator.LLMTokenUsage{} // no usage yet in early chunks.
+		mt.retUsedToken = metrics.TokenUsage{} // no usage yet in early chunks.
 		_, err := p.ProcessResponseBody(t.Context(), chunk)
 		require.NoError(t, err)
 		mm.RequireRequestNotCompleted(t)
@@ -361,7 +363,10 @@ func Test_chatCompletionProcessorUpstreamFilter_ProcessResponseBody(t *testing.T
 		// Final chunk should mark success and record usage once.
 		final := &extprocv3.HttpBody{Body: []byte("chunk-final"), EndOfStream: true}
 		mt.expResponseBody = final
-		mt.retUsedToken = translator.LLMTokenUsage{InputTokens: 5, CachedInputTokens: 3, OutputTokens: 138, TotalTokens: 143}
+		mt.retUsedToken.SetInputTokens(5)
+		mt.retUsedToken.SetCachedInputTokens(3)
+		mt.retUsedToken.SetOutputTokens(138)
+		mt.retUsedToken.SetTotalTokens(143)
 		_, err = p.ProcessResponseBody(t.Context(), final)
 		require.NoError(t, err)
 		mm.RequireRequestSuccess(t)
@@ -811,15 +816,13 @@ func Test_ProcessResponseBody_UsesActualResponseModel(t *testing.T) {
 	// Create a mock translator that returns token usage with response model
 	// Simulating OpenAI's automatic routing where gpt-5-nano routes to gpt-5-nano-2025-08-07
 	mt := &mockTranslator{
-		t:              t,
-		expRequestBody: &body,
-		expHeaders:     map[string]string{":status": "200"},
-		retUsedToken: translator.LLMTokenUsage{
-			InputTokens:  10,
-			OutputTokens: 20,
-		},
+		t:                t,
+		expRequestBody:   &body,
+		expHeaders:       map[string]string{":status": "200"},
 		retResponseModel: "gpt-5-nano-2025-08-07",
 	}
+	mt.retUsedToken.SetInputTokens(10)
+	mt.retUsedToken.SetOutputTokens(20)
 
 	p := &chatCompletionProcessorUpstreamFilter{
 		config:                 &filterapi.RuntimeConfig{},
 
@@ -187,7 +187,7 @@ type completionsProcessorUpstreamFilter struct {
 	// See the comment on the `forcedStreamOptionIncludeUsage` field in the router filter.
 	forcedStreamOptionIncludeUsage bool
 	// cost is the cost of the request that is accumulated during the processing of the response.
-	costs translator.LLMTokenUsage
+	costs metrics.TokenUsage
 	// span is the tracing span for this request, inherited from the router filter.
 	span tracing.CompletionSpan
 	// metrics tracking.
@@ -395,23 +395,19 @@ func (c *completionsProcessorUpstreamFilter) ProcessResponseBody(ctx context.Con
 		},
 	}
 
-	// Accumulate token usage for completions.
-	c.costs.InputTokens += tokenUsage.InputTokens
-	c.costs.OutputTokens += tokenUsage.OutputTokens
-	c.costs.TotalTokens += tokenUsage.TotalTokens
+	c.costs.Override(tokenUsage)
 
 	// Record metrics.
 	if c.stream {
 		// Token latency is only recorded for streaming responses
-		c.metrics.RecordTokenLatency(ctx, tokenUsage.OutputTokens, body.EndOfStream, c.requestHeaders)
+		out, _ := c.costs.OutputTokens()
+		c.metrics.RecordTokenLatency(ctx, out, body.EndOfStream, c.requestHeaders)
 		// Emit usage once at end-of-stream using final totals.
 		if body.EndOfStream {
-			c.metrics.RecordTokenUsage(ctx,
-				metrics.OptUint32(c.costs.InputTokens), metrics.OptUint32None, metrics.OptUint32(c.costs.OutputTokens), c.requestHeaders)
+			c.metrics.RecordTokenUsage(ctx, c.costs, c.requestHeaders)
 		}
 	} else {
-		c.metrics.RecordTokenUsage(ctx,
-			metrics.OptUint32(tokenUsage.InputTokens), metrics.OptUint32None, metrics.OptUint32(tokenUsage.OutputTokens), c.requestHeaders)
+		c.metrics.RecordTokenUsage(ctx, c.costs, c.requestHeaders)
 	}
 
 	if body.EndOfStream && len(c.config.RequestCosts) > 0 {
 
@@ -24,8 +24,8 @@ import (
 	"github.com/envoyproxy/ai-gateway/internal/headermutator"
 	"github.com/envoyproxy/ai-gateway/internal/internalapi"
 	"github.com/envoyproxy/ai-gateway/internal/llmcostcel"
+	"github.com/envoyproxy/ai-gateway/internal/metrics"
 	tracing "github.com/envoyproxy/ai-gateway/internal/tracing/api"
-	"github.com/envoyproxy/ai-gateway/internal/translator"
 )
 
 func TestCompletions_Schema(t *testing.T) {
@@ -189,11 +189,9 @@ func Test_completionsProcessorUpstreamFilter_ProcessResponseBody(t *testing.T) {
 
 		mt.resHeaderMutation = []internalapi.Header{{"test", "success"}}
 		mt.resBodyMutation = []byte("response body")
-		mt.resTokenUsage = translator.LLMTokenUsage{
-			InputTokens:  10,
-			OutputTokens: 20,
-			TotalTokens:  30,
-		}
+		mt.resTokenUsage.SetInputTokens(10)
+		mt.resTokenUsage.SetOutputTokens(20)
+		mt.resTokenUsage.SetTotalTokens(30)
 		mt.resModel = "gpt-4"
 
 		resp, err := p.ProcessResponseBody(t.Context(), &extprocv3.HttpBody{Body: []byte("test"), EndOfStream: true})
@@ -209,10 +207,15 @@ func Test_completionsProcessorUpstreamFilter_ProcessResponseBody(t *testing.T) {
 		require.Equal(t, "success", string(re.ResponseBody.GetResponse().GetHeaderMutation().SetHeaders[0].Header.RawValue))
 		require.Equal(t, "response body", string(re.ResponseBody.GetResponse().GetBodyMutation().GetBody()))
 
-		// Check that costs were accumulated
-		require.Equal(t, uint32(10), p.costs.InputTokens)
-		require.Equal(t, uint32(20), p.costs.OutputTokens)
-		require.Equal(t, uint32(30), p.costs.TotalTokens)
+		in, ok := p.costs.InputTokens()
+		require.True(t, ok)
+		require.Equal(t, uint32(10), in)
+		out, ok := p.costs.OutputTokens()
+		require.True(t, ok)
+		require.Equal(t, uint32(20), out)
+		total, ok := p.costs.TotalTokens()
+		require.True(t, ok)
+		require.Equal(t, uint32(30), total)
 	})
 }
 
@@ -394,7 +397,7 @@ type mockCompletionTranslator struct {
 	resBodyMutation        []byte
 	resErrorHeaderMutation []internalapi.Header
 	resErrorBodyMutation   []byte
-	resTokenUsage          translator.LLMTokenUsage
+	resTokenUsage          metrics.TokenUsage
 	resModel               internalapi.ResponseModel
 	err                    error
 }
@@ -410,7 +413,7 @@ func (m *mockCompletionTranslator) ResponseHeaders(headers map[string]string) ([
 	return m.resHeaderMutation, m.err
 }
 
-func (m *mockCompletionTranslator) ResponseBody(map[string]string, io.Reader, bool, tracing.CompletionSpan) ([]internalapi.Header, []byte, translator.LLMTokenUsage, internalapi.ResponseModel, error) {
+func (m *mockCompletionTranslator) ResponseBody(map[string]string, io.Reader, bool, tracing.CompletionSpan) ([]internalapi.Header, []byte, metrics.TokenUsage, internalapi.ResponseModel, error) {
 	return m.resHeaderMutation, m.resBodyMutation, m.resTokenUsage, m.resModel, m.err
 }
 
@@ -608,15 +611,17 @@ func Test_completionsProcessorUpstreamFilter_ProcessResponseBody_Streaming(t *te
 		}
 		// First chunk (not end of stream) should not complete the request.
 		chunk := &extprocv3.HttpBody{Body: []byte("chunk-1"), EndOfStream: false}
-		mt.resTokenUsage = translator.LLMTokenUsage{} // no usage yet in early chunks.
+		mt.resTokenUsage = metrics.TokenUsage{} // no usage yet in early chunks.
 		_, err := p.ProcessResponseBody(t.Context(), chunk)
 		require.NoError(t, err)
 		mm.RequireRequestNotCompleted(t)
 		require.Zero(t, mm.streamingOutputTokens) // first chunk has 0 output tokens
 
 		// Final chunk should mark success and record usage once.
 		final := &extprocv3.HttpBody{Body: []byte("chunk-final"), EndOfStream: true}
-		mt.resTokenUsage = translator.LLMTokenUsage{InputTokens: 5, OutputTokens: 138, TotalTokens: 143}
+		mt.resTokenUsage.SetInputTokens(5)
+		mt.resTokenUsage.SetOutputTokens(138)
+		mt.resTokenUsage.SetTotalTokens(143)
 		_, err = p.ProcessResponseBody(t.Context(), final)
 		require.NoError(t, err)
 		mm.RequireRequestSuccess(t)
@@ -756,11 +761,9 @@ func Test_completionsProcessorUpstreamFilter_CELCostEvaluation(t *testing.T) {
 			t:                 t,
 			resBodyMutation:   expBody,
 			resHeaderMutation: []internalapi.Header{{"foo", "bar"}},
-			resTokenUsage: translator.LLMTokenUsage{
-				OutputTokens: 123,
-				InputTokens:  1,
-			},
 		}
+		mt.resTokenUsage.SetOutputTokens(123)
+		mt.resTokenUsage.SetInputTokens(1)
 
 		celProgInt, err := llmcostcel.NewProgram("54321")
 		require.NoError(t, err)
@@ -938,13 +941,12 @@ func Test_completionsProcessorUpstreamFilter_ModelTracking(t *testing.T) {
 		// Create a mock translator that returns token usage with response model
 		// Simulating OpenAI's automatic routing where gpt-3.5-turbo-instruct routes to gpt-3.5-turbo-instruct-0914
 		mt := &mockCompletionTranslator{
-			t: t,
-			resTokenUsage: translator.LLMTokenUsage{
-				InputTokens:  10,
-				OutputTokens: 20,
-			},
+			t:        t,
 			resModel: "gpt-3.5-turbo-instruct-0914",
 		}
+		mt.resTokenUsage.SetOutputTokens(20)
+		mt.resTokenUsage.SetInputTokens(10)
+
 		p := &completionsProcessorUpstreamFilter{
 			config:                 &filterapi.RuntimeConfig{},
 			requestHeaders:         headers,
@@ -1056,9 +1058,10 @@ func Test_completionsProcessorUpstreamFilter_StreamingTokenLatencyTracking(t *te
 			interTokenLatencyMs: 250.0,
 		}
 		mt := &mockCompletionTranslator{
-			t:             t,
-			resTokenUsage: translator.LLMTokenUsage{InputTokens: 5, OutputTokens: 20},
+			t: t,
 		}
+		mt.resTokenUsage.SetOutputTokens(20)
+		mt.resTokenUsage.SetInputTokens(5)
 
 		// Build config with token metadata
 		requestCosts := []filterapi.RuntimeRequestCost{
 
@@ -161,7 +161,7 @@ type embeddingsProcessorUpstreamFilter struct {
 	// onRetry is true if this is a retry request at the upstream filter.
 	onRetry bool
 	// cost is the cost of the request that is accumulated during the processing of the response.
-	costs translator.LLMTokenUsage
+	costs metrics.TokenUsage
 	// metrics tracking.
 	metrics metrics.Metrics
 	// span is the tracing span for this request, inherited from the router filter.
@@ -362,14 +362,12 @@ func (e *embeddingsProcessorUpstreamFilter) ProcessResponseBody(ctx context.Cont
 		},
 	}
 
-	// Accumulate token usage for embeddings (only input and total tokens are relevant).
-	e.costs.InputTokens += tokenUsage.InputTokens
-	e.costs.TotalTokens += tokenUsage.TotalTokens
+	e.costs.Override(tokenUsage)
 
 	e.metrics.SetResponseModel(responseModel)
 
 	// Update metrics with token usage.
-	e.metrics.RecordTokenUsage(ctx, metrics.OptUint32(tokenUsage.InputTokens), metrics.OptUint32None, metrics.OptUint32None, e.requestHeaders)
+	e.metrics.RecordTokenUsage(ctx, e.costs, e.requestHeaders)
 
 	if body.EndOfStream && len(e.config.RequestCosts) > 0 {
 		resp.DynamicMetadata, err = buildDynamicMetadata(e.config, &e.costs, e.requestHeaders, e.backendName)
 
@@ -24,7 +24,6 @@ import (
 	"github.com/envoyproxy/ai-gateway/internal/internalapi"
 	"github.com/envoyproxy/ai-gateway/internal/llmcostcel"
 	tracing "github.com/envoyproxy/ai-gateway/internal/tracing/api"
-	"github.com/envoyproxy/ai-gateway/internal/translator"
 )
 
 func TestEmbeddings_Schema(t *testing.T) {
@@ -150,8 +149,9 @@ func Test_embeddingsProcessorUpstreamFilter_ProcessResponseBody(t *testing.T) {
 		mt := &mockEmbeddingTranslator{
 			t: t, expResponseBody: inBody,
 			retBodyMutation: expBodyMut, retHeaderMutation: expHeadMut,
-			retUsedToken: translator.LLMTokenUsage{InputTokens: 123, TotalTokens: 123},
 		}
+		mt.retUsedToken.SetTotalTokens(123)
+		mt.retUsedToken.SetInputTokens(123)
 
 		celProgInt, err := llmcostcel.NewProgram("54321")
 		require.NoError(t, err)
@@ -403,14 +403,12 @@ func TestEmbeddings_ProcessResponseBody_OverridesHeaderModelWithResponseModel(t
 
 	// Create a mock translator that returns token usage with response model
 	mt := &mockEmbeddingTranslator{
-		t:              t,
-		expRequestBody: &body,
-		expHeaders:     map[string]string{":status": "200"},
-		retUsedToken: translator.LLMTokenUsage{
-			InputTokens: 15,
-		},
+		t:                t,
+		expRequestBody:   &body,
+		expHeaders:       map[string]string{":status": "200"},
 		retResponseModel: "actual-embedding-model",
 	}
+	mt.retUsedToken.SetInputTokens(15)
 
 	p := &embeddingsProcessorUpstreamFilter{
 		config:                 &filterapi.RuntimeConfig{},