feat: add support for flexible pricing tiers in OpenAI models and update related components

mechanicmuthu · mechanicmuthu · commit d73dfed69902 · 2025-08-14T11:02:21.000+05:30
diff --git a/packages/types/src/model.ts b/packages/types/src/model.ts
@@ -54,6 +54,15 @@ export const modelInfoSchema = z.object({
 	outputPrice: z.number().optional(),
 	cacheWritesPrice: z.number().optional(),
 	cacheReadsPrice: z.number().optional(),
+	// Optional discounted pricing for flex service tier
+	flexPrice: z
+		.object({
+			inputPrice: z.number().optional(),
+			outputPrice: z.number().optional(),
+			cacheWritesPrice: z.number().optional(),
+			cacheReadsPrice: z.number().optional(),
+		})
+		.optional(),
 	description: z.string().optional(),
 	reasoningEffort: reasoningEffortsSchema.optional(),
 	minTokensPerCachePoint: z.number().optional(),
diff --git a/packages/types/src/provider-settings.ts b/packages/types/src/provider-settings.ts
@@ -91,6 +91,9 @@ const baseProviderSettingsSchema = z.object({
 
 	// Model verbosity.
 	verbosity: verbosityLevelsSchema.optional(),
+
+	// Service tier selection for providers that support tiered pricing (e.g. OpenAI flex tier)
+	serviceTier: z.enum(["auto", "default", "flex"]).optional(),
 })
 
 // Several of the providers share common model config properties.
diff --git a/packages/types/src/providers/openai.ts b/packages/types/src/providers/openai.ts
@@ -16,6 +16,11 @@ export const openAiNativeModels = {
 		inputPrice: 1.25,
 		outputPrice: 10.0,
 		cacheReadsPrice: 0.13,
+		flexPrice: {
+			inputPrice: 0.625,
+			outputPrice: 5.0,
+			cacheReadsPrice: 0.063,
+		},
 		description: "GPT-5: The best model for coding and agentic tasks across domains",
 		// supportsVerbosity is a new capability; ensure ModelInfo includes it
 		supportsVerbosity: true,
@@ -30,6 +35,11 @@ export const openAiNativeModels = {
 		inputPrice: 0.25,
 		outputPrice: 2.0,
 		cacheReadsPrice: 0.03,
+		flexPrice: {
+			inputPrice: 0.125,
+			outputPrice: 1.0,
+			cacheReadsPrice: 0.013,
+		},
 		description: "GPT-5 Mini: A faster, more cost-efficient version of GPT-5 for well-defined tasks",
 		supportsVerbosity: true,
 	},
@@ -43,6 +53,11 @@ export const openAiNativeModels = {
 		inputPrice: 0.05,
 		outputPrice: 0.4,
 		cacheReadsPrice: 0.01,
+		flexPrice: {
+			inputPrice: 0.025,
+			outputPrice: 0.2,
+			cacheReadsPrice: 0.003,
+		},
 		description: "GPT-5 Nano: Fastest, most cost-efficient version of GPT-5",
 		supportsVerbosity: true,
 	},
@@ -81,6 +96,11 @@ export const openAiNativeModels = {
 		inputPrice: 2.0,
 		outputPrice: 8.0,
 		cacheReadsPrice: 0.5,
+		flexPrice: {
+			inputPrice: 1.0,
+			outputPrice: 4.0,
+			cacheReadsPrice: 0.25,
+		},
 		supportsReasoningEffort: true,
 		reasoningEffort: "medium",
 	},
@@ -92,6 +112,11 @@ export const openAiNativeModels = {
 		inputPrice: 2.0,
 		outputPrice: 8.0,
 		cacheReadsPrice: 0.5,
+		flexPrice: {
+			inputPrice: 1.0,
+			outputPrice: 4.0,
+			cacheReadsPrice: 0.25,
+		},
 		reasoningEffort: "high",
 	},
 	"o3-low": {
@@ -102,6 +127,11 @@ export const openAiNativeModels = {
 		inputPrice: 2.0,
 		outputPrice: 8.0,
 		cacheReadsPrice: 0.5,
+		flexPrice: {
+			inputPrice: 1.0,
+			outputPrice: 4.0,
+			cacheReadsPrice: 0.25,
+		},
 		reasoningEffort: "low",
 	},
 	"o4-mini": {
@@ -112,6 +142,11 @@ export const openAiNativeModels = {
 		inputPrice: 1.1,
 		outputPrice: 4.4,
 		cacheReadsPrice: 0.275,
+		flexPrice: {
+			inputPrice: 0.55,
+			outputPrice: 2.2,
+			cacheReadsPrice: 0.138,
+		},
 		supportsReasoningEffort: true,
 		reasoningEffort: "medium",
 	},
@@ -123,6 +158,11 @@ export const openAiNativeModels = {
 		inputPrice: 1.1,
 		outputPrice: 4.4,
 		cacheReadsPrice: 0.275,
+		flexPrice: {
+			inputPrice: 0.55,
+			outputPrice: 2.2,
+			cacheReadsPrice: 0.138,
+		},
 		reasoningEffort: "high",
 	},
 	"o4-mini-low": {
@@ -133,6 +173,11 @@ export const openAiNativeModels = {
 		inputPrice: 1.1,
 		outputPrice: 4.4,
 		cacheReadsPrice: 0.275,
+		flexPrice: {
+			inputPrice: 0.55,
+			outputPrice: 2.2,
+			cacheReadsPrice: 0.138,
+		},
 		reasoningEffort: "low",
 	},
 	"o3-mini": {
diff --git a/src/api/providers/openai-native.ts b/src/api/providers/openai-native.ts
@@ -74,6 +74,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			totalOutputTokens,
 			cacheWriteTokens || 0,
 			cacheReadTokens || 0,
+			this.options.serviceTier,
 		)
 
 		return {
@@ -147,6 +148,9 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			stream: true,
 			stream_options: { include_usage: true },
 			...(reasoning && reasoning),
+			// Add service_tier parameter if configured and not "auto"
+			...(this.options.serviceTier &&
+				this.options.serviceTier !== "auto" && { service_tier: this.options.serviceTier }),
 		})
 
 		yield* this.handleStreamResponse(response, model)
@@ -276,6 +280,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			temperature?: number
 			max_output_tokens?: number
 			previous_response_id?: string
+			service_tier?: string
 		}
 
 		const requestBody: Gpt5RequestBody = {
@@ -296,6 +301,11 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			...(requestPreviousResponseId && { previous_response_id: requestPreviousResponseId }),
 		}
 
+		// Add service_tier parameter if configured and not "auto"
+		if (this.options.serviceTier && this.options.serviceTier !== "auto") {
+			requestBody.service_tier = this.options.serviceTier
+		}
+
 		try {
 			// Use the official SDK
 			const stream = (await (this.client as any).responses.create(requestBody)) as AsyncIterable<any>
diff --git a/src/api/providers/openai.ts b/src/api/providers/openai.ts
@@ -164,6 +164,14 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 				...(reasoning && reasoning),
 			}
 
+			if (this.options.serviceTier && this.options.serviceTier !== "auto") {
+				;(requestOptions as any).service_tier = this.options.serviceTier
+				console.log("[DEBUG] Setting service_tier parameter:", this.options.serviceTier)
+				console.log("[DEBUG] Full request options:", JSON.stringify(requestOptions, null, 2))
+			} else {
+				console.log("[DEBUG] Service tier not set or is 'auto'. Current value:", this.options.serviceTier)
+			}
+
 			// Add max_tokens if needed
 			this.addMaxTokensIfNeeded(requestOptions, modelInfo)
 
@@ -226,6 +234,14 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 						: [systemMessage, ...convertToOpenAiMessages(messages)],
 			}
 
+			if (this.options.serviceTier && this.options.serviceTier !== "auto") {
+				;(requestOptions as any).service_tier = this.options.serviceTier
+				console.log("[DEBUG] Setting service_tier parameter:", this.options.serviceTier)
+				console.log("[DEBUG] Full request options:", JSON.stringify(requestOptions, null, 2))
+			} else {
+				console.log("[DEBUG] Service tier not set or is 'auto'. Current value:", this.options.serviceTier)
+			}
+
 			// Add max_tokens if needed
 			this.addMaxTokensIfNeeded(requestOptions, modelInfo)
 
@@ -271,6 +287,14 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 				messages: [{ role: "user", content: prompt }],
 			}
 
+			if (this.options.serviceTier && this.options.serviceTier !== "auto") {
+				;(requestOptions as any).service_tier = this.options.serviceTier
+				console.log("[DEBUG] Setting service_tier parameter:", this.options.serviceTier)
+				console.log("[DEBUG] Full request options:", JSON.stringify(requestOptions, null, 2))
+			} else {
+				console.log("[DEBUG] Service tier not set or is 'auto'. Current value:", this.options.serviceTier)
+			}
+
 			// Add max_tokens if needed
 			this.addMaxTokensIfNeeded(requestOptions, modelInfo)
 
@@ -315,6 +339,14 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 				temperature: undefined,
 			}
 
+			if (this.options.serviceTier && this.options.serviceTier !== "auto") {
+				;(requestOptions as any).service_tier = this.options.serviceTier
+				console.log("[DEBUG] Setting service_tier parameter:", this.options.serviceTier)
+				console.log("[DEBUG] Full request options:", JSON.stringify(requestOptions, null, 2))
+			} else {
+				console.log("[DEBUG] Service tier not set or is 'auto'. Current value:", this.options.serviceTier)
+			}
+
 			// O3 family models do not support the deprecated max_tokens parameter
 			// but they do support max_completion_tokens (the modern OpenAI parameter)
 			// This allows O3 models to limit response length when includeMaxTokens is enabled
@@ -340,6 +372,14 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 				temperature: undefined,
 			}
 
+			if (this.options.serviceTier && this.options.serviceTier !== "auto") {
+				;(requestOptions as any).service_tier = this.options.serviceTier
+				console.log("[DEBUG] Setting service_tier parameter:", this.options.serviceTier)
+				console.log("[DEBUG] Full request options:", JSON.stringify(requestOptions, null, 2))
+			} else {
+				console.log("[DEBUG] Service tier not set or is 'auto'. Current value:", this.options.serviceTier)
+			}
+
 			// O3 family models do not support the deprecated max_tokens parameter
 			// but they do support max_completion_tokens (the modern OpenAI parameter)
 			// This allows O3 models to limit response length when includeMaxTokens is enabled
diff --git a/src/shared/cost.ts b/src/shared/cost.ts
@@ -40,13 +40,18 @@ export function calculateApiCostOpenAI(
 	outputTokens: number,
 	cacheCreationInputTokens?: number,
 	cacheReadInputTokens?: number,
+	serviceTier?: "auto" | "default" | "flex",
 ): number {
 	const cacheCreationInputTokensNum = cacheCreationInputTokens || 0
 	const cacheReadInputTokensNum = cacheReadInputTokens || 0
 	const nonCachedInputTokens = Math.max(0, inputTokens - cacheCreationInputTokensNum - cacheReadInputTokensNum)
 
+	// If flex tier selected and model exposes flexPrice, override pricing fields.
+	const pricingInfo =
+		serviceTier === "flex" && modelInfo.flexPrice ? { ...modelInfo, ...modelInfo.flexPrice } : modelInfo
+
 	return calculateApiCostInternal(
-		modelInfo,
+		pricingInfo,
 		nonCachedInputTokens,
 		outputTokens,
 		cacheCreationInputTokensNum,
diff --git a/src/utils/__tests__/cost.spec.ts b/src/utils/__tests__/cost.spec.ts
@@ -107,6 +107,12 @@ describe("Cost Utility", () => {
 			outputPrice: 15.0, // $15 per million tokens
 			cacheWritesPrice: 3.75, // $3.75 per million tokens
 			cacheReadsPrice: 0.3, // $0.30 per million tokens
+			flexPrice: {
+				inputPrice: 1.5,
+				outputPrice: 7.5,
+				cacheWritesPrice: 1.875,
+				cacheReadsPrice: 0.15,
+			},
 		}
 
 		it("should calculate basic input/output costs correctly", () => {
@@ -189,5 +195,21 @@ describe("Cost Utility", () => {
 			// Total: 0.003 + 0.0075 = 0.0105
 			expect(cost).toBe(0.0105)
 		})
+
+		it("should apply flex pricing when serviceTier=flex and flexPrice present", () => {
+			const costDefault = calculateApiCostOpenAI(mockModelInfo, 1000, 500, undefined, undefined, "default")
+			const costFlex = calculateApiCostOpenAI(mockModelInfo, 1000, 500, undefined, undefined, "flex")
+
+			// Default pricing: input (3 / 1e6 * 1000) + output (15 /1e6 * 500) = 0.0105
+			// Flex pricing: input (1.5 /1e6 * 1000) + output (7.5 /1e6 * 500) = 0.00525
+			expect(costDefault).toBeCloseTo(0.0105, 6)
+			expect(costFlex).toBeCloseTo(0.00525, 6)
+		})
+
+		it("should fall back to standard pricing if flex selected but no flexPrice", () => {
+			const noFlexModel: ModelInfo = { ...mockModelInfo, flexPrice: undefined }
+			const cost = calculateApiCostOpenAI(noFlexModel, 1000, 500, undefined, undefined, "flex")
+			expect(cost).toBeCloseTo(0.0105, 6)
+		})
 	})
 })
diff --git a/webview-ui/src/components/settings/ApiOptions.tsx b/webview-ui/src/components/settings/ApiOptions.tsx
@@ -94,6 +94,7 @@ import { ModelInfoView } from "./ModelInfoView"
 import { ApiErrorMessage } from "./ApiErrorMessage"
 import { ThinkingBudget } from "./ThinkingBudget"
 import { Verbosity } from "./Verbosity"
+import { ServiceTier } from "./ServiceTier"
 import { DiffSettingsControl } from "./DiffSettingsControl"
 import { TodoListSettingsControl } from "./TodoListSettingsControl"
 import { TemperatureControl } from "./TemperatureControl"
@@ -624,10 +625,18 @@ const ApiOptions = ({
 						modelInfo={selectedModelInfo}
 						isDescriptionExpanded={isDescriptionExpanded}
 						setIsDescriptionExpanded={setIsDescriptionExpanded}
+						serviceTier={apiConfiguration.serviceTier}
 					/>
 				</>
 			)}
 
+			{/* Service Tier - conditional on model supporting flex pricing */}
+			<ServiceTier
+				apiConfiguration={apiConfiguration}
+				setApiConfigurationField={setApiConfigurationField}
+				modelId={selectedModelId}
+			/>
+
 			<ThinkingBudget
 				key={`${selectedProvider}-${selectedModelId}`}
 				apiConfiguration={apiConfiguration}
diff --git a/webview-ui/src/components/settings/ModelInfoView.tsx b/webview-ui/src/components/settings/ModelInfoView.tsx
diff --git a/webview-ui/src/components/settings/ServiceTier.tsx b/webview-ui/src/components/settings/ServiceTier.tsx
diff --git a/webview-ui/src/i18n/locales/en/settings.json b/webview-ui/src/i18n/locales/en/settings.json
diff --git a/webview-ui/src/utils/formatPrice.ts b/webview-ui/src/utils/formatPrice.ts