fix: properly handle max_tokens deprecation for OpenAI models

AlexandruSmirnov · AlexandruSmirnov · commit 173883d9660f · 2025-06-10T10:17:07.000+03:00
- O3 family models (o3-mini, o3) do not support max_tokens parameter
- All other models use max_completion_tokens instead of deprecated max_tokens
- Remove unused isAzureAiInference parameter from addMaxTokensIfNeeded
- Update tests to reflect correct behavior for each model type

Per OpenAI docs: max_tokens is deprecated and not compatible with o-series models
diff --git a/src/api/providers/__tests__/openai.spec.ts b/src/api/providers/__tests__/openai.spec.ts
@@ -217,7 +217,7 @@ describe("OpenAiHandler", () => {
 			// Assert the mockCreate was called with max_tokens
 			expect(mockCreate).toHaveBeenCalled()
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs.max_tokens).toBe(4096)
+			expect(callArgs.max_completion_tokens).toBe(4096)
 		})
 
 		it("should not include max_tokens when includeMaxTokens is false", async () => {
@@ -238,7 +238,7 @@ describe("OpenAiHandler", () => {
 			// Assert the mockCreate was called without max_tokens
 			expect(mockCreate).toHaveBeenCalled()
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs.max_tokens).toBeUndefined()
+			expect(callArgs.max_completion_tokens).toBeUndefined()
 		})
 
 		it("should not include max_tokens when includeMaxTokens is undefined", async () => {
@@ -259,7 +259,7 @@ describe("OpenAiHandler", () => {
 			// Assert the mockCreate was called without max_tokens
 			expect(mockCreate).toHaveBeenCalled()
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs.max_tokens).toBeUndefined()
+			expect(callArgs.max_completion_tokens).toBeUndefined()
 		})
 
 		it("should use user-configured modelMaxTokens instead of model default maxTokens", async () => {
@@ -281,7 +281,7 @@ describe("OpenAiHandler", () => {
 			// Assert the mockCreate was called with user-configured modelMaxTokens (32000), not model default maxTokens (4096)
 			expect(mockCreate).toHaveBeenCalled()
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs.max_tokens).toBe(32000)
+			expect(callArgs.max_completion_tokens).toBe(32000)
 		})
 
 		it("should fallback to model default maxTokens when user modelMaxTokens is not set", async () => {
@@ -303,7 +303,7 @@ describe("OpenAiHandler", () => {
 			// Assert the mockCreate was called with model default maxTokens (4096) as fallback
 			expect(mockCreate).toHaveBeenCalled()
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs.max_tokens).toBe(4096)
+			expect(callArgs.max_completion_tokens).toBe(4096)
 		})
 	})
 
@@ -447,7 +447,7 @@ describe("OpenAiHandler", () => {
 
 			// Verify max_tokens is NOT included when includeMaxTokens is not set
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs).not.toHaveProperty("max_tokens")
+			expect(callArgs).not.toHaveProperty("max_completion_tokens")
 		})
 
 		it("should handle non-streaming responses with Azure AI Inference Service", async () => {
@@ -493,7 +493,7 @@ describe("OpenAiHandler", () => {
 
 			// Verify max_tokens is NOT included when includeMaxTokens is not set
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs).not.toHaveProperty("max_tokens")
+			expect(callArgs).not.toHaveProperty("max_completion_tokens")
 		})
 
 		it("should handle completePrompt with Azure AI Inference Service", async () => {
@@ -510,7 +510,7 @@ describe("OpenAiHandler", () => {
 
 			// Verify max_tokens is NOT included when includeMaxTokens is not set
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs).not.toHaveProperty("max_tokens")
+			expect(callArgs).not.toHaveProperty("max_completion_tokens")
 		})
 	})
 
@@ -566,7 +566,7 @@ describe("OpenAiHandler", () => {
 			},
 		}
 
-		it("should handle O3 model with streaming and include max_tokens when includeMaxTokens is true", async () => {
+		it("should handle O3 model with streaming and NOT include max_tokens even when includeMaxTokens is true", async () => {
 			const o3Handler = new OpenAiHandler({
 				...o3Options,
 				includeMaxTokens: true,
@@ -601,7 +601,7 @@ describe("OpenAiHandler", () => {
 					stream_options: { include_usage: true },
 					reasoning_effort: "medium",
 					temperature: 0.5,
-					max_tokens: 32000,
+					// O3 models do not support max_tokens
 				}),
 				{},
 			)
@@ -647,10 +647,10 @@ describe("OpenAiHandler", () => {
 
 			// Verify max_tokens is NOT included
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs).not.toHaveProperty("max_tokens")
+			expect(callArgs).not.toHaveProperty("max_completion_tokens")
 		})
 
-		it("should handle O3 model non-streaming with max_tokens and reasoning_effort", async () => {
+		it("should handle O3 model non-streaming with reasoning_effort but NO max_tokens", async () => {
 			const o3Handler = new OpenAiHandler({
 				...o3Options,
 				openAiStreamingEnabled: false,
@@ -683,7 +683,7 @@ describe("OpenAiHandler", () => {
 					],
 					reasoning_effort: "medium",
 					temperature: 0.3,
-					max_tokens: 65536, // Falls back to model default
+					// O3 models do not support max_tokens
 				}),
 				{},
 			)
@@ -743,10 +743,10 @@ describe("OpenAiHandler", () => {
 
 			// Verify max_tokens is NOT included when includeMaxTokens is false
 			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs).not.toHaveProperty("max_tokens")
+			expect(callArgs).not.toHaveProperty("max_completion_tokens")
 		})
 
-		it("should include max_tokens for O3 model with Azure AI Inference Service when includeMaxTokens is true", async () => {
+		it("should NOT include max_tokens for O3 model with Azure AI Inference Service even when includeMaxTokens is true", async () => {
 			const o3AzureHandler = new OpenAiHandler({
 				...o3Options,
 				openAiBaseUrl: "https://test.services.ai.azure.com",
@@ -766,7 +766,7 @@ describe("OpenAiHandler", () => {
 			expect(mockCreate).toHaveBeenCalledWith(
 				expect.objectContaining({
 					model: "o3-mini",
-					max_tokens: 65536, // Included when includeMaxTokens is true
+					// O3 models do not support max_tokens
 				}),
 				{ path: "/models/chat/completions" },
 			)
diff --git a/src/api/providers/openai.ts b/src/api/providers/openai.ts
@@ -159,7 +159,7 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 			}
 
 			// Add max_tokens if needed
-			this.addMaxTokensIfNeeded(requestOptions, modelInfo, isAzureAiInference)
+			this.addMaxTokensIfNeeded(requestOptions, modelInfo)
 
 			const stream = await this.client.chat.completions.create(
 				requestOptions,
@@ -221,7 +221,7 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 			}
 
 			// Add max_tokens if needed
-			this.addMaxTokensIfNeeded(requestOptions, modelInfo, isAzureAiInference)
+			this.addMaxTokensIfNeeded(requestOptions, modelInfo)
 
 			const response = await this.client.chat.completions.create(
 				requestOptions,
@@ -266,7 +266,7 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 			}
 
 			// Add max_tokens if needed
-			this.addMaxTokensIfNeeded(requestOptions, modelInfo, isAzureAiInference)
+			this.addMaxTokensIfNeeded(requestOptions, modelInfo)
 
 			const response = await this.client.chat.completions.create(
 				requestOptions,
@@ -309,8 +309,7 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 				temperature: this.options.modelTemperature ?? 0,
 			}
 
-			// Add max_tokens if needed
-			this.addMaxTokensIfNeeded(requestOptions, modelInfo, methodIsAzureAiInference)
+			// O3 family models do not support max_tokens parameter
 
 			const stream = await this.client.chat.completions.create(
 				requestOptions,
@@ -332,8 +331,7 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 				temperature: this.options.modelTemperature ?? 0,
 			}
 
-			// Add max_tokens if needed
-			this.addMaxTokensIfNeeded(requestOptions, modelInfo, methodIsAzureAiInference)
+			// O3 family models do not support max_tokens parameter
 
 			const response = await this.client.chat.completions.create(
 				requestOptions,
@@ -387,19 +385,21 @@ export class OpenAiHandler extends BaseProvider implements SingleCompletionHandl
 	}
 
 	/**
-	 * Adds max_tokens to the request body if needed based on provider configuration
+	 * Adds max_completion_tokens to the request body if needed based on provider configuration
+	 * Note: max_tokens is deprecated in favor of max_completion_tokens as per OpenAI documentation
+	 * O3 family models handle max_tokens separately in handleO3FamilyMessage
 	 */
 	private addMaxTokensIfNeeded(
 		requestOptions:
 			| OpenAI.Chat.Completions.ChatCompletionCreateParamsStreaming
 			| OpenAI.Chat.Completions.ChatCompletionCreateParamsNonStreaming,
 		modelInfo: ModelInfo,
-		isAzureAiInference: boolean,
 	): void {
-		// Only add max_tokens if includeMaxTokens is true
+		// Only add max_completion_tokens if includeMaxTokens is true
 		if (this.options.includeMaxTokens === true) {
 			// Use user-configured modelMaxTokens if available, otherwise fall back to model's default maxTokens
-			requestOptions.max_tokens = this.options.modelMaxTokens || modelInfo.maxTokens
+			// Using max_completion_tokens as max_tokens is deprecated
+			;(requestOptions as any).max_completion_tokens = this.options.modelMaxTokens || modelInfo.maxTokens
 		}
 	}
 }