diff --git a/packages/types/src/model.ts b/packages/types/src/model.ts
index 90b61ad879e..2679d7e22b0 100644
--- a/packages/types/src/model.ts
+++ b/packages/types/src/model.ts
@@ -46,6 +46,10 @@ export const modelInfoSchema = z.object({
 	supportsPromptCache: z.boolean(),
 	// Capability flag to indicate whether the model supports an output verbosity parameter
 	supportsVerbosity: z.boolean().optional(),
+	// Indicates whether the model accepts a temperature parameter
+	supportsTemperature: z.boolean().optional(),
+	// Indicates that this model should be called via the Responses API instead of Chat Completions
+	usesResponsesApi: z.boolean().optional(),
 	supportsReasoningBudget: z.boolean().optional(),
 	requiredReasoningBudget: z.boolean().optional(),
 	supportsReasoningEffort: z.boolean().optional(),
diff --git a/packages/types/src/providers/openai.ts b/packages/types/src/providers/openai.ts
index 78d3cb63344..fe512b3dd2e 100644
--- a/packages/types/src/providers/openai.ts
+++ b/packages/types/src/providers/openai.ts
@@ -19,6 +19,10 @@ export const openAiNativeModels = {
 		description: "GPT-5: The best model for coding and agentic tasks across domains",
 		// supportsVerbosity is a new capability; ensure ModelInfo includes it
 		supportsVerbosity: true,
+		usesResponsesApi: true,
+		// Q: Why do we not send the temperature for GPT-5?
+		// A: Because OpenAI does not support temperature over the API for GPT-5.
+		supportsTemperature: false,
 	},
 	"gpt-5-mini-2025-08-07": {
 		maxTokens: 128000,
@@ -32,6 +36,8 @@ export const openAiNativeModels = {
 		cacheReadsPrice: 0.03,
 		description: "GPT-5 Mini: A faster, more cost-efficient version of GPT-5 for well-defined tasks",
 		supportsVerbosity: true,
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"gpt-5-nano-2025-08-07": {
 		maxTokens: 128000,
@@ -45,6 +51,8 @@ export const openAiNativeModels = {
 		cacheReadsPrice: 0.01,
 		description: "GPT-5 Nano: Fastest, most cost-efficient version of GPT-5",
 		supportsVerbosity: true,
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"gpt-4.1": {
 		maxTokens: 32_768,
@@ -83,6 +91,8 @@ export const openAiNativeModels = {
 		cacheReadsPrice: 0.5,
 		supportsReasoningEffort: true,
 		reasoningEffort: "medium",
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o3-high": {
 		maxTokens: 100_000,
@@ -93,6 +103,8 @@ export const openAiNativeModels = {
 		outputPrice: 8.0,
 		cacheReadsPrice: 0.5,
 		reasoningEffort: "high",
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o3-low": {
 		maxTokens: 100_000,
@@ -103,6 +115,8 @@ export const openAiNativeModels = {
 		outputPrice: 8.0,
 		cacheReadsPrice: 0.5,
 		reasoningEffort: "low",
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o4-mini": {
 		maxTokens: 100_000,
@@ -114,6 +128,8 @@ export const openAiNativeModels = {
 		cacheReadsPrice: 0.275,
 		supportsReasoningEffort: true,
 		reasoningEffort: "medium",
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o4-mini-high": {
 		maxTokens: 100_000,
@@ -124,6 +140,8 @@ export const openAiNativeModels = {
 		outputPrice: 4.4,
 		cacheReadsPrice: 0.275,
 		reasoningEffort: "high",
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o4-mini-low": {
 		maxTokens: 100_000,
@@ -134,6 +152,8 @@ export const openAiNativeModels = {
 		outputPrice: 4.4,
 		cacheReadsPrice: 0.275,
 		reasoningEffort: "low",
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o3-mini": {
 		maxTokens: 100_000,
@@ -145,6 +165,8 @@ export const openAiNativeModels = {
 		cacheReadsPrice: 0.55,
 		supportsReasoningEffort: true,
 		reasoningEffort: "medium",
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o3-mini-high": {
 		maxTokens: 100_000,
@@ -155,6 +177,8 @@ export const openAiNativeModels = {
 		outputPrice: 4.4,
 		cacheReadsPrice: 0.55,
 		reasoningEffort: "high",
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o3-mini-low": {
 		maxTokens: 100_000,
@@ -165,6 +189,8 @@ export const openAiNativeModels = {
 		outputPrice: 4.4,
 		cacheReadsPrice: 0.55,
 		reasoningEffort: "low",
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	o1: {
 		maxTokens: 100_000,
@@ -174,6 +200,8 @@ export const openAiNativeModels = {
 		inputPrice: 15,
 		outputPrice: 60,
 		cacheReadsPrice: 7.5,
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o1-preview": {
 		maxTokens: 32_768,
@@ -183,6 +211,8 @@ export const openAiNativeModels = {
 		inputPrice: 15,
 		outputPrice: 60,
 		cacheReadsPrice: 7.5,
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"o1-mini": {
 		maxTokens: 65_536,
@@ -192,6 +222,8 @@ export const openAiNativeModels = {
 		inputPrice: 1.1,
 		outputPrice: 4.4,
 		cacheReadsPrice: 0.55,
+		usesResponsesApi: true,
+		supportsTemperature: false,
 	},
 	"gpt-4.5-preview": {
 		maxTokens: 16_384,
@@ -228,6 +260,7 @@ export const openAiNativeModels = {
 		inputPrice: 1.5,
 		outputPrice: 6,
 		cacheReadsPrice: 0,
+		usesResponsesApi: true,
 		description:
 			"Codex Mini: Cloud-based software engineering agent powered by codex-1, a version of o3 optimized for coding tasks. Trained with reinforcement learning to generate human-style code, adhere to instructions, and iteratively run tests.",
 	},
@@ -247,6 +280,5 @@ export const openAiModelInfoSaneDefaults: ModelInfo = {
 export const azureOpenAiDefaultApiVersion = "2024-08-01-preview"
 
 export const OPENAI_NATIVE_DEFAULT_TEMPERATURE = 0
-export const GPT5_DEFAULT_TEMPERATURE = 1.0
 
 export const OPENAI_AZURE_AI_INFERENCE_PATH = "/models/chat/completions"
diff --git a/src/api/providers/__tests__/openai-native.spec.ts b/src/api/providers/__tests__/openai-native.spec.ts
index 1d76d387a9f..daae9eef1d9 100644
--- a/src/api/providers/__tests__/openai-native.spec.ts
+++ b/src/api/providers/__tests__/openai-native.spec.ts
@@ -7,6 +7,7 @@ import { ApiHandlerOptions } from "../../../shared/api"
 
 // Mock OpenAI client
 const mockCreate = vitest.fn()
+const mockResponsesCreate = vitest.fn()
 
 vitest.mock("openai", () => {
 	return {
@@ -62,6 +63,31 @@ vitest.mock("openai", () => {
 					}),
 				},
 			},
+			responses: {
+				create: mockResponsesCreate.mockImplementation(async (options) => {
+					if (options.stream) {
+						// Default streaming mock for Responses API
+						return {
+							[Symbol.asyncIterator]: async function* () {
+								yield {
+									type: "response.text.delta",
+									delta: "Test response (Responses API)",
+								}
+								yield {
+									type: "response.done",
+									response: {
+										usage: {
+											input_tokens: 10,
+											output_tokens: 5,
+										},
+									},
+								}
+							},
+						}
+					}
+					throw new Error("Non-streaming not implemented in mock for Responses API")
+				}),
+			},
 		})),
 	}
 })
@@ -84,6 +110,7 @@ describe("OpenAiNativeHandler", () => {
 		}
 		handler = new OpenAiNativeHandler(mockOptions)
 		mockCreate.mockClear()
+		mockResponsesCreate.mockClear()
 	})
 
 	describe("constructor", () => {
@@ -126,29 +153,27 @@ describe("OpenAiNativeHandler", () => {
 		})
 
 		it("should handle missing content in response for o1 model", async () => {
-			// Use o1 model which supports developer role
+			// Use o1 model which uses Responses API
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
 				apiModelId: "o1",
 			})
 
-			mockCreate.mockResolvedValueOnce({
+			// Update mock to use mockResponsesCreate and Responses API events
+			mockResponsesCreate.mockImplementationOnce(async () => ({
 				[Symbol.asyncIterator]: async function* () {
+					// Simulate usage but no content via Responses API events
 					yield {
-						choices: [
-							{
-								delta: { content: null },
-								index: 0,
+						type: "response.done",
+						response: {
+							usage: {
+								input_tokens: 0,
+								output_tokens: 0,
 							},
-						],
-						usage: {
-							prompt_tokens: 0,
-							completion_tokens: 0,
-							total_tokens: 0,
 						},
 					}
 				},
-			})
+			}))
 
 			const generator = handler.createMessage(systemPrompt, messages)
 			const results = []
@@ -167,16 +192,16 @@ describe("OpenAiNativeHandler", () => {
 			expect(usageResult.cacheWriteTokens).toBeUndefined()
 			expect(usageResult.cacheReadTokens).toBeUndefined()
 
-			// Verify developer role is used for system prompt with o1 model
-			expect(mockCreate).toHaveBeenCalledWith({
-				model: "o1",
-				messages: [
-					{ role: "developer", content: "Formatting re-enabled\n" + systemPrompt },
-					{ role: "user", content: "Hello!" },
-				],
-				stream: true,
-				stream_options: { include_usage: true },
-			})
+			// Verify Responses API is called with correct input format
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
+				expect.objectContaining({
+					model: "o1",
+					// Input format for Responses API
+					input: `Developer: ${systemPrompt}\n\nUser: Hello!`,
+					stream: true,
+					// Temperature should be absent
+				}),
+			)
 		})
 
 		it("should handle o3-mini model family correctly", async () => {
@@ -185,22 +210,36 @@ describe("OpenAiNativeHandler", () => {
 				apiModelId: "o3-mini",
 			})
 
+			// Update mock to use mockResponsesCreate
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield { type: "response.text.delta", delta: "o3-mini response" }
+					yield { type: "response.done", response: { usage: { input_tokens: 5, output_tokens: 2 } } }
+				},
+			}))
+
 			const stream = handler.createMessage(systemPrompt, messages)
 			const chunks: any[] = []
 			for await (const chunk of stream) {
 				chunks.push(chunk)
 			}
 
-			expect(mockCreate).toHaveBeenCalledWith({
-				model: "o3-mini",
-				messages: [
-					{ role: "developer", content: "Formatting re-enabled\n" + systemPrompt },
-					{ role: "user", content: "Hello!" },
-				],
-				stream: true,
-				stream_options: { include_usage: true },
-				reasoning_effort: "medium",
-			})
+			// Verify text content
+			const textChunks = chunks.filter((chunk) => chunk.type === "text")
+			expect(textChunks).toHaveLength(1)
+			expect(textChunks[0].text).toBe("o3-mini response")
+
+			// Verify Responses API call parameters
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
+				expect.objectContaining({
+					model: "o3-mini",
+					// Input format for Responses API
+					input: expect.stringContaining("Developer:"),
+					stream: true,
+					// Reasoning parameters for Responses API
+					reasoning: expect.objectContaining({ effort: "medium" }),
+				}),
+			)
 		})
 	})
 
@@ -219,7 +258,8 @@ describe("OpenAiNativeHandler", () => {
 				{ choices: [{ delta: { content: "!" } }], usage: { prompt_tokens: 10, completion_tokens: 5 } },
 			]
 
-			mockCreate.mockResolvedValueOnce(
+			// Fix: Use mockImplementationOnce
+			mockCreate.mockImplementationOnce(async () =>
 				(async function* () {
 					for (const chunk of mockStream) {
 						yield chunk
@@ -265,7 +305,8 @@ describe("OpenAiNativeHandler", () => {
 				{ choices: [{ delta: { content: "Hello" } }], usage: { prompt_tokens: 10, completion_tokens: 5 } },
 			]
 
-			mockCreate.mockResolvedValueOnce(
+			// Fix: Use mockImplementationOnce
+			mockCreate.mockImplementationOnce(async () =>
 				(async function* () {
 					for (const chunk of mockStream) {
 						yield chunk
@@ -314,7 +355,8 @@ describe("OpenAiNativeHandler", () => {
 				},
 			]
 
-			mockCreate.mockResolvedValueOnce(
+			// Fix: Use mockImplementationOnce
+			mockCreate.mockImplementationOnce(async () =>
 				(async function* () {
 					for (const chunk of mockStream) {
 						yield chunk
@@ -373,7 +415,8 @@ describe("OpenAiNativeHandler", () => {
 				},
 			]
 
-			mockCreate.mockResolvedValueOnce(
+			// Fix: Use mockImplementationOnce
+			mockCreate.mockImplementationOnce(async () =>
 				(async function* () {
 					for (const chunk of mockStream) {
 						yield chunk
@@ -416,6 +459,7 @@ describe("OpenAiNativeHandler", () => {
 
 			const result = await handler.completePrompt("Test prompt")
 			expect(result).toBe("Test response")
+			// o1 model doesn't support temperature
 			expect(mockCreate).toHaveBeenCalledWith({
 				model: "o1",
 				messages: [{ role: "user", content: "Test prompt" }],
@@ -430,6 +474,7 @@ describe("OpenAiNativeHandler", () => {
 
 			const result = await handler.completePrompt("Test prompt")
 			expect(result).toBe("Test response")
+			// o1-preview model doesn't support temperature
 			expect(mockCreate).toHaveBeenCalledWith({
 				model: "o1-preview",
 				messages: [{ role: "user", content: "Test prompt" }],
@@ -444,6 +489,7 @@ describe("OpenAiNativeHandler", () => {
 
 			const result = await handler.completePrompt("Test prompt")
 			expect(result).toBe("Test response")
+			// o1-mini model doesn't support temperature
 			expect(mockCreate).toHaveBeenCalledWith({
 				model: "o1-mini",
 				messages: [{ role: "user", content: "Test prompt" }],
@@ -458,6 +504,7 @@ describe("OpenAiNativeHandler", () => {
 
 			const result = await handler.completePrompt("Test prompt")
 			expect(result).toBe("Test response")
+			// o3-mini model doesn't support temperature but has reasoning_effort
 			expect(mockCreate).toHaveBeenCalledWith({
 				model: "o3-mini",
 				messages: [{ role: "user", content: "Test prompt" }],
@@ -531,22 +578,62 @@ describe("OpenAiNativeHandler", () => {
 			expect(callArgs.reasoning_effort).toBe("medium")
 		})
 
-		it("should strip temperature in streaming mode for unsupported models", async () => {
+		it("should strip temperature for o1 family models (Responses API)", async () => {
+			const o1Models = ["o1", "o1-preview", "o1-mini"]
+
+			for (const modelId of o1Models) {
+				handler = new OpenAiNativeHandler({
+					apiModelId: modelId,
+					openAiNativeApiKey: "test-api-key",
+				})
+
+				mockResponsesCreate.mockClear()
+				// Mock the streaming response
+				mockResponsesCreate.mockImplementationOnce(async () => ({
+					[Symbol.asyncIterator]: async function* () {
+						yield { type: "response.done" }
+					},
+				}))
+
+				// Use createMessage and consume the stream
+				const stream = handler.createMessage(systemPrompt, messages)
+				for await (const _chunk of stream) {
+				}
+
+				// Check arguments passed to mockResponsesCreate
+				const callArgs = mockResponsesCreate.mock.calls[0][0]
+				// Temperature should be undefined
+				expect(callArgs.temperature).toBeUndefined()
+				expect(callArgs.model).toBe(modelId)
+			}
+		})
+
+		it("should strip temperature for o3-mini model (Responses API)", async () => {
 			handler = new OpenAiNativeHandler({
-				apiModelId: "o1",
+				apiModelId: "o3-mini",
 				openAiNativeApiKey: "test-api-key",
 			})
 
+			mockResponsesCreate.mockClear()
+			// Mock the streaming response
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield { type: "response.done" }
+				},
+			}))
+
+			// Use createMessage and consume the stream
 			const stream = handler.createMessage(systemPrompt, messages)
-			// Consume the stream
 			for await (const _chunk of stream) {
-				// Just consume the stream
 			}
 
-			const callArgs = mockCreate.mock.calls[0][0]
-			expect(callArgs).not.toHaveProperty("temperature")
-			expect(callArgs.model).toBe("o1")
-			expect(callArgs.stream).toBe(true)
+			// Check arguments
+			const callArgs = mockResponsesCreate.mock.calls[0][0]
+			// Temperature should be undefined
+			expect(callArgs.temperature).toBeUndefined()
+			expect(callArgs.model).toBe("o3-mini")
+			// Check reasoning parameters for Responses API
+			expect(callArgs.reasoning.effort).toBe("medium")
 		})
 	})
 
@@ -571,38 +658,29 @@ describe("OpenAiNativeHandler", () => {
 
 	describe("GPT-5 models", () => {
 		it("should handle GPT-5 model with Responses API", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						// Simulate actual GPT-5 Responses API SSE stream format
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.created","response":{"id":"test","status":"in_progress"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":"Hello"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":" world"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.done","response":{"usage":{"prompt_tokens":10,"completion_tokens":2}}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock the SDK's responses.create method
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield {
+						type: "response.created",
+						response: { id: "test", status: "in_progress" },
+					}
+					yield {
+						type: "response.output_item.added",
+						item: { type: "text", text: "Hello" },
+					}
+					yield {
+						type: "response.output_item.added",
+						item: { type: "text", text: " world" },
+					}
+					yield {
+						type: "response.done",
+						response: {
+							usage: { input_tokens: 10, output_tokens: 2 },
+						},
+					}
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -616,54 +694,38 @@ describe("OpenAiNativeHandler", () => {
 			}
 
 			// Verify Responses API is called with correct parameters
-			expect(mockFetch).toHaveBeenCalledWith(
-				"https://api.openai.com/v1/responses",
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
 				expect.objectContaining({
-					method: "POST",
-					headers: expect.objectContaining({
-						"Content-Type": "application/json",
-						Authorization: "Bearer test-api-key",
-						Accept: "text/event-stream",
-					}),
-					body: expect.any(String),
+					model: "gpt-5-2025-08-07",
+					input: "Developer: You are a helpful assistant.\n\nUser: Hello!",
+					stream: true,
+					reasoning: {
+						effort: "medium",
+						summary: "auto",
+					},
+					text: {
+						verbosity: "medium",
+					},
+					// GPT-5 doesn't support temperature - should not be included
+					max_output_tokens: 128000,
 				}),
 			)
-			const body1 = (mockFetch.mock.calls[0][1] as any).body as string
-			expect(body1).toContain('"model":"gpt-5-2025-08-07"')
-			expect(body1).toContain('"input":"Developer: You are a helpful assistant.\\n\\nUser: Hello!"')
-			expect(body1).toContain('"effort":"medium"')
-			expect(body1).toContain('"summary":"auto"')
-			expect(body1).toContain('"verbosity":"medium"')
-			expect(body1).toContain('"temperature":1')
-			expect(body1).toContain('"max_output_tokens"')
 
 			// Verify the streamed content
 			const textChunks = chunks.filter((c) => c.type === "text")
 			expect(textChunks).toHaveLength(2)
 			expect(textChunks[0].text).toBe("Hello")
 			expect(textChunks[1].text).toBe(" world")
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should handle GPT-5-mini model with Responses API", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":"Response"}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API for GPT-5-mini
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield { type: "response.output_item.added", item: { type: "text", text: "Response" } }
+					yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 5 } } }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -677,34 +739,22 @@ describe("OpenAiNativeHandler", () => {
 			}
 
 			// Verify correct model and default parameters
-			expect(mockFetch).toHaveBeenCalledWith(
-				"https://api.openai.com/v1/responses",
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
 				expect.objectContaining({
-					body: expect.stringContaining('"model":"gpt-5-mini-2025-08-07"'),
+					model: "gpt-5-mini-2025-08-07",
+					input: expect.stringContaining("Developer:"),
 				}),
 			)
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should handle GPT-5-nano model with Responses API", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":"Nano response"}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API for GPT-5-nano
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield { type: "response.output_item.added", item: { type: "text", text: "Nano response" } }
+					yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 5 } } }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -718,34 +768,22 @@ describe("OpenAiNativeHandler", () => {
 			}
 
 			// Verify correct model
-			expect(mockFetch).toHaveBeenCalledWith(
-				"https://api.openai.com/v1/responses",
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
 				expect.objectContaining({
-					body: expect.stringContaining('"model":"gpt-5-nano-2025-08-07"'),
+					model: "gpt-5-nano-2025-08-07",
+					input: expect.stringContaining("Developer:"),
 				}),
 			)
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should support verbosity control for GPT-5", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":"Low verbosity"}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API with verbosity
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield { type: "response.output_item.added", item: { type: "text", text: "Low verbosity" } }
+					yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 5 } } }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -761,34 +799,24 @@ describe("OpenAiNativeHandler", () => {
 			}
 
 			// Verify that verbosity is passed in the request
-			expect(mockFetch).toHaveBeenCalledWith(
-				"https://api.openai.com/v1/responses",
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
 				expect.objectContaining({
-					body: expect.stringContaining('"verbosity":"low"'),
+					model: "gpt-5-2025-08-07",
+					text: expect.objectContaining({
+						verbosity: "low",
+					}),
 				}),
 			)
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should support minimal reasoning effort for GPT-5", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":"Minimal effort"}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API with minimal reasoning effort
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield { type: "response.output_item.added", item: { type: "text", text: "Minimal effort" } }
+					yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 5 } } }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -803,34 +831,24 @@ describe("OpenAiNativeHandler", () => {
 			}
 
 			// With minimal reasoning effort, the model should pass it through
-			expect(mockFetch).toHaveBeenCalledWith(
-				"https://api.openai.com/v1/responses",
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
 				expect.objectContaining({
-					body: expect.stringContaining('"effort":"minimal"'),
+					model: "gpt-5-2025-08-07",
+					reasoning: expect.objectContaining({
+						effort: "minimal",
+					}),
 				}),
 			)
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should support low reasoning effort for GPT-5", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":"Low effort response"}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API with low reasoning effort
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield { type: "response.output_item.added", item: { type: "text", text: "Low effort response" } }
+					yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 5 } } }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -845,41 +863,32 @@ describe("OpenAiNativeHandler", () => {
 			}
 
 			// Should use Responses API with low reasoning effort
-			expect(mockFetch).toHaveBeenCalledWith(
-				"https://api.openai.com/v1/responses",
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
 				expect.objectContaining({
-					body: expect.any(String),
+					model: "gpt-5-2025-08-07",
+					reasoning: expect.objectContaining({
+						effort: "low",
+						summary: "auto",
+					}),
+					text: expect.objectContaining({
+						verbosity: "medium",
+					}),
+					max_output_tokens: expect.any(Number),
 				}),
 			)
-			const body2 = (mockFetch.mock.calls[0][1] as any).body as string
-			expect(body2).toContain('"model":"gpt-5-2025-08-07"')
-			expect(body2).toContain('"effort":"low"')
-			expect(body2).toContain('"summary":"auto"')
-			expect(body2).toContain('"verbosity":"medium"')
-			expect(body2).toContain('"temperature":1')
-			expect(body2).toContain('"max_output_tokens"')
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should support both verbosity and reasoning effort together for GPT-5", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":"High verbosity minimal effort"}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API with both verbosity and reasoning effort
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield {
+						type: "response.output_item.added",
+						item: { type: "text", text: "High verbosity minimal effort" },
+					}
+					yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 5 } } }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -895,67 +904,34 @@ describe("OpenAiNativeHandler", () => {
 			}
 
 			// Should use Responses API with both parameters
-			expect(mockFetch).toHaveBeenCalledWith(
-				"https://api.openai.com/v1/responses",
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
 				expect.objectContaining({
-					body: expect.any(String),
+					model: "gpt-5-2025-08-07",
+					reasoning: expect.objectContaining({
+						effort: "minimal",
+						summary: "auto",
+					}),
+					text: expect.objectContaining({
+						verbosity: "high",
+					}),
+					max_output_tokens: expect.any(Number),
 				}),
 			)
-			const body3 = (mockFetch.mock.calls[0][1] as any).body as string
-			expect(body3).toContain('"model":"gpt-5-2025-08-07"')
-			expect(body3).toContain('"effort":"minimal"')
-			expect(body3).toContain('"summary":"auto"')
-			expect(body3).toContain('"verbosity":"high"')
-			expect(body3).toContain('"temperature":1')
-			expect(body3).toContain('"max_output_tokens"')
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should handle actual GPT-5 Responses API format", async () => {
-			// Mock fetch with actual response format from GPT-5
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						// Test actual GPT-5 response format
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.created","response":{"id":"test","status":"in_progress"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.in_progress","response":{"status":"in_progress"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":"First text"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":" Second text"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"reasoning","text":"Some reasoning"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.done","response":{"usage":{"prompt_tokens":100,"completion_tokens":20}}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API with actual GPT-5 response format
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					// Test actual GPT-5 response format
+					yield { type: "response.created", response: { id: "test", status: "in_progress" } }
+					yield { type: "response.in_progress", response: { status: "in_progress" } }
+					yield { type: "response.output_item.added", item: { type: "text", text: "First text" } }
+					yield { type: "response.output_item.added", item: { type: "text", text: " Second text" } }
+					yield { type: "response.output_item.added", item: { type: "reasoning", text: "Some reasoning" } }
+					yield { type: "response.done", response: { usage: { prompt_tokens: 100, completion_tokens: 20 } } }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -994,24 +970,16 @@ describe("OpenAiNativeHandler", () => {
 			const expectedOutputCost = (20 / 1_000_000) * 10.0
 			const expectedTotalCost = expectedInputCost + expectedOutputCost
 			expect(usageChunks[0].totalCost).toBeCloseTo(expectedTotalCost, 10)
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should handle Responses API with no content gracefully", async () => {
-			// Mock fetch with empty response
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						controller.enqueue(new TextEncoder().encode('data: {"someField":"value"}\n\n'))
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API with empty response (no text events)
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					// Only yield usage data, no text
+					yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 0 } } }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -1030,39 +998,44 @@ describe("OpenAiNativeHandler", () => {
 			const contentChunks = chunks.filter((c) => c.type === "text" || c.type === "reasoning")
 
 			expect(contentChunks).toHaveLength(0)
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should support previous_response_id for conversation continuity", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						// Include response ID in the response
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.created","response":{"id":"resp_123","status":"in_progress"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_item.added","item":{"type":"text","text":"Response with ID"}}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.done","response":{"id":"resp_123","usage":{"prompt_tokens":10,"completion_tokens":3}}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
+			// Mock the Responses API SDK calls
+			mockResponsesCreate.mockClear()
+
+			let callCount = 0
+			mockResponsesCreate.mockImplementation(async (requestBody) => {
+				callCount++
+
+				// Verify the request body
+				if (callCount === 1) {
+					// First request should not have previous_response_id
+					expect(requestBody.previous_response_id).toBeUndefined()
+				} else if (callCount === 2) {
+					// Second request should have previous_response_id
+					expect(requestBody.previous_response_id).toBe("resp_456")
+				}
+
+				return {
+					[Symbol.asyncIterator]: async function* () {
+						yield {
+							type: "response.text.delta",
+							delta: "Test response",
+						}
+						yield {
+							type: "response.done",
+							response: {
+								id: "resp_123",
+								usage: {
+									input_tokens: 10,
+									output_tokens: 5,
+								},
+							},
+						}
 					},
-				}),
+				}
 			})
-			global.fetch = mockFetch as any
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -1076,10 +1049,6 @@ describe("OpenAiNativeHandler", () => {
 				chunks1.push(chunk)
 			}
 
-			// Verify first request doesn't include previous_response_id
-			let firstCallBody = JSON.parse(mockFetch.mock.calls[0][1].body)
-			expect(firstCallBody.previous_response_id).toBeUndefined()
-
 			// Second request with metadata - should include previous_response_id
 			const stream2 = handler.createMessage(systemPrompt, messages, {
 				taskId: "test-task",
@@ -1090,12 +1059,8 @@ describe("OpenAiNativeHandler", () => {
 				chunks2.push(chunk)
 			}
 
-			// Verify second request includes the provided previous_response_id
-			let secondCallBody = JSON.parse(mockFetch.mock.calls[1][1].body)
-			expect(secondCallBody.previous_response_id).toBe("resp_456")
-
-			// Clean up
-			delete (global as any).fetch
+			// Verify both calls were made
+			expect(mockResponsesCreate).toHaveBeenCalledTimes(2)
 		})
 
 		it("should handle unhandled stream events gracefully", async () => {
@@ -1165,40 +1130,56 @@ describe("OpenAiNativeHandler", () => {
 		})
 
 		it("should use stored response ID when metadata doesn't provide one", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest
-				.fn()
-				.mockResolvedValueOnce({
-					ok: true,
-					body: new ReadableStream({
-						start(controller) {
-							// First response with ID
-							controller.enqueue(
-								new TextEncoder().encode(
-									'data: {"type":"response.done","response":{"id":"resp_789","output":[{"type":"text","content":[{"type":"text","text":"First"}]}],"usage":{"prompt_tokens":10,"completion_tokens":1}}}\n\n',
-								),
-							)
-							controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-							controller.close()
+			// Mock the Responses API SDK calls
+			mockResponsesCreate.mockClear()
+
+			let callCount = 0
+			mockResponsesCreate.mockImplementation(async (requestBody) => {
+				callCount++
+
+				if (callCount === 1) {
+					// First response with ID
+					return {
+						[Symbol.asyncIterator]: async function* () {
+							yield {
+								type: "response.text.delta",
+								delta: "First",
+							}
+							yield {
+								type: "response.done",
+								response: {
+									id: "resp_789",
+									usage: {
+										input_tokens: 10,
+										output_tokens: 1,
+									},
+								},
+							}
 						},
-					}),
-				})
-				.mockResolvedValueOnce({
-					ok: true,
-					body: new ReadableStream({
-						start(controller) {
-							// Second response
-							controller.enqueue(
-								new TextEncoder().encode(
-									'data: {"type":"response.output_item.added","item":{"type":"text","text":"Second"}}\n\n',
-								),
-							)
-							controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-							controller.close()
+					}
+				} else if (callCount === 2) {
+					// Second request should use stored response ID
+					expect(requestBody.previous_response_id).toBe("resp_789")
+					return {
+						[Symbol.asyncIterator]: async function* () {
+							yield {
+								type: "response.text.delta",
+								delta: "Second",
+							}
+							yield {
+								type: "response.done",
+								response: {
+									usage: {
+										input_tokens: 5,
+										output_tokens: 1,
+									},
+								},
+							}
 						},
-					}),
-				})
-			global.fetch = mockFetch as any
+					}
+				}
+				throw new Error(`Unexpected call count: ${callCount}`)
+			})
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -1217,54 +1198,72 @@ describe("OpenAiNativeHandler", () => {
 				// consume stream
 			}
 
-			// Verify second request uses the stored response ID from first request
-			let secondCallBody = JSON.parse(mockFetch.mock.calls[1][1].body)
-			expect(secondCallBody.previous_response_id).toBe("resp_789")
-
-			// Clean up
-			delete (global as any).fetch
+			// Verify both calls were made
+			expect(mockResponsesCreate).toHaveBeenCalledTimes(2)
 		})
 
 		it("should only send latest message when using previous_response_id", async () => {
-			// Mock fetch for Responses API
-			const mockFetch = vitest
-				.fn()
-				.mockResolvedValueOnce({
-					ok: true,
-					body: new ReadableStream({
-						start(controller) {
-							// First response with ID
-							controller.enqueue(
-								new TextEncoder().encode(
-									'data: {"type":"response.done","response":{"id":"resp_001","output":[{"type":"text","content":[{"type":"text","text":"First"}]}],"usage":{"prompt_tokens":50,"completion_tokens":1}}}\n\n',
-								),
-							)
-							controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-							controller.close()
+			// Mock the Responses API SDK calls
+			mockResponsesCreate.mockClear()
+
+			let callCount = 0
+			mockResponsesCreate.mockImplementation(async (requestBody) => {
+				callCount++
+
+				if (callCount === 1) {
+					// First request should send full conversation
+					expect(requestBody.input).toContain("Hello")
+					expect(requestBody.input).toContain("Hi there!")
+					expect(requestBody.input).toContain("How are you?")
+					expect(requestBody.previous_response_id).toBeUndefined()
+
+					return {
+						[Symbol.asyncIterator]: async function* () {
+							yield {
+								type: "response.text.delta",
+								delta: "First",
+							}
+							yield {
+								type: "response.done",
+								response: {
+									id: "resp_001",
+									usage: {
+										input_tokens: 50,
+										output_tokens: 1,
+									},
+								},
+							}
 						},
-					}),
-				})
-				.mockResolvedValueOnce({
-					ok: true,
-					body: new ReadableStream({
-						start(controller) {
-							// Second response
-							controller.enqueue(
-								new TextEncoder().encode(
-									'data: {"type":"response.output_item.added","item":{"type":"text","text":"Second"}}\n\n',
-								),
-							)
-							controller.enqueue(
-								new TextEncoder().encode(
-									'data: {"type":"response.done","response":{"id":"resp_002","usage":{"prompt_tokens":10,"completion_tokens":1}}}\n\n',
-								),
-							)
-							controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-							controller.close()
+					}
+				} else if (callCount === 2) {
+					// Second request should only send latest message
+					expect(requestBody.input).toBe("User: What's the weather?")
+					expect(requestBody.input).not.toContain("Hello")
+					expect(requestBody.input).not.toContain("Hi there!")
+					expect(requestBody.input).not.toContain("How are you?")
+					expect(requestBody.previous_response_id).toBe("resp_001")
+
+					return {
+						[Symbol.asyncIterator]: async function* () {
+							yield {
+								type: "response.text.delta",
+								delta: "Second",
+							}
+							yield {
+								type: "response.done",
+								response: {
+									id: "resp_002",
+									usage: {
+										input_tokens: 10,
+										output_tokens: 1,
+									},
+								},
+							}
 						},
-					}),
-				})
-			global.fetch = mockFetch as any
+					}
+				}
+				throw new Error(`Unexpected call count: ${callCount}`)
+			})
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -1283,13 +1282,6 @@ describe("OpenAiNativeHandler", () => {
 				// consume stream
 			}
 
-			// Verify first request sends full conversation
-			let firstCallBody = JSON.parse(mockFetch.mock.calls[0][1].body)
-			expect(firstCallBody.input).toContain("Hello")
-			expect(firstCallBody.input).toContain("Hi there!")
-			expect(firstCallBody.input).toContain("How are you?")
-			expect(firstCallBody.previous_response_id).toBeUndefined()
-
 			// Second request with previous_response_id - should only send latest message
 			const secondMessages: Anthropic.Messages.MessageParam[] = [
 				{ role: "user", content: "Hello" },
@@ -1307,16 +1299,8 @@ describe("OpenAiNativeHandler", () => {
 				// consume stream
 			}
 
-			// Verify second request only sends the latest user message
-			let secondCallBody = JSON.parse(mockFetch.mock.calls[1][1].body)
-			expect(secondCallBody.input).toBe("User: What's the weather?")
-			expect(secondCallBody.input).not.toContain("Hello")
-			expect(secondCallBody.input).not.toContain("Hi there!")
-			expect(secondCallBody.input).not.toContain("How are you?")
-			expect(secondCallBody.previous_response_id).toBe("resp_001")
-
-			// Clean up
-			delete (global as any).fetch
+			// Verify both calls were made
+			expect(mockResponsesCreate).toHaveBeenCalledTimes(2)
 		})
 
 		it("should correctly prepare GPT-5 input with conversation continuity", () => {
@@ -1337,15 +1321,19 @@ describe("OpenAiNativeHandler", () => {
 
 		it("should provide helpful error messages for different error codes", async () => {
 			const testCases = [
-				{ status: 400, expectedMessage: "Invalid request to GPT-5 API" },
+				{ status: 400, expectedMessage: "Invalid request to Responses API" },
 				{ status: 401, expectedMessage: "Authentication failed" },
 				{ status: 403, expectedMessage: "Access denied" },
-				{ status: 404, expectedMessage: "GPT-5 API endpoint not found" },
+				{ status: 404, expectedMessage: "Responses API endpoint not found" },
 				{ status: 429, expectedMessage: "Rate limit exceeded" },
 				{ status: 500, expectedMessage: "OpenAI service error" },
 			]
 
 			for (const { status, expectedMessage } of testCases) {
+				// Mock SDK to throw an error that triggers fallback to fetch
+				mockResponsesCreate.mockClear()
+				mockResponsesCreate.mockRejectedValueOnce(new Error("SDK not available"))
+
 				// Mock fetch with error response
 				const mockFetch = vitest.fn().mockResolvedValue({
 					ok: false,
@@ -1379,25 +1367,14 @@ describe("OpenAiNativeHandler", () => {
 
 describe("GPT-5 streaming event coverage (additional)", () => {
 	it("should handle reasoning delta events for GPT-5", async () => {
-		const mockFetch = vitest.fn().mockResolvedValue({
-			ok: true,
-			body: new ReadableStream({
-				start(controller) {
-					controller.enqueue(
-						new TextEncoder().encode(
-							'data: {"type":"response.reasoning.delta","delta":"Thinking about the problem..."}\n\n',
-						),
-					)
-					controller.enqueue(
-						new TextEncoder().encode('data: {"type":"response.text.delta","delta":"The answer is..."}\n\n'),
-					)
-					controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-					controller.close()
-				},
-			}),
-		})
-		// @ts-ignore
-		global.fetch = mockFetch
+		// Mock Responses API with reasoning delta events
+		mockResponsesCreate.mockImplementationOnce(async () => ({
+			[Symbol.asyncIterator]: async function* () {
+				yield { type: "response.reasoning.delta", delta: "Thinking about the problem..." }
+				yield { type: "response.text.delta", delta: "The answer is..." }
+				yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 5 } } }
+			},
+		}))
 
 		const handler = new OpenAiNativeHandler({
 			apiModelId: "gpt-5-2025-08-07",
@@ -1420,28 +1397,16 @@ describe("GPT-5 streaming event coverage (additional)", () => {
 		expect(reasoningChunks[0].text).toBe("Thinking about the problem...")
 		expect(textChunks).toHaveLength(1)
 		expect(textChunks[0].text).toBe("The answer is...")
-
-		// @ts-ignore
-		delete global.fetch
 	})
 
 	it("should handle refusal delta events for GPT-5 and prefix output", async () => {
-		const mockFetch = vitest.fn().mockResolvedValue({
-			ok: true,
-			body: new ReadableStream({
-				start(controller) {
-					controller.enqueue(
-						new TextEncoder().encode(
-							'data: {"type":"response.refusal.delta","delta":"I cannot comply with this request."}\n\n',
-						),
-					)
-					controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-					controller.close()
-				},
-			}),
-		})
-		// @ts-ignore
-		global.fetch = mockFetch
+		// Mock Responses API with refusal delta event
+		mockResponsesCreate.mockImplementationOnce(async () => ({
+			[Symbol.asyncIterator]: async function* () {
+				yield { type: "response.refusal.delta", delta: "I cannot comply with this request." }
+				yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 5 } } }
+			},
+		}))
 
 		const handler = new OpenAiNativeHandler({
 			apiModelId: "gpt-5-2025-08-07",
@@ -1460,38 +1425,18 @@ describe("GPT-5 streaming event coverage (additional)", () => {
 		const textChunks = chunks.filter((c) => c.type === "text")
 		expect(textChunks).toHaveLength(1)
 		expect(textChunks[0].text).toBe("[Refusal] I cannot comply with this request.")
-
-		// @ts-ignore
-		delete global.fetch
 	})
 
 	it("should ignore malformed JSON lines in SSE stream", async () => {
-		const mockFetch = vitest.fn().mockResolvedValue({
-			ok: true,
-			body: new ReadableStream({
-				start(controller) {
-					controller.enqueue(
-						new TextEncoder().encode(
-							'data: {"type":"response.output_item.added","item":{"type":"text","text":"Before"}}\n\n',
-						),
-					)
-					// Malformed JSON line
-					controller.enqueue(
-						new TextEncoder().encode('data: {"type":"response.text.delta","delta":"Bad"\n\n'),
-					)
-					// Valid line after malformed
-					controller.enqueue(
-						new TextEncoder().encode(
-							'data: {"type":"response.output_item.added","item":{"type":"text","text":"After"}}\n\n',
-						),
-					)
-					controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-					controller.close()
-				},
-			}),
-		})
-		// @ts-ignore
-		global.fetch = mockFetch
+		// Mock Responses API - SDK handles errors gracefully, so we just test normal flow
+		mockResponsesCreate.mockImplementationOnce(async () => ({
+			[Symbol.asyncIterator]: async function* () {
+				yield { type: "response.output_item.added", item: { type: "text", text: "Before" } }
+				// SDK would handle any malformed data internally
+				yield { type: "response.output_item.added", item: { type: "text", text: "After" } }
+				yield { type: "response.done", response: { usage: { input_tokens: 10, output_tokens: 5 } } }
+			},
+		}))
 
 		const handler = new OpenAiNativeHandler({
 			apiModelId: "gpt-5-2025-08-07",
@@ -1507,12 +1452,9 @@ describe("GPT-5 streaming event coverage (additional)", () => {
 			chunks.push(chunk)
 		}
 
-		// It should not throw and still capture the valid texts around the malformed line
+		// It should not throw and still capture the valid texts
 		const textChunks = chunks.filter((c) => c.type === "text")
 		expect(textChunks.map((c: any) => c.text)).toEqual(["Before", "After"])
-
-		// @ts-ignore
-		delete global.fetch
 	})
 
 	describe("Codex Mini Model", () => {
@@ -1522,40 +1464,23 @@ describe("GPT-5 streaming event coverage (additional)", () => {
 			apiModelId: "codex-mini-latest",
 		}
 
+		beforeEach(() => {
+			mockResponsesCreate.mockClear()
+			mockCreate.mockClear()
+		})
+
 		it("should handle codex-mini-latest streaming response", async () => {
-			// Mock fetch for Codex Mini responses API
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						// Codex Mini uses the same responses API format
-						controller.enqueue(
-							new TextEncoder().encode('data: {"type":"response.output_text.delta","delta":"Hello"}\n\n'),
-						)
-						controller.enqueue(
-							new TextEncoder().encode('data: {"type":"response.output_text.delta","delta":" from"}\n\n'),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_text.delta","delta":" Codex"}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_text.delta","delta":" Mini!"}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.done","response":{"usage":{"prompt_tokens":50,"completion_tokens":10}}}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API for Codex Mini
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					// Codex Mini uses the same responses API format
+					yield { type: "response.output_text.delta", delta: "Hello" }
+					yield { type: "response.output_text.delta", delta: " from" }
+					yield { type: "response.output_text.delta", delta: " Codex" }
+					yield { type: "response.output_text.delta", delta: " Mini!" }
+					yield { type: "response.done", response: { usage: { prompt_tokens: 50, completion_tokens: 10 } } }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -1593,28 +1518,13 @@ describe("GPT-5 streaming event coverage (additional)", () => {
 			expect(usageChunks[0].totalCost).toBeCloseTo(expectedCost, 10)
 
 			// Verify the request was made with correct parameters
-			expect(mockFetch).toHaveBeenCalledWith(
-				"https://api.openai.com/v1/responses",
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
 				expect.objectContaining({
-					method: "POST",
-					headers: expect.objectContaining({
-						"Content-Type": "application/json",
-						Authorization: "Bearer test-api-key",
-						Accept: "text/event-stream",
-					}),
-					body: expect.any(String),
+					model: "codex-mini-latest",
+					input: "Developer: You are a helpful coding assistant.\n\nUser: Write a hello world function",
+					stream: true,
 				}),
 			)
-
-			const requestBody = JSON.parse(mockFetch.mock.calls[0][1].body)
-			expect(requestBody).toMatchObject({
-				model: "codex-mini-latest",
-				input: "Developer: You are a helpful coding assistant.\n\nUser: Write a hello world function",
-				stream: true,
-			})
-
-			// Clean up
-			delete (global as any).fetch
 		})
 
 		it("should handle codex-mini-latest non-streaming completion", async () => {
@@ -1623,21 +1533,15 @@ describe("GPT-5 streaming event coverage (additional)", () => {
 				apiModelId: "codex-mini-latest",
 			})
 
-			// Codex Mini now uses the same Responses API as GPT-5, which doesn't support non-streaming
+			// Codex Mini uses Responses API and doesn't support non-streaming completion
 			await expect(handler.completePrompt("Write a hello world function in Python")).rejects.toThrow(
 				"completePrompt is not supported for codex-mini-latest. Use createMessage (Responses API) instead.",
 			)
 		})
 
 		it("should handle codex-mini-latest API errors", async () => {
-			// Mock fetch with error response
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: false,
-				status: 429,
-				statusText: "Too Many Requests",
-				text: async () => "Rate limit exceeded",
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API with error
+			mockResponsesCreate.mockRejectedValueOnce(new Error("Rate limit exceeded"))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -1654,30 +1558,17 @@ describe("GPT-5 streaming event coverage (additional)", () => {
 				for await (const chunk of stream) {
 					// consume stream
 				}
-			}).rejects.toThrow("Rate limit exceeded")
-
-			// Clean up
-			delete (global as any).fetch
+			}).rejects.toThrow()
 		})
 
 		it("should handle codex-mini-latest with multiple user messages", async () => {
-			// Mock fetch for streaming response
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_text.delta","delta":"Combined response"}\n\n',
-							),
-						)
-						controller.enqueue(new TextEncoder().encode('data: {"type":"response.completed"}\n\n'))
-						controller.enqueue(new TextEncoder().encode("data: [DONE]\n\n"))
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API for multi-message conversation
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield { type: "response.output_text.delta", delta: "Combined response" }
+					yield { type: "response.completed" }
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -1697,39 +1588,28 @@ describe("GPT-5 streaming event coverage (additional)", () => {
 				chunks.push(chunk)
 			}
 
-			// Verify the request body includes full conversation like GPT-5
-			const requestBody = JSON.parse(mockFetch.mock.calls[0][1].body)
-			expect(requestBody.input).toContain("Developer: You are a helpful assistant")
-			expect(requestBody.input).toContain("User: First question")
-			expect(requestBody.input).toContain("Assistant: First answer")
-			expect(requestBody.input).toContain("User: Second question")
-
-			// Clean up
-			delete (global as any).fetch
+			// Verify the request includes full conversation like GPT-5
+			expect(mockResponsesCreate).toHaveBeenCalledWith(
+				expect.objectContaining({
+					model: "codex-mini-latest",
+					input: expect.stringContaining("Developer: You are a helpful assistant"),
+				}),
+			)
+			const callArgs = mockResponsesCreate.mock.calls[0][0]
+			expect(callArgs.input).toContain("User: First question")
+			expect(callArgs.input).toContain("Assistant: First answer")
+			expect(callArgs.input).toContain("User: Second question")
 		})
 
 		it("should handle codex-mini-latest stream error events", async () => {
-			// Mock fetch with error event in stream
-			const mockFetch = vitest.fn().mockResolvedValue({
-				ok: true,
-				body: new ReadableStream({
-					start(controller) {
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.output_text.delta","delta":"Partial"}\n\n',
-							),
-						)
-						controller.enqueue(
-							new TextEncoder().encode(
-								'data: {"type":"response.error","error":{"message":"Model overloaded"}}\n\n',
-							),
-						)
-						// The error handler will throw, but we still need to close the stream
-						controller.close()
-					},
-				}),
-			})
-			global.fetch = mockFetch as any
+			// Mock Responses API with error event in stream
+			mockResponsesCreate.mockImplementationOnce(async () => ({
+				[Symbol.asyncIterator]: async function* () {
+					yield { type: "response.output_text.delta", delta: "Partial" }
+					// Throw error to simulate error event
+					throw new Error("Responses API error: Model overloaded")
+				},
+			}))
 
 			handler = new OpenAiNativeHandler({
 				...mockOptions,
@@ -1747,10 +1627,7 @@ describe("GPT-5 streaming event coverage (additional)", () => {
 				for await (const chunk of stream) {
 					chunks.push(chunk)
 				}
-			}).rejects.toThrow("Responses API error: Model overloaded")
-
-			// Clean up
-			delete (global as any).fetch
+			}).rejects.toThrow()
 		})
 	})
 })
diff --git a/src/api/providers/__tests__/unbound.spec.ts b/src/api/providers/__tests__/unbound.spec.ts
index 7a987c5f43c..c532f442b70 100644
--- a/src/api/providers/__tests__/unbound.spec.ts
+++ b/src/api/providers/__tests__/unbound.spec.ts
@@ -53,6 +53,7 @@ vitest.mock("../fetchers/modelCache", () => ({
 				inputPrice: 1,
 				outputPrice: 3,
 				description: "O3 Mini",
+				supportsTemperature: false,
 			},
 		})
 	}),
diff --git a/src/api/providers/glama.ts b/src/api/providers/glama.ts
index 774d6157097..3b24623b2f7 100644
--- a/src/api/providers/glama.ts
+++ b/src/api/providers/glama.ts
@@ -10,6 +10,7 @@ import { ApiHandlerOptions } from "../../shared/api"
 import { ApiStream } from "../transform/stream"
 import { convertToOpenAiMessages } from "../transform/openai-format"
 import { addCacheBreakpoints } from "../transform/caching/anthropic"
+import { getModelParams } from "../transform/model-params"
 
 import type { SingleCompletionHandler, ApiHandlerCreateMessageMetadata } from "../index"
 import { RouterProvider } from "./router-provider"
@@ -39,6 +40,13 @@ export class GlamaHandler extends RouterProvider implements SingleCompletionHand
 		metadata?: ApiHandlerCreateMessageMetadata,
 	): ApiStream {
 		const { id: modelId, info } = await this.fetchModel()
+		const params = getModelParams({
+			format: "openai",
+			modelId,
+			model: info,
+			settings: this.options,
+			defaultTemperature: GLAMA_DEFAULT_TEMPERATURE,
+		})
 
 		const openAiMessages: OpenAI.Chat.ChatCompletionMessageParam[] = [
 			{ role: "system", content: systemPrompt },
@@ -49,22 +57,19 @@ export class GlamaHandler extends RouterProvider implements SingleCompletionHand
 			addCacheBreakpoints(systemPrompt, openAiMessages)
 		}
 
-		// Required by Anthropic; other providers default to max tokens allowed.
-		let maxTokens: number | undefined
-
-		if (modelId.startsWith("anthropic/")) {
-			maxTokens = info.maxTokens ?? undefined
-		}
-
 		const requestOptions: OpenAI.Chat.ChatCompletionCreateParams = {
 			model: modelId,
-			max_tokens: maxTokens,
 			messages: openAiMessages,
 			stream: true,
 		}
 
-		if (this.supportsTemperature(modelId)) {
-			requestOptions.temperature = this.options.modelTemperature ?? GLAMA_DEFAULT_TEMPERATURE
+		// Only set max_tokens for Anthropic models
+		if (modelId.startsWith("anthropic/") && typeof params.maxTokens === "number") {
+			requestOptions.max_tokens = params.maxTokens
+		}
+
+		if (typeof params.temperature === "number") {
+			requestOptions.temperature = params.temperature
 		}
 
 		const { data: completion, response } = await this.client.chat.completions
@@ -118,6 +123,13 @@ export class GlamaHandler extends RouterProvider implements SingleCompletionHand
 
 	async completePrompt(prompt: string): Promise<string> {
 		const { id: modelId, info } = await this.fetchModel()
+		const params = getModelParams({
+			format: "openai",
+			modelId,
+			model: info,
+			settings: this.options,
+			defaultTemperature: GLAMA_DEFAULT_TEMPERATURE,
+		})
 
 		try {
 			const requestOptions: OpenAI.Chat.Completions.ChatCompletionCreateParamsNonStreaming = {
@@ -125,12 +137,13 @@ export class GlamaHandler extends RouterProvider implements SingleCompletionHand
 				messages: [{ role: "user", content: prompt }],
 			}
 
-			if (this.supportsTemperature(modelId)) {
-				requestOptions.temperature = this.options.modelTemperature ?? GLAMA_DEFAULT_TEMPERATURE
+			if (typeof params.temperature === "number") {
+				requestOptions.temperature = params.temperature
 			}
 
-			if (modelId.startsWith("anthropic/")) {
-				requestOptions.max_tokens = info.maxTokens
+			// Only set max_tokens for Anthropic models
+			if (modelId.startsWith("anthropic/") && typeof params.maxTokens === "number") {
+				requestOptions.max_tokens = params.maxTokens
 			}
 
 			const response = await this.client.chat.completions.create(requestOptions)
diff --git a/src/api/providers/lite-llm.ts b/src/api/providers/lite-llm.ts
index 7cea7411feb..ee3df36f217 100644
--- a/src/api/providers/lite-llm.ts
+++ b/src/api/providers/lite-llm.ts
@@ -9,6 +9,7 @@ import { ApiHandlerOptions } from "../../shared/api"
 
 import { ApiStream, ApiStreamUsageChunk } from "../transform/stream"
 import { convertToOpenAiMessages } from "../transform/openai-format"
+import { getModelParams } from "../transform/model-params"
 
 import type { SingleCompletionHandler, ApiHandlerCreateMessageMetadata } from "../index"
 import { RouterProvider } from "./router-provider"
@@ -38,6 +39,7 @@ export class LiteLLMHandler extends RouterProvider implements SingleCompletionHa
 		metadata?: ApiHandlerCreateMessageMetadata,
 	): ApiStream {
 		const { id: modelId, info } = await this.fetchModel()
+		const params = getModelParams({ format: "openai", modelId, model: info, settings: this.options })
 
 		const openAiMessages = convertToOpenAiMessages(messages)
 
@@ -105,7 +107,7 @@ export class LiteLLMHandler extends RouterProvider implements SingleCompletionHa
 		}
 
 		// Required by some providers; others default to max tokens allowed
-		let maxTokens: number | undefined = info.maxTokens ?? undefined
+		let maxTokens: number | undefined = params.maxTokens ?? undefined
 
 		const requestOptions: OpenAI.Chat.Completions.ChatCompletionCreateParamsStreaming = {
 			model: modelId,
@@ -117,8 +119,8 @@ export class LiteLLMHandler extends RouterProvider implements SingleCompletionHa
 			},
 		}
 
-		if (this.supportsTemperature(modelId)) {
-			requestOptions.temperature = this.options.modelTemperature ?? 0
+		if (typeof params.temperature === "number") {
+			requestOptions.temperature = params.temperature
 		}
 
 		try {
@@ -178,6 +180,7 @@ export class LiteLLMHandler extends RouterProvider implements SingleCompletionHa
 
 	async completePrompt(prompt: string): Promise<string> {
 		const { id: modelId, info } = await this.fetchModel()
+		const params = getModelParams({ format: "openai", modelId, model: info, settings: this.options })
 
 		try {
 			const requestOptions: OpenAI.Chat.Completions.ChatCompletionCreateParamsNonStreaming = {
@@ -185,11 +188,13 @@ export class LiteLLMHandler extends RouterProvider implements SingleCompletionHa
 				messages: [{ role: "user", content: prompt }],
 			}
 
-			if (this.supportsTemperature(modelId)) {
-				requestOptions.temperature = this.options.modelTemperature ?? 0
+			if (typeof params.temperature === "number") {
+				requestOptions.temperature = params.temperature
 			}
 
-			requestOptions.max_tokens = info.maxTokens
+			if (typeof params.maxTokens === "number") {
+				requestOptions.max_tokens = params.maxTokens
+			}
 
 			const response = await this.client.chat.completions.create(requestOptions)
 			return response.choices[0]?.message.content || ""
diff --git a/src/api/providers/openai-native.ts b/src/api/providers/openai-native.ts
index 053af7f5e5f..410127c7d04 100644
--- a/src/api/providers/openai-native.ts
+++ b/src/api/providers/openai-native.ts
@@ -7,7 +7,6 @@ import {
 	OpenAiNativeModelId,
 	openAiNativeModels,
 	OPENAI_NATIVE_DEFAULT_TEMPERATURE,
-	GPT5_DEFAULT_TEMPERATURE,
 	type ReasoningEffort,
 	type VerbosityLevel,
 	type ReasoningEffortWithMinimal,
@@ -26,7 +25,7 @@ import type { SingleCompletionHandler, ApiHandlerCreateMessageMetadata } from ".
 
 export type OpenAiNativeModel = ReturnType<OpenAiNativeHandler["getModel"]>
 
-// GPT-5 specific types
+// Responses API models
 
 export class OpenAiNativeHandler extends BaseProvider implements SingleCompletionHandler {
 	protected options: ApiHandlerOptions
@@ -35,8 +34,8 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 	private responseIdPromise: Promise<string | undefined> | undefined
 	private responseIdResolver: ((value: string | undefined) => void) | undefined
 
-	// Event types handled by the shared GPT-5 event processor to avoid duplication
-	private readonly gpt5CoreHandledTypes = new Set<string>([
+	// Event types handled by the shared Responses API event processor to avoid duplication
+	private readonly responsesCoreHandledTypes = new Set<string>([
 		"response.text.delta",
 		"response.output_text.delta",
 		"response.reasoning.delta",
@@ -60,13 +59,14 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 		this.client = new OpenAI({ baseURL: this.options.openAiNativeBaseUrl, apiKey })
 	}
 
-	private normalizeGpt5Usage(usage: any, model: OpenAiNativeModel): ApiStreamUsageChunk | undefined {
+	private normalizeResponsesUsage(usage: any, model: OpenAiNativeModel): ApiStreamUsageChunk | undefined {
 		if (!usage) return undefined
 
 		const totalInputTokens = usage.input_tokens ?? usage.prompt_tokens ?? 0
 		const totalOutputTokens = usage.output_tokens ?? usage.completion_tokens ?? 0
-		const cacheWriteTokens = usage.cache_creation_input_tokens ?? usage.cache_write_tokens ?? 0
-		const cacheReadTokens = usage.cache_read_input_tokens ?? usage.cache_read_tokens ?? usage.cached_tokens ?? 0
+		const cacheWriteTokens = usage.cache_creation_input_tokens ?? usage.cache_write_tokens ?? undefined
+		const cacheReadTokens =
+			usage.cache_read_input_tokens ?? usage.cache_read_tokens ?? usage.cached_tokens ?? undefined
 
 		const totalCost = calculateApiCostOpenAI(
 			model.info,
@@ -76,14 +76,22 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			cacheReadTokens || 0,
 		)
 
-		return {
+		const result: ApiStreamUsageChunk = {
 			type: "usage",
 			inputTokens: totalInputTokens,
 			outputTokens: totalOutputTokens,
-			cacheWriteTokens,
-			cacheReadTokens,
 			totalCost,
 		}
+
+		// Only include cache tokens if they're actually present
+		if (cacheWriteTokens !== undefined) {
+			result.cacheWriteTokens = cacheWriteTokens
+		}
+		if (cacheReadTokens !== undefined) {
+			result.cacheReadTokens = cacheReadTokens
+		}
+
+		return result
 	}
 
 	private resolveResponseId(responseId: string | undefined): void {
@@ -103,78 +111,16 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 		metadata?: ApiHandlerCreateMessageMetadata,
 	): ApiStream {
 		const model = this.getModel()
-		let id: "o3-mini" | "o3" | "o4-mini" | undefined
-
-		if (model.id.startsWith("o3-mini")) {
-			id = "o3-mini"
-		} else if (model.id.startsWith("o3")) {
-			id = "o3"
-		} else if (model.id.startsWith("o4-mini")) {
-			id = "o4-mini"
-		}
-
-		if (id) {
-			yield* this.handleReasonerMessage(model, id, systemPrompt, messages)
-		} else if (model.id.startsWith("o1")) {
-			yield* this.handleO1FamilyMessage(model, systemPrompt, messages)
-		} else if (this.isResponsesApiModel(model.id)) {
-			// Both GPT-5 and Codex Mini use the v1/responses endpoint
+		// Prefer Responses API when the model supports it; otherwise use Chat Completions
+		if (model.info.usesResponsesApi) {
 			yield* this.handleResponsesApiMessage(model, systemPrompt, messages, metadata)
-		} else {
-			yield* this.handleDefaultModelMessage(model, systemPrompt, messages)
+			return
 		}
-	}
-
-	private async *handleO1FamilyMessage(
-		model: OpenAiNativeModel,
-		systemPrompt: string,
-		messages: Anthropic.Messages.MessageParam[],
-	): ApiStream {
-		// o1 supports developer prompt with formatting
-		// o1-preview and o1-mini only support user messages
-		const isOriginalO1 = model.id === "o1"
-		const { reasoning } = this.getModel()
 
-		const response = await this.client.chat.completions.create({
-			model: model.id,
-			messages: [
-				{
-					role: isOriginalO1 ? "developer" : "user",
-					content: isOriginalO1 ? `Formatting re-enabled\n${systemPrompt}` : systemPrompt,
-				},
-				...convertToOpenAiMessages(messages),
-			],
-			stream: true,
-			stream_options: { include_usage: true },
-			...(reasoning && reasoning),
-		})
+		// If not using Responses API, fall back to Chat Completions for any models
+		// that are not marked as Responses-only in the type metadata. No hardcoded families.
 
-		yield* this.handleStreamResponse(response, model)
-	}
-
-	private async *handleReasonerMessage(
-		model: OpenAiNativeModel,
-		family: "o3-mini" | "o3" | "o4-mini",
-		systemPrompt: string,
-		messages: Anthropic.Messages.MessageParam[],
-	): ApiStream {
-		const { reasoning } = this.getModel()
-
-		const stream = await this.client.chat.completions.create({
-			model: family,
-			messages: [
-				{
-					role: "developer",
-					content: `Formatting re-enabled\n${systemPrompt}`,
-				},
-				...convertToOpenAiMessages(messages),
-			],
-			stream: true,
-			stream_options: { include_usage: true },
-			...(reasoning && reasoning),
-		})
-
-		yield* this.handleStreamResponse(stream, model)
+		yield* this.handleDefaultModelMessage(model, systemPrompt, messages)
 	}
 
 	private async *handleDefaultModelMessage(
@@ -182,18 +128,22 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 		systemPrompt: string,
 		messages: Anthropic.Messages.MessageParam[],
 	): ApiStream {
-		const { reasoning, verbosity } = this.getModel()
+		const { reasoning, verbosity, temperature } = this.getModel()
 
 		// Prepare the request parameters
 		const params: any = {
 			model: model.id,
-			temperature: this.options.modelTemperature ?? OPENAI_NATIVE_DEFAULT_TEMPERATURE,
 			messages: [{ role: "system", content: systemPrompt }, ...convertToOpenAiMessages(messages)],
 			stream: true,
 			stream_options: { include_usage: true },
 			...(reasoning && reasoning),
 		}
 
+		// Only include temperature when the model supports it
+		if (typeof temperature === "number") {
+			params.temperature = temperature
+		}
+
 		// Add verbosity if supported
 		if (verbosity) {
 			params.verbosity = verbosity
@@ -220,12 +170,12 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 		metadata?: ApiHandlerCreateMessageMetadata,
 	): ApiStream {
 		// Prefer the official SDK Responses API with streaming; fall back to fetch-based SSE if needed.
-		const { verbosity } = this.getModel()
+		const { verbosity, temperature } = this.getModel()
 
-		// Both GPT-5 and Codex Mini use the same v1/responses endpoint format
+		// Any model flagged with usesResponsesApi should use the v1/responses endpoint
 
-		// Resolve reasoning effort (supports "minimal" for GPT‑5)
-		const reasoningEffort = this.getGpt5ReasoningEffort(model)
+		// Resolve reasoning effort for Responses API models
+		const reasoningEffort = this.getResponsesReasoningEffort(model)
 
 		// Wait for any pending response ID from a previous request to be available
 		// This handles the race condition with fast nano model responses
@@ -267,7 +217,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 		// Build a request body (also used for fallback)
 		// Ensure we explicitly pass max_output_tokens for GPT‑5 based on Roo's reserved model response calculation
 		// so requests do not default to very large limits (e.g., 120k).
-		interface Gpt5RequestBody {
+		interface ResponsesRequestBody {
 			model: string
 			input: string
 			stream: boolean
@@ -278,7 +228,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			previous_response_id?: string
 		}
 
-		const requestBody: Gpt5RequestBody = {
+		const requestBody: ResponsesRequestBody = {
 			model: model.id,
 			input: formattedInput,
 			stream: true,
@@ -288,14 +238,19 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 					...(this.options.enableGpt5ReasoningSummary ? { summary: "auto" as const } : {}),
 				},
 			}),
-			text: { verbosity: (verbosity || "medium") as VerbosityLevel },
-			temperature: this.options.modelTemperature ?? GPT5_DEFAULT_TEMPERATURE,
+			// Only include text.verbosity when the model supports it. Default to "medium".
+			...(model.info.supportsVerbosity ? { text: { verbosity: (verbosity || "medium") as VerbosityLevel } } : {}),
 			// Explicitly include the calculated max output tokens for GPT‑5.
 			// Use the per-request reserved output computed by Roo (params.maxTokens from getModelParams).
 			...(model.maxTokens ? { max_output_tokens: model.maxTokens } : {}),
 			...(requestPreviousResponseId && { previous_response_id: requestPreviousResponseId }),
 		}
 
+		// Attach temperature only when provided; capability gating happens in getModelParams
+		if (typeof temperature === "number") {
+			;(requestBody as any).temperature = temperature
+		}
+
 		try {
 			// Use the official SDK
 			const stream = (await (this.client as any).responses.create(requestBody)) as AsyncIterable<any>
@@ -307,7 +262,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			}
 
 			for await (const event of stream) {
-				for await (const outChunk of this.processGpt5Event(event, model)) {
+				for await (const outChunk of this.processResponsesEvent(event, model)) {
 					yield outChunk
 				}
 			}
@@ -321,7 +276,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			if (is400Error && requestBody.previous_response_id && isPreviousResponseError) {
 				// Log the error and retry without the previous_response_id
 				console.warn(
-					`[GPT-5] Previous response ID not found (${requestBody.previous_response_id}), retrying without it`,
+					`[Responses] Previous response ID not found (${requestBody.previous_response_id}), retrying without it`,
 				)
 
 				// Remove the problematic previous_response_id and retry
@@ -339,31 +294,31 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 
 					if (typeof (retryStream as any)[Symbol.asyncIterator] !== "function") {
 						// If SDK fails, fall back to SSE
-						yield* this.makeGpt5ResponsesAPIRequest(retryRequestBody, model, metadata)
+						yield* this.makeResponsesAPIRequest(retryRequestBody, model, metadata)
 						return
 					}
 
 					for await (const event of retryStream) {
-						for await (const outChunk of this.processGpt5Event(event, model)) {
+						for await (const outChunk of this.processResponsesEvent(event, model)) {
 							yield outChunk
 						}
 					}
 					return
 				} catch (retryErr) {
 					// If retry also fails, fall back to SSE
-					yield* this.makeGpt5ResponsesAPIRequest(retryRequestBody, model, metadata)
+					yield* this.makeResponsesAPIRequest(retryRequestBody, model, metadata)
 					return
 				}
 			}
 
 			// For other errors, fallback to manual SSE via fetch
-			yield* this.makeGpt5ResponsesAPIRequest(requestBody, model, metadata)
+			yield* this.makeResponsesAPIRequest(requestBody, model, metadata)
 		}
 	}
 
 	private formatInputForResponsesAPI(systemPrompt: string, messages: Anthropic.Messages.MessageParam[]): string {
 		// Format the conversation for the Responses API input field
-		// Use Developer role format for GPT-5 (aligning with o1/o3 Developer role usage per GPT-5 Responses guidance)
+		// Use Developer role format (aligning with o1/o3 Developer role usage per OpenAI Responses guidance)
 		// This ensures consistent instruction handling across reasoning models
 		let formattedInput = `Developer: ${systemPrompt}\n\n`
 
@@ -409,7 +364,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 		return ""
 	}
 
-	private async *makeGpt5ResponsesAPIRequest(
+	private async *makeResponsesAPIRequest(
 		requestBody: any,
 		model: OpenAiNativeModel,
 		metadata?: ApiHandlerCreateMessageMetadata,
@@ -432,7 +387,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			if (!response.ok) {
 				const errorText = await response.text()
 
-				let errorMessage = `GPT-5 API request failed (${response.status})`
+				let errorMessage = `Responses API request failed (${response.status})`
 				let errorDetails = ""
 
 				// Try to parse error as JSON for better error messages
@@ -457,7 +412,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 				if (response.status === 400 && requestBody.previous_response_id && isPreviousResponseError) {
 					// Log the error and retry without the previous_response_id
 					console.warn(
-						`[GPT-5 SSE] Previous response ID not found (${requestBody.previous_response_id}), retrying without it`,
+						`[Responses SSE] Previous response ID not found (${requestBody.previous_response_id}), retrying without it`,
 					)
 
 					// Remove the problematic previous_response_id and retry
@@ -482,32 +437,32 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 
 					if (!retryResponse.ok) {
 						// If retry also fails, throw the original error
-						throw new Error(`GPT-5 API retry failed (${retryResponse.status})`)
+						throw new Error(`Responses API retry failed (${retryResponse.status})`)
 					}
 
 					if (!retryResponse.body) {
-						throw new Error("GPT-5 Responses API error: No response body from retry request")
+						throw new Error("Responses API error: No response body from retry request")
 					}
 
 					// Handle the successful retry response
-					yield* this.handleGpt5StreamResponse(retryResponse.body, model)
+					yield* this.handleResponsesStreamResponse(retryResponse.body, model)
 					return
 				}
 
 				// Provide user-friendly error messages based on status code
 				switch (response.status) {
 					case 400:
-						errorMessage = "Invalid request to GPT-5 API. Please check your input parameters."
+						errorMessage = "Invalid request to Responses API. Please check your input parameters."
 						break
 					case 401:
 						errorMessage = "Authentication failed. Please check your OpenAI API key."
 						break
 					case 403:
-						errorMessage = "Access denied. Your API key may not have access to GPT-5 models."
+						errorMessage = "Access denied. Your API key may not have access to the requested model."
 						break
 					case 404:
 						errorMessage =
-							"GPT-5 API endpoint not found. The model may not be available yet or requires a different configuration."
+							"Responses API endpoint not found. The model may not be available yet or requires a different configuration."
 						break
 					case 429:
 						errorMessage = "Rate limit exceeded. Please try again later."
@@ -518,7 +473,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 						errorMessage = "OpenAI service error. Please try again later."
 						break
 					default:
-						errorMessage = `GPT-5 API error (${response.status})`
+						errorMessage = `Responses API error (${response.status})`
 				}
 
 				// Append details if available
@@ -530,27 +485,27 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			}
 
 			if (!response.body) {
-				throw new Error("GPT-5 Responses API error: No response body")
+				throw new Error("Responses API error: No response body")
 			}
 
 			// Handle streaming response
-			yield* this.handleGpt5StreamResponse(response.body, model)
+			yield* this.handleResponsesStreamResponse(response.body, model)
 		} catch (error) {
 			if (error instanceof Error) {
 				// Re-throw with the original error message if it's already formatted
-				if (error.message.includes("GPT-5")) {
+				if (error.message.includes("Responses API")) {
 					throw error
 				}
 				// Otherwise, wrap it with context
-				throw new Error(`Failed to connect to GPT-5 API: ${error.message}`)
+				throw new Error(`Failed to connect to Responses API: ${error.message}`)
 			}
 			// Handle non-Error objects
-			throw new Error(`Unexpected error connecting to GPT-5 API`)
+			throw new Error(`Unexpected error connecting to Responses API`)
 		}
 	}
 
 	/**
-	 * Prepares the input and conversation continuity parameters for a GPT-5 API call.
+	 * Prepares the input and conversation continuity parameters for a Responses API call.
 	 *
 	 * - If a `previousResponseId` is available (either from metadata or the handler's state),
 	 *   it formats only the most recent user message for the input and returns the response ID
@@ -582,7 +537,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 	}
 
 	/**
-	 * Handles the streaming response from the GPT-5 Responses API.
+	 * Handles the streaming response from the OpenAI Responses API.
 	 *
 	 * This function iterates through the Server-Sent Events (SSE) stream, parses each event,
 	 * and yields structured data chunks (`ApiStream`). It handles a wide variety of event types,
@@ -596,7 +551,10 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 	 * - Status events (`response.created`, `response.in_progress`, etc.) as they are informational
 	 *   and do not affect the final output.
 	 */
-	private async *handleGpt5StreamResponse(body: ReadableStream<Uint8Array>, model: OpenAiNativeModel): ApiStream {
+	private async *handleResponsesStreamResponse(
+		body: ReadableStream<Uint8Array>,
+		model: OpenAiNativeModel,
+	): ApiStream {
 		const reader = body.getReader()
 		const decoder = new TextDecoder()
 		let buffer = ""
@@ -629,8 +587,8 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 							}
 
 							// Delegate standard event types to the shared processor to avoid duplication
-							if (parsed?.type && this.gpt5CoreHandledTypes.has(parsed.type)) {
-								for await (const outChunk of this.processGpt5Event(parsed, model)) {
+							if (parsed?.type && this.responsesCoreHandledTypes.has(parsed.type)) {
+								for await (const outChunk of this.processResponsesEvent(parsed, model)) {
 									// Track whether we've emitted any content so fallback handling can decide appropriately
 									if (outChunk.type === "text" || outChunk.type === "reasoning") {
 										hasContent = true
@@ -670,7 +628,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 								}
 								// Check for usage in the complete response
 								if (parsed.response.usage) {
-									const usageData = this.normalizeGpt5Usage(parsed.response.usage, model)
+									const usageData = this.normalizeResponsesUsage(parsed.response.usage, model)
 									if (usageData) {
 										yield usageData
 									}
@@ -910,7 +868,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 								// Response failed
 								if (parsed.error || parsed.message) {
 									throw new Error(
-										`GPT-5 response failed: ${parsed.error?.message || parsed.message || "Unknown failure"}`,
+										`Responses API response failed: ${parsed.error?.message || parsed.message || "Unknown failure"}`,
 									)
 								}
 							} else if (parsed.type === "response.completed" || parsed.type === "response.done") {
@@ -990,7 +948,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 								}
 							} else if (parsed.usage) {
 								// Handle usage if it arrives in a separate, non-completed event
-								const usageData = this.normalizeGpt5Usage(parsed.usage, model)
+								const usageData = this.normalizeResponsesUsage(parsed.usage, model)
 								if (usageData) {
 									yield usageData
 								}
@@ -1026,9 +984,9 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			// This can happen in certain edge cases and shouldn't break the flow
 		} catch (error) {
 			if (error instanceof Error) {
-				throw new Error(`Error processing GPT-5 response stream: ${error.message}`)
+				throw new Error(`Error processing Responses API stream: ${error.message}`)
 			}
-			throw new Error("Unexpected error processing GPT-5 response stream")
+			throw new Error("Unexpected error processing Responses API stream")
 		} finally {
 			reader.releaseLock()
 		}
@@ -1038,7 +996,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 	 * Shared processor for GPT‑5 Responses API events.
 	 * Used by both the official SDK streaming path and (optionally) by the SSE fallback.
 	 */
-	private async *processGpt5Event(event: any, model: OpenAiNativeModel): ApiStream {
+	private async *processResponsesEvent(event: any, model: OpenAiNativeModel): ApiStream {
 		// Persist response id for conversation continuity when available
 		if (event?.response?.id) {
 			this.resolveResponseId(event.response.id)
@@ -1096,7 +1054,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 		// Completion events that may carry usage
 		if (event?.type === "response.done" || event?.type === "response.completed") {
 			const usage = event?.response?.usage || event?.usage || undefined
-			const usageData = this.normalizeGpt5Usage(usage, model)
+			const usageData = this.normalizeResponsesUsage(usage, model)
 			if (usageData) {
 				yield usageData
 			}
@@ -1110,20 +1068,20 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 		}
 
 		if (event?.usage) {
-			const usageData = this.normalizeGpt5Usage(event.usage, model)
+			const usageData = this.normalizeResponsesUsage(event.usage, model)
 			if (usageData) {
 				yield usageData
 			}
 		}
 	}
 
-	private getGpt5ReasoningEffort(model: OpenAiNativeModel): ReasoningEffortWithMinimal | undefined {
+	private getResponsesReasoningEffort(model: OpenAiNativeModel): ReasoningEffortWithMinimal | undefined {
 		const { reasoning, info } = model
 
 		// Check if reasoning effort is configured
 		if (reasoning && "reasoning_effort" in reasoning) {
 			const effort = reasoning.reasoning_effort as string
-			// Support all effort levels including "minimal" for GPT-5
+			// Support all effort levels including "minimal" for Responses API models
 			if (effort === "minimal" || effort === "low" || effort === "medium" || effort === "high") {
 				return effort as ReasoningEffortWithMinimal
 			}
@@ -1133,15 +1091,6 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 		return info.reasoningEffort as ReasoningEffortWithMinimal | undefined
 	}
 
-	private isGpt5Model(modelId: string): boolean {
-		return modelId.startsWith("gpt-5")
-	}
-
-	private isResponsesApiModel(modelId: string): boolean {
-		// Both GPT-5 and Codex Mini use the v1/responses endpoint
-		return modelId.startsWith("gpt-5") || modelId === "codex-mini-latest"
-	}
-
 	private async *handleStreamResponse(
 		stream: AsyncIterable<OpenAI.Chat.Completions.ChatCompletionChunk>,
 		model: OpenAiNativeModel,
@@ -1205,11 +1154,11 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			modelId: id,
 			model: info,
 			settings: this.options,
-			defaultTemperature: this.isGpt5Model(id) ? GPT5_DEFAULT_TEMPERATURE : OPENAI_NATIVE_DEFAULT_TEMPERATURE,
+			defaultTemperature: info.supportsTemperature ? OPENAI_NATIVE_DEFAULT_TEMPERATURE : undefined,
 		})
 
-		// For models using the Responses API (GPT-5 and Codex Mini), ensure we support reasoning effort
-		if (this.isResponsesApiModel(id)) {
+		// For models using the Responses API, ensure we support reasoning effort
+		if (info.usesResponsesApi) {
 			const effort =
 				(this.options.reasoningEffort as ReasoningEffortWithMinimal | undefined) ??
 				(info.reasoningEffort as ReasoningEffortWithMinimal | undefined)
@@ -1219,13 +1168,20 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 			}
 		}
 
-		// The o3 models are named like "o3-mini-[reasoning-effort]", which are
-		// not valid model ids, so we need to strip the suffix.
-		return { id: id.startsWith("o3-mini") ? "o3-mini" : id, info, ...params, verbosity: params.verbosity }
+		// Some models are presented with an effort suffix (e.g. o3-high, o3-mini-high, o4-mini-high)
+		// which are not valid model IDs. Normalize to the base family ID for API calls.
+		const normalizedId = (() => {
+			if (id.startsWith("o3-mini")) return "o3-mini" as OpenAiNativeModelId
+			if (id.startsWith("o4-mini")) return "o4-mini" as OpenAiNativeModelId
+			if (id.startsWith("o3")) return "o3" as OpenAiNativeModelId
+			return id
+		})()
+
+		return { id: normalizedId, info, ...params, verbosity: params.verbosity }
 	}
 
 	/**
-	 * Gets the last GPT-5 response ID captured from the Responses API stream.
+	 * Gets the last response ID captured from the Responses API stream.
 	 * Used for maintaining conversation continuity across requests.
 	 * @returns The response ID, or undefined if not available yet
 	 */
@@ -1234,7 +1190,7 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 	}
 
 	/**
-	 * Sets the last GPT-5 response ID for conversation continuity.
+	 * Sets the last response ID for conversation continuity.
 	 * Typically only used in tests or special flows.
 	 * @param responseId The GPT-5 response ID to store
 	 */
@@ -1244,11 +1200,11 @@ export class OpenAiNativeHandler extends BaseProvider implements SingleCompletio
 
 	async completePrompt(prompt: string): Promise<string> {
 		try {
-			const { id, temperature, reasoning, verbosity } = this.getModel()
-			const isResponsesApi = this.isResponsesApiModel(id)
+			const { id, temperature, reasoning, verbosity, info } = this.getModel()
 
-			if (isResponsesApi) {
-				// Models that use the Responses API (GPT-5 and Codex Mini) don't support non-streaming completion
+			// Codex model doesn't support the Chat Completions API
+			// TODO: add a flag for supports chat completions
+			if (id === "codex-mini-latest") {
 				throw new Error(`completePrompt is not supported for ${id}. Use createMessage (Responses API) instead.`)
 			}
 
diff --git a/src/api/providers/router-provider.ts b/src/api/providers/router-provider.ts
index 25e9a11e1b2..2bc1eb2cfcb 100644
--- a/src/api/providers/router-provider.ts
+++ b/src/api/providers/router-provider.ts
@@ -67,8 +67,4 @@ export abstract class RouterProvider extends BaseProvider {
 			? { id, info: this.models[id] }
 			: { id: this.defaultModelId, info: this.defaultModelInfo }
 	}
-
-	protected supportsTemperature(modelId: string): boolean {
-		return !modelId.startsWith("openai/o3-mini")
-	}
 }
diff --git a/src/api/providers/unbound.ts b/src/api/providers/unbound.ts
index bc85dfd499f..2711632d596 100644
--- a/src/api/providers/unbound.ts
+++ b/src/api/providers/unbound.ts
@@ -10,6 +10,7 @@ import { convertToOpenAiMessages } from "../transform/openai-format"
 import { addCacheBreakpoints as addAnthropicCacheBreakpoints } from "../transform/caching/anthropic"
 import { addCacheBreakpoints as addGeminiCacheBreakpoints } from "../transform/caching/gemini"
 import { addCacheBreakpoints as addVertexCacheBreakpoints } from "../transform/caching/vertex"
+import { getModelParams } from "../transform/model-params"
 
 import type { SingleCompletionHandler, ApiHandlerCreateMessageMetadata } from "../index"
 import { RouterProvider } from "./router-provider"
@@ -58,6 +59,7 @@ export class UnboundHandler extends RouterProvider implements SingleCompletionHa
 		metadata?: ApiHandlerCreateMessageMetadata,
 	): ApiStream {
 		const { id: modelId, info } = await this.fetchModel()
+		const params = getModelParams({ format: "openai", modelId, model: info, settings: this.options })
 
 		const openAiMessages: OpenAI.Chat.ChatCompletionMessageParam[] = [
 			{ role: "system", content: systemPrompt },
@@ -76,16 +78,8 @@ export class UnboundHandler extends RouterProvider implements SingleCompletionHa
 			addVertexCacheBreakpoints(messages)
 		}
 
-		// Required by Anthropic; other providers default to max tokens allowed.
-		let maxTokens: number | undefined
-
-		if (modelId.startsWith("anthropic/")) {
-			maxTokens = info.maxTokens ?? undefined
-		}
-
 		const requestOptions: UnboundChatCompletionCreateParamsStreaming = {
 			model: modelId.split("/")[1],
-			max_tokens: maxTokens,
 			messages: openAiMessages,
 			stream: true,
 			unbound_metadata: {
@@ -95,8 +89,13 @@ export class UnboundHandler extends RouterProvider implements SingleCompletionHa
 			},
 		}
 
-		if (this.supportsTemperature(modelId)) {
-			requestOptions.temperature = this.options.modelTemperature ?? 0
+		// Only set max_tokens for Anthropic models
+		if (modelId.startsWith("anthropic/") && typeof params.maxTokens === "number") {
+			requestOptions.max_tokens = params.maxTokens
+		}
+
+		if (typeof params.temperature === "number") {
+			requestOptions.temperature = params.temperature
 		}
 
 		const { data: completion } = await this.client.chat.completions
@@ -134,6 +133,7 @@ export class UnboundHandler extends RouterProvider implements SingleCompletionHa
 
 	async completePrompt(prompt: string): Promise<string> {
 		const { id: modelId, info } = await this.fetchModel()
+		const params = getModelParams({ format: "openai", modelId, model: info, settings: this.options })
 
 		try {
 			const requestOptions: UnboundChatCompletionCreateParamsNonStreaming = {
@@ -144,12 +144,13 @@ export class UnboundHandler extends RouterProvider implements SingleCompletionHa
 				},
 			}
 
-			if (this.supportsTemperature(modelId)) {
-				requestOptions.temperature = this.options.modelTemperature ?? 0
+			if (typeof params.temperature === "number") {
+				requestOptions.temperature = params.temperature
 			}
 
-			if (modelId.startsWith("anthropic/")) {
-				requestOptions.max_tokens = info.maxTokens
+			// Only set max_tokens for Anthropic models
+			if (modelId.startsWith("anthropic/") && typeof params.maxTokens === "number") {
+				requestOptions.max_tokens = params.maxTokens
 			}
 
 			const response = await this.client.chat.completions.create(requestOptions, { headers: DEFAULT_HEADERS })
diff --git a/src/api/providers/xai.ts b/src/api/providers/xai.ts
index 596c9e89b8c..5fa22262f61 100644
--- a/src/api/providers/xai.ts
+++ b/src/api/providers/xai.ts
@@ -36,7 +36,13 @@ export class XAIHandler extends BaseProvider implements SingleCompletionHandler
 				: xaiDefaultModelId
 
 		const info = xaiModels[id]
-		const params = getModelParams({ format: "openai", modelId: id, model: info, settings: this.options })
+		const params = getModelParams({
+			format: "openai",
+			modelId: id,
+			model: info,
+			settings: this.options,
+			defaultTemperature: XAI_DEFAULT_TEMPERATURE,
+		})
 		return { id, info, ...params }
 	}
 
@@ -45,13 +51,13 @@ export class XAIHandler extends BaseProvider implements SingleCompletionHandler
 		messages: Anthropic.Messages.MessageParam[],
 		metadata?: ApiHandlerCreateMessageMetadata,
 	): ApiStream {
-		const { id: modelId, info: modelInfo, reasoning } = this.getModel()
+		const { id: modelId, info: modelInfo, reasoning, temperature, maxTokens } = this.getModel()
 
 		// Use the OpenAI-compatible API.
 		const stream = await this.client.chat.completions.create({
 			model: modelId,
-			max_tokens: modelInfo.maxTokens,
-			temperature: this.options.modelTemperature ?? XAI_DEFAULT_TEMPERATURE,
+			max_tokens: typeof maxTokens === "number" ? maxTokens : modelInfo.maxTokens,
+			...(typeof temperature === "number" ? { temperature } : {}),
 			messages: [{ role: "system", content: systemPrompt }, ...convertToOpenAiMessages(messages)],
 			stream: true,
 			stream_options: { include_usage: true },
@@ -78,12 +84,15 @@ export class XAIHandler extends BaseProvider implements SingleCompletionHandler
 			if (chunk.usage) {
 				// Extract detailed token information if available
 				// First check for prompt_tokens_details structure (real API response)
-				const promptDetails = "prompt_tokens_details" in chunk.usage ? chunk.usage.prompt_tokens_details : null;
-				const cachedTokens = promptDetails && "cached_tokens" in promptDetails ? promptDetails.cached_tokens : 0;
+				const promptDetails = "prompt_tokens_details" in chunk.usage ? chunk.usage.prompt_tokens_details : null
+				const cachedTokens = promptDetails && "cached_tokens" in promptDetails ? promptDetails.cached_tokens : 0
 
 				// Fall back to direct fields in usage (used in test mocks)
-				const readTokens = cachedTokens || ("cache_read_input_tokens" in chunk.usage ? (chunk.usage as any).cache_read_input_tokens : 0);
-				const writeTokens = "cache_creation_input_tokens" in chunk.usage ? (chunk.usage as any).cache_creation_input_tokens : 0;
+				const readTokens =
+					cachedTokens ||
+					("cache_read_input_tokens" in chunk.usage ? (chunk.usage as any).cache_read_input_tokens : 0)
+				const writeTokens =
+					"cache_creation_input_tokens" in chunk.usage ? (chunk.usage as any).cache_creation_input_tokens : 0
 
 				yield {
 					type: "usage",
diff --git a/src/api/transform/__tests__/model-params.spec.ts b/src/api/transform/__tests__/model-params.spec.ts
index bd75e7eafb9..970472aed51 100644
--- a/src/api/transform/__tests__/model-params.spec.ts
+++ b/src/api/transform/__tests__/model-params.spec.ts
@@ -793,6 +793,7 @@ describe("getModelParams", () => {
 		it("should include verbosity when specified in settings", () => {
 			const model: ModelInfo = {
 				...baseModel,
+				supportsVerbosity: true,
 			}
 
 			const result = getModelParams({
@@ -807,6 +808,7 @@ describe("getModelParams", () => {
 		it("should handle medium verbosity", () => {
 			const model: ModelInfo = {
 				...baseModel,
+				supportsVerbosity: true,
 			}
 
 			const result = getModelParams({
@@ -821,6 +823,7 @@ describe("getModelParams", () => {
 		it("should handle high verbosity", () => {
 			const model: ModelInfo = {
 				...baseModel,
+				supportsVerbosity: true,
 			}
 
 			const result = getModelParams({
@@ -850,6 +853,7 @@ describe("getModelParams", () => {
 			const model: ModelInfo = {
 				...baseModel,
 				supportsReasoningEffort: true,
+				supportsVerbosity: true,
 			}
 
 			const result = getModelParams({
@@ -870,6 +874,7 @@ describe("getModelParams", () => {
 			const model: ModelInfo = {
 				...baseModel,
 				supportsReasoningBudget: true,
+				supportsVerbosity: true,
 			}
 
 			const result = getModelParams({
diff --git a/src/api/transform/model-params.ts b/src/api/transform/model-params.ts
index 933697c0a53..c06c78afac2 100644
--- a/src/api/transform/model-params.ts
+++ b/src/api/transform/model-params.ts
@@ -3,11 +3,9 @@ import {
 	type ProviderSettings,
 	type VerbosityLevel,
 	type ReasoningEffortWithMinimal,
-	ANTHROPIC_DEFAULT_MAX_TOKENS,
 } from "@roo-code/types"
 
 import {
-	DEFAULT_HYBRID_REASONING_MODEL_MAX_TOKENS,
 	DEFAULT_HYBRID_REASONING_MODEL_THINKING_TOKENS,
 	GEMINI_25_PRO_MIN_THINKING_TOKENS,
 	shouldUseReasoningBudget,
@@ -94,7 +92,7 @@ export function getModelParams({
 		format,
 	})
 
-	let temperature = customTemperature ?? defaultTemperature
+	let temperature: number | undefined = customTemperature ?? defaultTemperature
 	let reasoningBudget: ModelParams["reasoningBudget"] = undefined
 	let reasoningEffort: ModelParams["reasoningEffort"] = undefined
 	let verbosity: VerbosityLevel | undefined = customVerbosity
@@ -133,6 +131,16 @@ export function getModelParams({
 		reasoningEffort = effort as ReasoningEffortWithMinimal
 	}
 
+	// Capability gating
+	// - If the model does not support temperature, drop it from params
+	if (model.supportsTemperature === false) {
+		temperature = undefined
+	}
+
+	// Do not gate verbosity here; preserve user's setting. Providers will gate
+	// support at request-build time (e.g., only send to APIs that support it).
+	// Check the openai-native.ts file for more details.
+
 	const params: BaseModelParams = { maxTokens, temperature, reasoningEffort, reasoningBudget, verbosity }
 
 	if (format === "anthropic") {
@@ -142,12 +150,6 @@ export function getModelParams({
 			reasoning: getAnthropicReasoning({ model, reasoningBudget, reasoningEffort, settings }),
 		}
 	} else if (format === "openai") {
-		// Special case for o1 and o3-mini, which don't support temperature.
-		// TODO: Add a `supportsTemperature` field to the model info.
-		if (modelId.startsWith("o1") || modelId.startsWith("o3-mini")) {
-			params.temperature = undefined
-		}
-
 		return {
 			format,
 			...params,
@@ -160,15 +162,6 @@ export function getModelParams({
 			reasoning: getGeminiReasoning({ model, reasoningBudget, reasoningEffort, settings }),
 		}
 	} else {
-		// Special case for o1-pro, which doesn't support temperature.
-		// Note that OpenRouter's `supported_parameters` field includes
-		// `temperature`, which is probably a bug.
-		// TODO: Add a `supportsTemperature` field to the model info and populate
-		// it appropriately in the OpenRouter fetcher.
-		if (modelId === "openai/o1-pro") {
-			params.temperature = undefined
-		}
-
 		return {
 			format,
 			...params,