Set max_tokens key name based on completion endpoint

sjmonson · sjmonson · commit 68e69bca4b26 · 2025-10-09T14:59:50.000-04:00
diff --git a/src/guidellm/backend/openai.py b/src/guidellm/backend/openai.py
@@ -31,7 +31,8 @@
 TEXT_COMPLETIONS_PATH = "/v1/completions"
 CHAT_COMPLETIONS_PATH = "/v1/chat/completions"
 
-EndpointType = Literal["chat_completions", "models", "text_completions"]
+CompletionEndpointType = Literal["text_completions", "chat_completions"]
+EndpointType = Literal["models"] | CompletionEndpointType
 CHAT_COMPLETIONS: EndpointType = "chat_completions"
 MODELS: EndpointType = "models"
 TEXT_COMPLETIONS: EndpointType = "text_completions"
@@ -447,7 +448,7 @@ def _extra_body(self, endpoint_type: EndpointType) -> dict[str, Any]:
 
     def _completions_payload(
         self,
-        endpoint_type: EndpointType,
+        endpoint_type: CompletionEndpointType,
         orig_kwargs: Optional[dict],
         max_output_tokens: Optional[int],
         **kwargs,
@@ -467,7 +468,10 @@ def _completions_payload(
                 self.__class__.__name__,
                 max_output_tokens or self.max_output_tokens,
             )
-            payload["max_tokens"] = max_output_tokens or self.max_output_tokens
+            max_output_key = settings.openai.max_output_key.get(
+                endpoint_type, "max_tokens"
+            )
+            payload[max_output_key] = max_output_tokens or self.max_output_tokens
 
             if max_output_tokens:
                 # only set stop and ignore_eos if max_output_tokens set at request level
diff --git a/src/guidellm/config.py b/src/guidellm/config.py
@@ -88,6 +88,10 @@ class OpenAISettings(BaseModel):
     base_url: str = "http://localhost:8000"
     max_output_tokens: int = 16384
     verify: bool = True
+    max_output_key: dict[Literal["text_completions", "chat_completions"], str] = {
+        "text_completions": "max_tokens",
+        "chat_completions": "max_completion_tokens",
+    }
 
 
 class ReportGenerationSettings(BaseModel):