Migrate remaining code off of requests.arguments

sjmonson · sjmonson · commit 7e546e2c51d7 · 2025-11-21T18:11:36.000-05:00
Signed-off-by: Samuel Monson &lt;smonson@redhat.com&gt;
diff --git a/src/guidellm/backends/openai.py b/src/guidellm/backends/openai.py
@@ -289,7 +289,10 @@ async def resolve(  # type: ignore[override]
             request_info.timings.request_end = time.time()
             response.raise_for_status()
             data = response.json()
-            yield response_handler.compile_non_streaming(request, data), request_info
+            yield (
+                response_handler.compile_non_streaming(request, arguments, data),
+                request_info,
+            )
             return
 
         try:
@@ -328,10 +331,10 @@ async def resolve(  # type: ignore[override]
                     request_info.timings.token_iterations += iterations
 
             request_info.timings.request_end = time.time()
-            yield response_handler.compile_streaming(request), request_info
+            yield response_handler.compile_streaming(request, arguments), request_info
         except asyncio.CancelledError as err:
             # Yield current result to store iterative results before propagating
-            yield response_handler.compile_streaming(request), request_info
+            yield response_handler.compile_streaming(request, arguments), request_info
             raise err
 
     def _resolve_validate_kwargs(
diff --git a/src/guidellm/backends/response_handlers.py b/src/guidellm/backends/response_handlers.py
@@ -12,6 +12,7 @@
 from typing import Any, Protocol, cast
 
 from guidellm.schemas import GenerationRequest, GenerationResponse, UsageMetrics
+from guidellm.schemas.request import GenerationRequestArguments
 from guidellm.utils import RegistryMixin, json
 
 __all__ = [
@@ -33,7 +34,10 @@ class GenerationResponseHandler(Protocol):
     """
 
     def compile_non_streaming(
-        self, request: GenerationRequest, response: Any
+        self,
+        request: GenerationRequest,
+        arguments: GenerationRequestArguments,
+        response: Any,
     ) -> GenerationResponse:
         """
         Process a complete non-streaming API response.
@@ -53,7 +57,9 @@ def add_streaming_line(self, line: str) -> int | None:
         """
         ...
 
-    def compile_streaming(self, request: GenerationRequest) -> GenerationResponse:
+    def compile_streaming(
+        self, request: GenerationRequest, arguments: GenerationRequestArguments
+    ) -> GenerationResponse:
         """
         Compile accumulated streaming data into a final response.
 
@@ -127,7 +133,10 @@ def __init__(self):
         self.streaming_response_id: str | None = None
 
     def compile_non_streaming(
-        self, request: GenerationRequest, response: dict
+        self,
+        request: GenerationRequest,
+        arguments: GenerationRequestArguments,
+        response: dict,
     ) -> GenerationResponse:
         """
         Process a complete text completion response.
@@ -143,9 +152,7 @@ def compile_non_streaming(
 
         return GenerationResponse(
             request_id=request.request_id,
-            request_args=str(
-                request.arguments.model_dump() if request.arguments else None
-            ),
+            request_args=arguments.model_dump_json(),
             response_id=response.get("id"),  # use vLLM ID if available
             text=text,
             input_metrics=input_metrics,
@@ -181,7 +188,9 @@ def add_streaming_line(self, line: str) -> int | None:
 
         return 1 if updated else 0
 
-    def compile_streaming(self, request: GenerationRequest) -> GenerationResponse:
+    def compile_streaming(
+        self, request: GenerationRequest, arguments: GenerationRequestArguments
+    ) -> GenerationResponse:
         """
         Compile accumulated streaming text chunks into a final response.
 
@@ -193,9 +202,7 @@ def compile_streaming(self, request: GenerationRequest) -> GenerationResponse:
 
         return GenerationResponse(
             request_id=request.request_id,
-            request_args=str(
-                request.arguments.model_dump() if request.arguments else None
-            ),
+            request_args=arguments.model_dump_json(),
             response_id=self.streaming_response_id,  # use vLLM ID if available
             text=text,
             input_metrics=input_metrics,
@@ -290,7 +297,10 @@ class ChatCompletionsResponseHandler(TextCompletionsResponseHandler):
     """
 
     def compile_non_streaming(
-        self, request: GenerationRequest, response: dict
+        self,
+        request: GenerationRequest,
+        arguments: GenerationRequestArguments,
+        response: dict,
     ) -> GenerationResponse:
         """
         Process a complete chat completion response.
@@ -309,9 +319,7 @@ def compile_non_streaming(
 
         return GenerationResponse(
             request_id=request.request_id,
-            request_args=str(
-                request.arguments.model_dump() if request.arguments else None
-            ),
+            request_args=arguments.model_dump_json(),
             response_id=response.get("id"),  # use vLLM ID if available
             text=text,
             input_metrics=input_metrics,
@@ -347,7 +355,9 @@ def add_streaming_line(self, line: str) -> int | None:
 
         return 1 if updated else 0
 
-    def compile_streaming(self, request: GenerationRequest) -> GenerationResponse:
+    def compile_streaming(
+        self, request: GenerationRequest, arguments: GenerationRequestArguments
+    ) -> GenerationResponse:
         """
         Compile accumulated streaming chat completion content into a final response.
 
@@ -359,9 +369,7 @@ def compile_streaming(self, request: GenerationRequest) -> GenerationResponse:
 
         return GenerationResponse(
             request_id=request.request_id,
-            request_args=str(
-                request.arguments.model_dump() if request.arguments else None
-            ),
+            request_args=arguments.model_dump_json(),
             response_id=self.streaming_response_id,  # use vLLM ID if available
             text=text,
             input_metrics=input_metrics,
@@ -399,7 +407,10 @@ def __init__(self):
         self.streaming_response_id: str | None = None
 
     def compile_non_streaming(
-        self, request: GenerationRequest, response: dict
+        self,
+        request: GenerationRequest,
+        arguments: GenerationRequestArguments,
+        response: dict,
     ) -> GenerationResponse:
         """
         Process a complete audio transcription or translation response.
@@ -417,9 +428,7 @@ def compile_non_streaming(
 
         return GenerationResponse(
             request_id=request.request_id,
-            request_args=str(
-                request.arguments.model_dump() if request.arguments else None
-            ),
+            request_args=arguments.model_dump_json(),
             response_id=response.get("id"),  # use vLLM ID if available
             text=text,
             input_metrics=input_metrics,
@@ -457,7 +466,9 @@ def add_streaming_line(self, line: str) -> int | None:
 
         return 1 if updated else 0
 
-    def compile_streaming(self, request: GenerationRequest) -> GenerationResponse:
+    def compile_streaming(
+        self, request: GenerationRequest, arguments: GenerationRequestArguments
+    ) -> GenerationResponse:
         """
         Compile accumulated streaming audio text into a final response.
 
@@ -469,9 +480,7 @@ def compile_streaming(self, request: GenerationRequest) -> GenerationResponse:
 
         return GenerationResponse(
             request_id=request.request_id,
-            request_args=str(
-                request.arguments.model_dump() if request.arguments else None
-            ),
+            request_args=arguments.model_dump_json(),
             response_id=self.streaming_response_id,
             text=text,
             input_metrics=input_metrics,
diff --git a/src/guidellm/benchmark/schemas/generative/accumulator.py b/src/guidellm/benchmark/schemas/generative/accumulator.py
@@ -722,8 +722,9 @@ def compile_stats(
             )
 
         if response is None:
+            # FIXME: request_args is wrong
             response = GenerationResponse(
-                request_id=info.request_id, request_args=str(first_request.arguments)
+                request_id=info.request_id, request_args=str(first_request.columns)
             )
 
         return response.compile_stats(
diff --git a/src/guidellm/schemas/response.py b/src/guidellm/schemas/response.py
@@ -114,9 +114,7 @@ def compile_stats(
             request_id=self.request_id,
             response_id=self.response_id,
             request_type=request.request_type,
-            request_args=str(
-                request.arguments.model_dump() if request.arguments else {}
-            ),
+            request_args=self.request_args,
             output=self.text,
             info=info,
             input_metrics=UsageMetrics(**input_metrics_dict),

Original file line number	Diff line number	Diff line change
`@@ -722,8 +722,9 @@ def compile_stats(`
`722`	`722`	`)`
`723`	`723`
`724`	`724`	`if response is None:`
	`725`	`+ # FIXME: request_args is wrong`
`725`	`726`	`response = GenerationResponse(`
`726`		`- request_id=info.request_id, request_args=str(first_request.arguments)`
	`727`	`+ request_id=info.request_id, request_args=str(first_request.columns)`
`727`	`728`	`)`
`728`	`729`
`729`	`730`	`return response.compile_stats(`