update with precommit run

nnshah1 · nnshah1 · commit 2aee1fe4147c · 2024-06-04T16:35:32.000-07:00
diff --git a/src/c++/perf_analyzer/client_backend/openai/openai_client.cc b/src/c++/perf_analyzer/client_backend/openai/openai_client.cc
@@ -115,15 +115,14 @@ ChatCompletionClient::ResponseHeaderHandler(
       hdr.find("text/event-stream") != std::string::npos) {
     request->is_stream_ = true;
   }
-  
+
   return byte_size;
 }
 
 size_t
 ChatCompletionClient::ResponseHandler(
     void* contents, size_t size, size_t nmemb, void* userp)
 {
-  
   // [TODO TMA-1666] verify if the SSE responses received are complete, or the
   // response need to be stitched first. To verify, print out the received
   // responses from SendResponse() to make sure the OpenAI server doesn't chunk
@@ -161,7 +160,7 @@ ChatCompletionClient::ResponseHandler(
   // RECV_END so that we always have the time of the last.
   request->timer_.CaptureTimestamp(
       triton::client::RequestTimers::Kind::RECV_END);
-  
+
   return result_bytes;
 }
 
@@ -172,8 +171,6 @@ ChatCompletionClient::AsyncInfer(
     std::string& serialized_request_body, const std::string& request_id,
     const Headers& headers)
 {
-  
-  
   if (callback == nullptr) {
     return Error(
         "Callback function must be provided along with AsyncInfer() call.");
@@ -189,7 +186,7 @@ ChatCompletionClient::AsyncInfer(
     // will only send the first final response
     //
     // if (!request->is_stream_) {
-    //   
+    //
     request->SendResponse(true /* is_final */, false /* is_null */);
     // }
   };
@@ -202,7 +199,7 @@ ChatCompletionClient::AsyncInfer(
   request->AddInput(
       reinterpret_cast<uint8_t*>(serialized_request_body.data()),
       serialized_request_body.size());
-  
+
   CURL* multi_easy_handle = curl_easy_init();
   Error err = PreRunProcessing(multi_easy_handle, raw_request, headers);
   if (!err.IsOk()) {
@@ -243,7 +240,7 @@ ChatCompletionClient::PreRunProcessing(
 
   // response data handled by ResponseHandler()
   curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, ResponseHandler);
-  curl_easy_setopt(curl, CURLOPT_WRITEDATA, request);  
+  curl_easy_setopt(curl, CURLOPT_WRITEDATA, request);
 
   const curl_off_t post_byte_size = request->total_input_byte_size_;
   curl_easy_setopt(curl, CURLOPT_POSTFIELDSIZE_LARGE, post_byte_size);
diff --git a/src/c++/perf_analyzer/client_backend/openai/openai_client.h b/src/c++/perf_analyzer/client_backend/openai/openai_client.h
@@ -173,7 +173,7 @@ class ChatCompletionClient : public HttpClient {
       void* contents, size_t size, size_t nmemb, void* userp);
   static size_t ResponseHeaderHandler(
       void* contents, size_t size, size_t nmemb, void* userp);
-  
+
   Error UpdateInferStat(const triton::client::RequestTimers& timer);
   InferStat infer_stat_;
 };
diff --git a/src/c++/perf_analyzer/genai-perf/genai_perf/llm_inputs/llm_inputs.py b/src/c++/perf_analyzer/genai-perf/genai_perf/llm_inputs/llm_inputs.py
@@ -454,24 +454,22 @@ def _convert_generic_json_to_openai_chat_completions_format(
 
     @classmethod
     def _convert_generic_json_to_generate_format(
-            cls,
-            dataset_json: Dict,
-            add_model_name: bool,
-            add_stream: bool,
-            extra_inputs: Dict,
-            output_tokens_mean: int,
-            output_tokens_stddev: int,
-            output_tokens_deterministic: bool,
-            model_name: str = "",
+        cls,
+        dataset_json: Dict,
+        add_model_name: bool,
+        add_stream: bool,
+        extra_inputs: Dict,
+        output_tokens_mean: int,
+        output_tokens_stddev: int,
+        output_tokens_deterministic: bool,
+        model_name: str = "",
     ) -> Dict:
-
         (
             system_role_headers,
             user_role_headers,
             text_input_headers,
         ) = cls._determine_json_feature_roles(dataset_json)
 
-
         pa_json = cls._populate_triton_generate_output_json(
             dataset_json,
             system_role_headers,
@@ -488,7 +486,6 @@ def _convert_generic_json_to_generate_format(
 
         return pa_json
 
-
     @classmethod
     def _convert_generic_json_to_openai_completions_format(
         cls,
@@ -666,26 +663,25 @@ def _populate_openai_chat_completions_output_json(
             )
 
         return pa_json
-    
+
     @classmethod
     def _populate_triton_generate_output_json(
-            cls,
-            dataset: Dict,
-            system_role_headers: List[str],
-            user_role_headers: List[str],
-            text_input_headers: List[str],
-            add_model_name: bool,
-            add_stream: bool,
-            extra_inputs: Dict,
-            output_tokens_mean: int,
-            output_tokens_stddev: int,
-            output_tokens_deterministic: bool,
-            model_name: str = "",
+        cls,
+        dataset: Dict,
+        system_role_headers: List[str],
+        user_role_headers: List[str],
+        text_input_headers: List[str],
+        add_model_name: bool,
+        add_stream: bool,
+        extra_inputs: Dict,
+        output_tokens_mean: int,
+        output_tokens_stddev: int,
+        output_tokens_deterministic: bool,
+        model_name: str = "",
     ) -> Dict:
+        pa_json: dict = {"data": [{"payload": [{}]} for _ in dataset["rows"]]}
 
-        pa_json = {"data":[{"payload":[{}]} for _ in dataset["rows"]]}
-
-        for index, entry in enumerate(dataset["rows"]):       
+        for index, entry in enumerate(dataset["rows"]):
             for header, content in entry.items():
                 new_text_input = cls._create_new_text_input(
                     header,
@@ -710,8 +706,6 @@ def _populate_triton_generate_output_json(
 
         return pa_json
 
-            
-
     @classmethod
     def _populate_openai_completions_output_json(
         cls,
diff --git a/src/c++/perf_analyzer/genai-perf/genai_perf/llm_metrics.py b/src/c++/perf_analyzer/genai-perf/genai_perf/llm_metrics.py
@@ -682,7 +682,6 @@ def _run_tokenizer(self, output_texts: List[str]) -> List[List[int]]:
         return [out[1:] for out in encodings.data["input_ids"]]
 
     def _extract_generate_text_output(self, response: str) -> str:
-
         response = remove_sse_prefix(response)
 
         if response == "":
diff --git a/src/c++/perf_analyzer/genai-perf/genai_perf/parser.py b/src/c++/perf_analyzer/genai-perf/genai_perf/parser.py
@@ -46,7 +46,11 @@
 
 logger = logging.getLogger(__name__)
 
-_endpoint_type_map = {"chat": "v1/chat/completions", "completions": "v1/completions", "generate":"v2/models/{MODEL_NAME}/generate"}
+_endpoint_type_map = {
+    "chat": "v1/chat/completions",
+    "completions": "v1/completions",
+    "generate": "v2/models/{MODEL_NAME}/generate",
+}
 
 
 def _check_model_args(
@@ -96,8 +100,10 @@ def _check_conditional_args(
     if args.endpoint is not None:
         args.endpoint = args.endpoint.lstrip(" /")
     else:
-        args.endpoint = _endpoint_type_map[args.endpoint_type].format(MODEL_NAME=args.model)
-   
+        args.endpoint = _endpoint_type_map[args.endpoint_type].format(
+            MODEL_NAME=args.model
+        )
+
     # Output token distribution checks
     if args.output_tokens_mean == LlmInputs.DEFAULT_OUTPUT_TOKENS_MEAN:
         if args.output_tokens_stddev != LlmInputs.DEFAULT_OUTPUT_TOKENS_STDDEV:
@@ -367,7 +373,7 @@ def _add_endpoint_args(parser):
         required=False,
         help=f"The endpoint-type for requests. Inputs will be formatted according to endpoint-type.",
     )
-    
+
     endpoint_group.add_argument(
         "--streaming",
         action="store_true",