Add vLLM disable_log_stats config test

yinggeh · yinggeh · commit 56aea05e92d7 · 2024-08-09T11:22:20.000-07:00
diff --git a/ci/L0_backend_vllm/metrics_test/test.sh b/ci/L0_backend_vllm/metrics_test/test.sh
@@ -58,6 +58,7 @@ sed -i 's/"gpu_memory_utilization": 0.5/"gpu_memory_utilization": 0.4/' models/v
 
 RET=0
 
+# test vLLM metrics
 run_server
 if [ "$SERVER_PID" == "0" ]; then
     cat $SERVER_LOG
@@ -66,7 +67,37 @@ if [ "$SERVER_PID" == "0" ]; then
 fi
 
 set +e
-python3 $CLIENT_PY -v > $CLIENT_LOG 2>&1
+python3 $CLIENT_PY VLLMTritonMetricsTest.test_vllm_metrics -v > $CLIENT_LOG 2>&1
+
+if [ $? -ne 0 ]; then
+    cat $CLIENT_LOG
+    echo -e "\n***\n*** Running $CLIENT_PY FAILED. \n***"
+    RET=1
+else
+    check_test_results $TEST_RESULT_FILE $EXPECTED_NUM_TESTS
+    if [ $? -ne 0 ]; then
+        cat $CLIENT_LOG
+        echo -e "\n***\n*** Test Result Verification FAILED.\n***"
+        RET=1
+    fi
+fi
+set -e
+
+kill $SERVER_PID
+wait $SERVER_PID
+
+# test disabling vLLM metrics with disable_log_stats set to true
+sed -i 's/"disable_log_stats": false/"disable_log_stats": true/' models/vllm_opt/1/model.json
+
+run_server
+if [ "$SERVER_PID" == "0" ]; then
+    cat $SERVER_LOG
+    echo -e "\n***\n*** Failed to start $SERVER\n***"
+    exit 1
+fi
+
+set +e
+python3 $CLIENT_PY VLLMTritonMetricsTest.test_vllm_metrics_disabled -v > $CLIENT_LOG 2>&1
 
 if [ $? -ne 0 ]; then
     cat $CLIENT_LOG
diff --git a/ci/L0_backend_vllm/metrics_test/vllm_metrics_test.py b/ci/L0_backend_vllm/metrics_test/vllm_metrics_test.py
@@ -50,7 +50,7 @@ def setUp(self):
         ]
         self.sampling_parameters = {"temperature": "0", "top_p": "1"}
 
-    def get_metrics(self):
+    def get_vllm_metrics(self):
         """
         Store vllm metrics in a dictionary.
         """
@@ -112,21 +112,30 @@ def vllm_infer(
         self.triton_client.stop_stream()
 
     def test_vllm_metrics(self):
-        # All vLLM metrics from tritonserver
-        expected_metrics_dict = {
-            "vllm:prompt_tokens_total": 0,
-            "vllm:generation_tokens_total": 0,
-        }
+        # Test vLLM metrics
+        self.vllm_infer(
+            prompts=self.prompts,
+            sampling_parameters=self.sampling_parameters,
+            model_name=self.vllm_model_name,
+        )
+        metrics_dict = self.get_vllm_metrics()
 
+        # vllm:prompt_tokens_total
+        self.assertEqual(metrics_dict["vllm:prompt_tokens_total"], 18)
+        # vllm:generation_tokens_total
+        self.assertEqual(metrics_dict["vllm:generation_tokens_total"], 48)
+
+    def test_vllm_metrics_disabled(self):
         # Test vLLM metrics
         self.vllm_infer(
             prompts=self.prompts,
             sampling_parameters=self.sampling_parameters,
             model_name=self.vllm_model_name,
         )
-        expected_metrics_dict["vllm:prompt_tokens_total"] = 18
-        expected_metrics_dict["vllm:generation_tokens_total"] = 48
-        self.assertEqual(self.get_metrics(), expected_metrics_dict)
+        metrics_dict = self.get_vllm_metrics()
+
+        # No vLLM metric found
+        self.assertEqual(len(metrics_dict), 0)
 
     def tearDown(self):
         self.triton_client.close()