Completely turn off metrics

yinggeh · yinggeh · commit 21351453547a · 2024-08-09T07:49:23.000-07:00
diff --git a/samples/model_repository/vllm_model/1/model.json b/samples/model_repository/vllm_model/1/model.json
@@ -1,6 +1,7 @@
 {
     "model":"facebook/opt-125m",
-    "disable_log_requests": "true",
+    "disable_log_requests": true,
     "gpu_memory_utilization": 0.5,
-    "enforce_eager": "true"
+    "enforce_eager": true,
+    "disable_log_stats": false
 }
diff --git a/src/model.py b/src/model.py
@@ -109,20 +109,6 @@ def initialize(self, args):
         )
         self.output_dtype = pb_utils.triton_string_to_numpy(output_config["data_type"])
 
-        # Create vLLM custom metrics
-        try:
-            labels = {
-                "model": self.args["model_name"],
-                "version": self.args["model_version"],
-            }
-            self.metrics = VllmStatLogger(labels=labels)
-        except pb_utils.TritonModelException as e:
-            if "metrics not supported" in str(e):
-                # Metrics are disabled at the server
-                self.metrics = None
-            else:
-                raise e
-
         # Prepare vLLM engine
         self.init_engine()
 
@@ -163,13 +149,28 @@ def init_engine(self):
         self.setup_lora()
 
         # Create an AsyncLLMEngine from the config from JSON
-        self.llm_engine = AsyncLLMEngine.from_engine_args(
-            AsyncEngineArgs(**self.vllm_engine_config)
-        )
+        aync_engine_args = AsyncEngineArgs(**self.vllm_engine_config)
+        self.llm_engine = AsyncLLMEngine.from_engine_args(aync_engine_args)
 
-        # Add vLLM custom metrics
-        if self.metrics:
-            self.llm_engine.add_logger("triton", self.metrics)
+        # Create vLLM custom metrics
+        if not aync_engine_args.disable_log_stats:
+            try:
+                labels = {
+                    "model": self.args["model_name"],
+                    "version": self.args["model_version"],
+                }
+                self.metrics = VllmStatLogger(labels=labels)
+            except pb_utils.TritonModelException as e:
+                if "metrics not supported" in str(e):
+                    # Metrics are disabled at the server
+                    self.metrics = None
+                    self.logger.log_info("[vllm] Metrics not supported")
+                else:
+                    raise e
+
+            # Add vLLM custom metrics
+            if self.metrics:
+                self.llm_engine.add_logger("triton", self.metrics)
 
     def setup_lora(self):
         self.enable_lora = False

Original file line number	Diff line number	Diff line change
`@@ -1,6 +1,7 @@`
`1`	`1`	`{`
`2`	`2`	`"model":"facebook/opt-125m",`
`3`		`- "disable_log_requests": "true",`
	`3`	`+ "disable_log_requests": true,`
`4`	`4`	`"gpu_memory_utilization": 0.5,`
`5`		`- "enforce_eager": "true"`
	`5`	`+ "enforce_eager": true,`
	`6`	`+ "disable_log_stats": false`
`6`	`7`	`}`