address jacky's comments

ziqifan617 · ziqifan617 · commit 570c6dab941b · 2025-02-05T12:58:00.000-08:00
diff --git a/qa/L0_backend_python/parameters/response_parameters_bls_test.py b/qa/L0_backend_python/parameters/response_parameters_bls_test.py
diff --git a/qa/L0_backend_python/parameters/response_parameters_test.py b/qa/L0_backend_python/parameters/response_parameters_test.py
@@ -24,6 +24,7 @@
 # (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 # OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
+import os
 import sys
 
 sys.path.append("../../common")
@@ -39,7 +40,7 @@
 
 class ResponseParametersTest(unittest.TestCase):
     _server_address_grpc = "localhost:8001"
-    _model_name = "response_parameters"
+    _model_name = os.environ["MODEL_NAME"]
     _shape = [1, 1]
 
     def setUp(self):
@@ -166,6 +167,18 @@ def test_setting_response_parameters_decoupled(self):
             output = str(result.as_numpy("OUTPUT")[0][0], encoding="utf-8")
             self.assertEqual(json.dumps(params[i]), output)
 
+    def test_setting_response_parameters_bls_decoupled(self):
+        model_name = "response_parameters_bls_decoupled"
+        params = [{"bool": False, "int": 2048}, {"str": "Hello World!"}]
+        params_str = json.dumps(params)
+
+        inputs = [grpcclient.InferInput("RESPONSE_PARAMETERS", self._shape, "BYTES")]
+        inputs[0].set_data_from_numpy(np.array([[params_str]], dtype=np.object_))
+
+        with self._shm_leak_detector.Probe() as shm_probe:
+            with grpcclient.InferenceServerClient(self._server_address_grpc) as client:
+                client.infer(model_name, inputs)
+
 
 if __name__ == "__main__":
     unittest.main()
diff --git a/qa/L0_backend_python/parameters/test.sh b/qa/L0_backend_python/parameters/test.sh
@@ -59,18 +59,16 @@ if [ "$SERVER_PID" == "0" ]; then
 fi
 
 set +e
-python3 -m pytest --junitxml=response_parameters_test.report.xml response_parameters_test.py > $TEST_LOG 2>&1
+MODEL_NAME=response_parameters python3 -m pytest --junitxml=response_parameters_test.report.xml response_parameters_test.py > $TEST_LOG 2>&1
 if [ $? -ne 0 ]; then
     echo -e "\n***\n*** Response parameters test FAILED\n***"
     cat $TEST_LOG
     RET=1
 fi
-set -e
 
-set +e
-python3 -m pytest --junitxml=response_parameters_bls_test.report.xml response_parameters_bls_test.py > $TEST_BLS_LOG 2>&1
+MODEL_NAME=response_parameters_bls python3 -m pytest -s --junitxml=response_parameters_bls_test.report.xml response_parameters_test.py > $TEST_BLS_LOG 2>&1
 if [ $? -ne 0 ]; then
-    echo -e "\n***\n*** Response parameters in BLS mode test FAILED\n***"
+    echo -e "\n***\n*** Response parameters BLS test FAILED\n***"
     cat $TEST_BLS_LOG
     RET=1
 fi
diff --git a/qa/python_models/response_parameters_bls/config.pbtxt b/qa/python_models/response_parameters_bls/config.pbtxt
@@ -1,4 +1,4 @@
-# Copyright 2023-2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright 2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 #
 # Redistribution and use in source and binary forms, with or without
 # modification, are permitted provided that the following conditions
@@ -49,4 +49,4 @@ instance_group [
     count: 1
     kind: KIND_CPU
   }
-]
+]
diff --git a/qa/python_models/response_parameters_bls/model.py b/qa/python_models/response_parameters_bls/model.py
@@ -1,4 +1,4 @@
-# Copyright 2023-2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright 2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 #
 # Redistribution and use in source and binary forms, with or without
 # modification, are permitted provided that the following conditions
@@ -45,20 +45,19 @@ def execute(self, requests):
         responses = []
 
         for request in requests:
+            bls_input_tensor = pb_utils.get_input_tensor_by_name(
+                request, "RESPONSE_PARAMETERS"
+            )
+            bls_request = pb_utils.InferenceRequest(
+                model_name="response_parameters",
+                inputs=[bls_input_tensor],
+                requested_output_names=["OUTPUT"],
+            )
             try:
-                bls_input_tensor = pb_utils.get_input_tensor_by_name(
-                    request, "RESPONSE_PARAMETERS"
-                )
-                bls_request = pb_utils.InferenceRequest(
-                    model_name="response_parameters",
-                    inputs=[bls_input_tensor],
-                    requested_output_names=["OUTPUT"],
-                )
                 bls_response = bls_request.exec()
                 response_tensors = bls_response.output_tensors()
                 response_parameters_str = bls_response.parameters()
                 if bls_response.has_error():
-                    print(bls_response.error().message())
                     raise Exception(bls_response.error().message())
                 res_params = json.loads(response_parameters_str)
 
diff --git a/qa/python_models/response_parameters_bls_decoupled/config.pbtxt b/qa/python_models/response_parameters_bls_decoupled/config.pbtxt
@@ -50,7 +50,3 @@ instance_group [
     kind: KIND_CPU
   }
 ]
-
-model_transaction_policy {
-  decoupled: True
-}
diff --git a/qa/python_models/response_parameters_bls_decoupled/model.py b/qa/python_models/response_parameters_bls_decoupled/model.py
@@ -32,58 +32,54 @@
 
 class TritonPythonModel:
     """
-    This model (A) is designed to test sending back response parameters when using BLS
+    This model is designed to test sending back response parameters when using BLS
     with decoupled model transaction policy.
 
-    The only difference vs. response_parameters_bls model is this model turns on decoupled
-    model transaction policy. For more details, please check response_parameters_bls.
+    The only difference vs. response_parameters_bls model is the BLS composing model
+    (i.e. response_parameters_decoupled) turns on decoupled model transaction policy.
+    For more details, please check response_parameters_bls model.
     """
 
     def execute(self, requests):
+        responses = []
+
         for request in requests:
-            res_params_tensor = pb_utils.get_input_tensor_by_name(
+            bls_input_tensor = pb_utils.get_input_tensor_by_name(
                 request, "RESPONSE_PARAMETERS"
-            ).as_numpy()
-            res_params_str = str(res_params_tensor[0][0], encoding="utf-8")
-            response_sender = request.get_response_sender()
+            )
+            bls_request = pb_utils.InferenceRequest(
+                model_name="response_parameters_decoupled",
+                inputs=[bls_input_tensor],
+                requested_output_names=["OUTPUT"],
+            )
+
+            res_params_numpy = bls_input_tensor.as_numpy()
+            res_params_str = str(res_params_numpy[0][0], encoding="utf-8")
+            res_params = json.loads(res_params_str)
             try:
-                res_params = json.loads(res_params_str)
-                for r_params in res_params:
-                    bls_input_tensor = pb_utils.Tensor(
-                        "RESPONSE_PARAMETERS",
-                        np.array([[json.dumps(r_params)]], dtype=np.object_),
-                    )
-                    bls_request = pb_utils.InferenceRequest(
-                        model_name="response_parameters",
-                        inputs=[bls_input_tensor],
-                        requested_output_names=["OUTPUT"],
-                    )
-                    bls_response = bls_request.exec()
-                    response_tensors = bls_response.output_tensors()
-                    response_parameters_str = bls_response.parameters()
+                bls_responses = bls_request.exec(decoupled=True)
+
+                for bls_response, r_params in zip(bls_responses, res_params):
                     if bls_response.has_error():
-                        print(bls_response.error().message())
                         raise Exception(bls_response.error().message())
-                    res_params = json.loads(response_parameters_str)
-
-                    response = pb_utils.InferenceResponse(
-                        output_tensors=response_tensors, parameters=res_params
-                    )
 
                     r_params_set = {}
-                    if response.parameters() != "":
-                        r_params_set = json.loads(response.parameters())
-                    if r_params_set != r_params:
-                        raise Exception("Response parameters set differ from provided")
+                    if bls_response.parameters() != "":
+                        r_params_set = json.loads(bls_response.parameters())
+                        if r_params_set != r_params:
+                            raise Exception(
+                                "Response parameters set differ from provided"
+                            )
 
-                    response_sender.send(response)
+                # no need to send back anything in the response since we already do the
+                # parameters matching checking above.
+                response = pb_utils.InferenceResponse()
             except Exception as e:
                 error = pb_utils.TritonError(
                     message=str(e), code=pb_utils.TritonError.INVALID_ARG
                 )
                 response = pb_utils.InferenceResponse(error=error)
-                response_sender.send(response)
 
-            response_sender.send(flags=pb_utils.TRITONSERVER_RESPONSE_COMPLETE_FINAL)
+            responses.append(response)
 
-        return None
+        return responses

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# Copyright 2023-2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.`
	`1`	`+# Copyright 2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.`
`2`	`2`	`#`
`3`	`3`	`# Redistribution and use in source and binary forms, with or without`
`4`	`4`	`# modification, are permitted provided that the following conditions`
`@@ -49,4 +49,4 @@ instance_group [`
`49`	`49`	`count: 1`
`50`	`50`	`kind: KIND_CPU`
`51`	`51`	`}`
`52`		`-]`
	`52`	`+]`
Original file line number	Diff line number	Diff line change
`@@ -50,7 +50,3 @@ instance_group [`
`50`	`50`	`kind: KIND_CPU`
`51`	`51`	`}`
`52`	`52`	`]`
`53`		`-`
`54`		`-model_transaction_policy {`
`55`		`- decoupled: True`
`56`		`-}`