fix: Improve cancellation handling for gRPC non-decoupled inference (#8220)

pskiran1 · web-flow · commit 27cece93af00 · 2025-05-29T15:36:37.000+05:30
diff --git a/qa/L0_decoupled/decoupled_test.py b/qa/L0_decoupled/decoupled_test.py
@@ -1,6 +1,6 @@
 #!/usr/bin/env python3
 
-# Copyright 2020-2024, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright 2020-2025, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 #
 # Redistribution and use in source and binary forms, with or without
 # modification, are permitted provided that the following conditions
@@ -32,6 +32,7 @@
 
 import os
 import queue
+import threading
 import time
 import unittest
 from functools import partial
@@ -606,53 +607,212 @@ def test_wrong_shape(self):
 class NonDecoupledTest(tu.TestResultCollector):
     def setUp(self):
         self.model_name_ = "repeat_int32"
-        self.input_data = {
-            "IN": np.array([1], dtype=np.int32),
-            "DELAY": np.array([0], dtype=np.uint32),
-            "WAIT": np.array([0], dtype=np.uint32),
+        self.data_matrix = [
+            # ("IN", "DELAY", "WAIT")
+            ([1], [0], [0]),
+            ([1], [4000], [2000]),
+            ([1], [2000], [4000]),
+        ]
+
+        # For grpc async infer test
+        self.callback_error = None
+        self.callback_result = None
+        self.callback_invoked_event = threading.Event()
+
+    def _input_data(self, in_value, delay_value, wait_value):
+        return {
+            "IN": np.array(in_value, dtype=np.int32),
+            "DELAY": np.array(delay_value, dtype=np.uint32),
+            "WAIT": np.array(wait_value, dtype=np.uint32),
         }
 
+    def _async_callback(self, result, error):
+        """Callback for async_infer."""
+        self.callback_error = error
+        self.callback_result = result
+        self.callback_invoked_event.set()
+
     def test_grpc(self):
-        inputs = [
-            grpcclient.InferInput("IN", [1], "INT32").set_data_from_numpy(
-                self.input_data["IN"]
-            ),
-            grpcclient.InferInput("DELAY", [1], "UINT32").set_data_from_numpy(
-                self.input_data["DELAY"]
-            ),
-            grpcclient.InferInput("WAIT", [1], "UINT32").set_data_from_numpy(
-                self.input_data["WAIT"]
-            ),
-        ]
+        for in_value, delay_value, wait_value in self.data_matrix:
+            with self.subTest(IN=in_value, DELAY=delay_value, WAIT=wait_value):
+                input_data = self._input_data(in_value, delay_value, wait_value)
+                inputs = [
+                    grpcclient.InferInput("IN", [1], "INT32").set_data_from_numpy(
+                        input_data["IN"]
+                    ),
+                    grpcclient.InferInput("DELAY", [1], "UINT32").set_data_from_numpy(
+                        input_data["DELAY"]
+                    ),
+                    grpcclient.InferInput("WAIT", [1], "UINT32").set_data_from_numpy(
+                        input_data["WAIT"]
+                    ),
+                ]
+
+                triton_client = grpcclient.InferenceServerClient(
+                    url="localhost:8001", verbose=True
+                )
 
-        triton_client = grpcclient.InferenceServerClient(
-            url="localhost:8001", verbose=True
-        )
-        # Expect the inference is successful
-        res = triton_client.infer(model_name=self.model_name_, inputs=inputs)
-        self.assertEqual(1, res.as_numpy("OUT")[0])
-        self.assertEqual(0, res.as_numpy("IDX")[0])
+                # Expect the inference is successful
+                res = triton_client.infer(model_name=self.model_name_, inputs=inputs)
+                self.assertEqual(1, res.as_numpy("OUT")[0])
+                self.assertEqual(0, res.as_numpy("IDX")[0])
 
     def test_http(self):
-        inputs = [
-            httpclient.InferInput("IN", [1], "INT32").set_data_from_numpy(
-                self.input_data["IN"]
-            ),
-            httpclient.InferInput("DELAY", [1], "UINT32").set_data_from_numpy(
-                self.input_data["DELAY"]
-            ),
-            httpclient.InferInput("WAIT", [1], "UINT32").set_data_from_numpy(
-                self.input_data["WAIT"]
-            ),
+        for in_value, delay_value, wait_value in self.data_matrix:
+            with self.subTest(IN=in_value, DELAY=delay_value, WAIT=wait_value):
+                input_data = self._input_data(in_value, delay_value, wait_value)
+                inputs = [
+                    httpclient.InferInput("IN", [1], "INT32").set_data_from_numpy(
+                        input_data["IN"]
+                    ),
+                    httpclient.InferInput("DELAY", [1], "UINT32").set_data_from_numpy(
+                        input_data["DELAY"]
+                    ),
+                    httpclient.InferInput("WAIT", [1], "UINT32").set_data_from_numpy(
+                        input_data["WAIT"]
+                    ),
+                ]
+
+                triton_client = httpclient.InferenceServerClient(
+                    url="localhost:8000", verbose=True
+                )
+
+                # Expect the inference is successful
+                res = triton_client.infer(model_name=self.model_name_, inputs=inputs)
+                self.assertEqual(1, res.as_numpy("OUT")[0])
+                self.assertEqual(0, res.as_numpy("IDX")[0])
+
+    def test_grpc_async(self):
+        for in_value, delay_value, wait_value in self.data_matrix:
+            with self.subTest(IN=in_value, DELAY=delay_value, WAIT=wait_value):
+                input_data = self._input_data(in_value, delay_value, wait_value)
+                inputs = [
+                    grpcclient.InferInput("IN", [1], "INT32").set_data_from_numpy(
+                        input_data["IN"]
+                    ),
+                    grpcclient.InferInput("DELAY", [1], "UINT32").set_data_from_numpy(
+                        input_data["DELAY"]
+                    ),
+                    grpcclient.InferInput("WAIT", [1], "UINT32").set_data_from_numpy(
+                        input_data["WAIT"]
+                    ),
+                ]
+
+                triton_client = grpcclient.InferenceServerClient(
+                    url="localhost:8001",
+                    verbose=True,
+                )
+
+                # Clear previous results
+                self.callback_error = None
+                self.callback_result = None
+                self.callback_invoked_event.clear()
+
+                try:
+                    triton_client.async_infer(
+                        model_name=self.model_name_,
+                        inputs=inputs,
+                        callback=self._async_callback,
+                    )
+                except Exception as e:
+                    self.fail(f"Failed to initiate async_infer: {e}")
+                    continue
+
+                # Wait for the callback to be invoked, with a timeout
+                self.assertTrue(
+                    self.callback_invoked_event.wait(timeout=10),
+                    "Callback not invoked within timeout.",
+                )
+
+                # Expect the inference is successful
+                self.assertIsNone(
+                    self.callback_error, f"Inference failed: {self.callback_error}"
+                )
+                self.assertIsNotNone(self.callback_result, "Inference result is None.")
+                self.assertEqual(1, self.callback_result.as_numpy("OUT")[0])
+                self.assertEqual(0, self.callback_result.as_numpy("IDX")[0])
+
+                # Wait and check server/model health
+                time.sleep(5)
+                self.assertTrue(triton_client.is_model_ready(self.model_name_))
+
+    def test_grpc_async_cancel(self):
+        data_matrix = [
+            # ("IN", "DELAY", "WAIT")
+            ([1], [4000], [2000]),
+            ([1], [2000], [4000]),
         ]
 
-        triton_client = httpclient.InferenceServerClient(
-            url="localhost:8000", verbose=True
-        )
-        # Expect the inference is successful
-        res = triton_client.infer(model_name=self.model_name_, inputs=inputs)
-        self.assertEqual(1, res.as_numpy("OUT")[0])
-        self.assertEqual(0, res.as_numpy("IDX")[0])
+        for in_value, delay_value, wait_value in data_matrix:
+            with self.subTest(IN=in_value, DELAY=delay_value, WAIT=wait_value):
+                input_data = self._input_data(in_value, delay_value, wait_value)
+                inputs = [
+                    grpcclient.InferInput("IN", [1], "INT32").set_data_from_numpy(
+                        input_data["IN"]
+                    ),
+                    grpcclient.InferInput("DELAY", [1], "UINT32").set_data_from_numpy(
+                        input_data["DELAY"]
+                    ),
+                    grpcclient.InferInput("WAIT", [1], "UINT32").set_data_from_numpy(
+                        input_data["WAIT"]
+                    ),
+                ]
+
+                triton_client = grpcclient.InferenceServerClient(
+                    url="localhost:8001",
+                    verbose=True,
+                )
+
+                # Clear previous results
+                self.callback_error = None
+                self.callback_result = None
+                self.callback_invoked_event.clear()
+
+                request_handle = None
+                try:
+                    request_handle = triton_client.async_infer(
+                        model_name=self.model_name_,
+                        inputs=inputs,
+                        callback=self._async_callback,
+                    )
+                except Exception as e:
+                    self.fail(f"Failed to initiate async_infer: {e}")
+                    continue
+
+                # Allow request to be fully initiated
+                time.sleep(0.5)
+
+                # Attempt to cancel the request
+                if request_handle:
+                    try:
+                        request_handle.cancel()
+                    except Exception as e:
+                        self.fail(f"Error calling request_handle.cancel(): {e}")
+                        continue
+                else:
+                    self.fail("Invalid request_handle, cannot cancel.")
+                    continue
+
+                # Wait for the callback to be invoked
+                self.assertTrue(
+                    self.callback_invoked_event.wait(timeout=10),
+                    "Callback not invoked within timeout after cancellation.",
+                )
+
+                # Expect the inference is failed
+                self.assertIsInstance(
+                    self.callback_error,
+                    InferenceServerException,
+                    f"Unexpected error type: {type(self.callback_error)}",
+                )
+                self.assertIn(
+                    "StatusCode.CANCELLED",
+                    self.callback_error.status(),
+                )
+
+                # Wait and check server/model health
+                time.sleep(5)
+                self.assertTrue(triton_client.is_model_ready(self.model_name_))
 
 
 if __name__ == "__main__":
diff --git a/qa/L0_decoupled/test.sh b/qa/L0_decoupled/test.sh
@@ -196,7 +196,7 @@ if [ $? -ne 0 ]; then
         echo -e "\n***\n*** Test NonDecoupledTest Failed\n***"
         RET=1
 else
-    check_test_results $TEST_RESULT_FILE 2
+    check_test_results $TEST_RESULT_FILE 4
     if [ $? -ne 0 ]; then
         cat $CLIENT_LOG
         echo -e "\n***\n*** Test Result Verification Failed\n***"
diff --git a/src/grpc/infer_handler.cc b/src/grpc/infer_handler.cc
@@ -1068,12 +1068,14 @@ ModelInferHandler::InferResponseComplete(
     state->cb_count_++;
   }
 
+  bool is_final_response = (flags & TRITONSERVER_RESPONSE_COMPLETE_FINAL) != 0;
+
   LOG_VERBOSE(1) << "ModelInferHandler::InferResponseComplete, "
                  << state->unique_id_ << " step " << state->step_;
 
   // Allow sending 1 response and final flag separately, only mark
   // non-inflight when seeing final flag
-  if (flags & TRITONSERVER_RESPONSE_COMPLETE_FINAL) {
+  if (is_final_response) {
     state->context_->EraseInflightState(state);
   }
 
@@ -1093,22 +1095,23 @@ ModelInferHandler::InferResponseComplete(
                    << ", skipping response generation as grpc transaction was "
                       "cancelled... ";
 
-    if (state->delay_enqueue_ms_ != 0) {
-      // Will delay PutTaskBackToQueue by the specified time.
-      // This can be used to test the flow when cancellation request
-      // issued for the request during InferResponseComplete
-      // callback right before Process in the notification thread.
-      LOG_INFO << "Delaying PutTaskBackToQueue by " << state->delay_enqueue_ms_
-               << " ms...";
-      std::this_thread::sleep_for(
-          std::chrono::milliseconds(state->delay_enqueue_ms_));
-    }
-
-    // Send state back to the queue so that state can be released
-    // in the next cycle.
-    state->context_->PutTaskBackToQueue(state);
+    if (is_final_response) {
+      if (state->delay_enqueue_ms_ != 0) {
+        // Will delay PutTaskBackToQueue by the specified time.
+        // This can be used to test the flow when cancellation request
+        // issued for the request during InferResponseComplete
+        // callback right before Process in the notification thread.
+        LOG_INFO << "Delaying PutTaskBackToQueue by "
+                 << state->delay_enqueue_ms_ << " ms...";
+        std::this_thread::sleep_for(
+            std::chrono::milliseconds(state->delay_enqueue_ms_));
+      }
 
-    delete response_release_payload;
+      // Send state back to the queue so that state can be released
+      // in the next cycle.
+      state->context_->PutTaskBackToQueue(state);
+      delete response_release_payload;
+    }
     return;
   }
 
@@ -1156,7 +1159,7 @@ ModelInferHandler::InferResponseComplete(
 
   // Defer sending the response until FINAL flag is seen or
   // there is error
-  if ((flags & TRITONSERVER_RESPONSE_COMPLETE_FINAL) == 0) {
+  if (!is_final_response) {
     return;
   }