remove tests

axxx03 · axxx03 · commit 38ac65c428c2 · 2025-12-31T15:01:55.000+08:00
Signed-off-by: scutizhang &lt;scutizhang@tencent.com&gt;
diff --git a/cpp/include/tensorrt_llm/batch_manager/llmRequest.h b/cpp/include/tensorrt_llm/batch_manager/llmRequest.h
@@ -1670,10 +1670,11 @@ class GenericLlmRequest
     [[nodiscard]] bool isFinishedNormal() const noexcept
     {
         return std::all_of(mFinishReasons.begin(), mFinishReasons.end(),
-            [](auto reason) { 
-                return  reason == executor::FinishReason::kEND_ID || \
-                        reason == executor::FinishReason::kSTOP_WORDS || \
-                        reason == executor::FinishReason::kLENGTH; });
+            [](auto reason)
+            {
+                return reason == executor::FinishReason::kEND_ID || reason == executor::FinishReason::kSTOP_WORDS
+                    || reason == executor::FinishReason::kLENGTH;
+            });
     }
 
     [[nodiscard]] bool isTimedOut() const
diff --git a/tensorrt_llm/_torch/pyexecutor/kv_cache_connector.py b/tensorrt_llm/_torch/pyexecutor/kv_cache_connector.py
@@ -233,7 +233,7 @@ def update_state_after_alloc(self, request: LlmRequest,
             request: The request that was allocated resources.
             block_ids: The KV cacheblock IDs that were allocated.
         """
-    
+
     def wait_for_initialization(self):
         """
         Some connectors need to wait for some resources to be initialized.
@@ -580,4 +580,4 @@ def layer_post_hook(self, module, *args):
 
     def wait_for_initialization(self):
         if self.scheduler is not None:
-            self.scheduler.wait_for_initialization()
+            self.scheduler.wait_for_initialization()
diff --git a/tensorrt_llm/_torch/pyexecutor/py_executor.py b/tensorrt_llm/_torch/pyexecutor/py_executor.py
@@ -338,7 +338,7 @@ def _maybe_init_kv_connector_manager(self):
                         self.kv_connector_manager.layer_pre_hook)
                     module.register_forward_hook(
                         self.kv_connector_manager.layer_post_hook)
-            
+
             self.kv_connector_manager.wait_for_initialization()
 
     def _event_loop_wrapper(self):
@@ -1332,10 +1332,10 @@ def _executor_loop(self):
                 finished_requests = []
 
                 can_queue = self._can_queue(scheduled_batch)
-                
+
                 if self.kv_connector_manager:
                     self.kv_connector_manager.handle_metadata()
-                
+
                 if can_queue:
                     if self.kv_cache_transceiver:
                         # For generation requests which have completed KV cache transfer
@@ -1568,7 +1568,7 @@ def _executor_loop_overlap(self):
 
                 if self.kv_connector_manager:
                     self.kv_connector_manager.handle_metadata()
-                    
+
                 can_queue = self._can_queue(scheduled_batch)
                 if can_queue:
                     if self.kv_cache_transceiver:
@@ -2617,7 +2617,7 @@ def _handle_responses(self):
                                  self.ctx_in_transmission_counter))
                     else:
                         requests_to_terminate.append(request)
-                
+
                 if self.kv_connector_manager is not None:
                     self.resource_manager.free_slot_only(request)
             else:
diff --git a/tensorrt_llm/_torch/pyexecutor/resource_manager.py b/tensorrt_llm/_torch/pyexecutor/resource_manager.py
@@ -1440,10 +1440,12 @@ def free_slot_only(self, request: LlmRequest):
         This is used to release the slot early when decode finishes, before
         the put task completes.
         """
-        seq_slot_manager = self.get_resource_manager(ResourceManagerType.SEQ_SLOT_MANAGER)
+        seq_slot_manager = self.get_resource_manager(
+            ResourceManagerType.SEQ_SLOT_MANAGER)
         if seq_slot_manager is not None:
             seq_slot_manager.free_resources(request)
 
+
 class PeftCacheManager(BaseResourceManager):
 
     def __init__(self,
diff --git a/tests/integration/defs/conftest.py b/tests/integration/defs/conftest.py
@@ -92,6 +92,7 @@ def llm_models_root() -> str:
 
     return str(root)
 
+
 def tests_path() -> Path:
     return (Path(os.path.dirname(__file__)) / "../..").resolve()
 
diff --git a/tests/integration/defs/llmapi/test_llm_api_connector.py b/tests/integration/defs/llmapi/test_llm_api_connector.py
@@ -439,39 +439,3 @@ def test_connector_multi_request(enforce_single_worker, model_with_connector):
 
     # The KV cache of both prior requests should be freed, allowing the third request to run.
     model.generate([2] * 110, sampling_params=sampling_params)
-
-
-@pytest.mark.threadleak(enabled=False)
-@pytest.mark.parametrize("matched_tokens", [0, 32])
-def test_connector_num_matched_tokens(enforce_single_worker, model_with_connector,
-                                       matched_tokens):
-    """Test setNumConnectorMatchedTokens (set) and num_connector_matched_tokens (get)."""
-    NUM_INPUT_TOKENS = 64
-    NUM_OUTPUT_TOKENS = 8
-
-    model_fn, scheduler, worker = model_with_connector
-    model = model_fn(disable_overlap_scheduler=True)
-
-    scheduler.get_num_new_matched_tokens.return_value = matched_tokens, False
-    worker.get_finished.return_value = [], []
-
-    model.generate([1] * NUM_INPUT_TOKENS, SamplingParams(max_tokens=NUM_OUTPUT_TOKENS, ignore_eos=True))
-
-    # Get request before setNumConnectorMatchedTokens is called
-    request_before = scheduler.get_num_new_matched_tokens.call_args.args[0]
-    initial_value = request_before.num_connector_matched_tokens
-
-    # Get request after setNumConnectorMatchedTokens is called
-    request_after = scheduler.update_state_after_alloc.call_args.args[0]
-    final_value = request_after.num_connector_matched_tokens
-
-    # Test get: verify property exists and can be accessed
-    assert hasattr(request_after, 'num_connector_matched_tokens')
-    
-    # Test set: verify value is correctly set
-    assert final_value == matched_tokens, \
-        f"Expected {matched_tokens}, got {final_value}"
-    
-    # Verify set worked (value changed when matched_tokens != 0)
-    if matched_tokens != 0:
-        assert final_value != initial_value