fix: Response Cache Memory Leak (#449)

pskiran1 · web-flow · commit b06d69b0e9af · 2025-09-03T16:58:02.000+05:30
diff --git a/src/dynamic_batch_scheduler.cc b/src/dynamic_batch_scheduler.cc
@@ -673,17 +673,14 @@ void
 DynamicBatchScheduler::DelegateResponse(
     std::unique_ptr<InferenceRequest>& request)
 {
-  std::lock_guard<std::mutex> lock(completion_queue_mtx_);
-  completion_queue_.emplace_back();
-  auto queue_slot = &completion_queue_.back();
   // Cache plumbing
   const std::string& key = request->CacheKey();
   const bool is_key_set = request->CacheKeyIsSet();
   const uint64_t lookup_end_ns = request->CacheLookupEndNs();
   const uint64_t lookup_start_ns = request->CacheLookupStartNs();
 
   request->SetResponseDelegator(
-      [this, queue_slot, key, is_key_set, lookup_end_ns, lookup_start_ns](
+      [this, key, is_key_set, lookup_end_ns, lookup_start_ns](
           std::unique_ptr<InferenceResponse>&& response, const uint32_t flags) {
         if (response_cache_enabled_) {
           // Logical error, the key should be set if caching is enabled
@@ -734,6 +731,8 @@ DynamicBatchScheduler::DelegateResponse(
         if (preserve_ordering_) {
           {
             std::lock_guard<std::mutex> lock(completion_queue_mtx_);
+            completion_queue_.emplace_back();
+            auto queue_slot = &completion_queue_.back();
             queue_slot->emplace_back(std::move(response), flags);
           }
           FinalizeResponses();