NVIDIA
diff --git a/‎cpp/include/tensorrt_llm/batch_manager/cacheTransceiver.h‎
Lines changed: 11 additions & 5 deletions b/‎cpp/include/tensorrt_llm/batch_manager/cacheTransceiver.h‎
Lines changed: 11 additions & 5 deletions
diff --git a/‎cpp/tensorrt_llm/batch_manager/CMakeLists.txt‎
Lines changed: 0 additions & 1 deletion b/‎cpp/tensorrt_llm/batch_manager/CMakeLists.txt‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎cpp/tensorrt_llm/batch_manager/cacheFormatter.cpp‎
Lines changed: 3 additions & 2 deletions b/‎cpp/tensorrt_llm/batch_manager/cacheFormatter.cpp‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎cpp/tensorrt_llm/batch_manager/cacheFormatter.h‎
Lines changed: 21 additions & 6 deletions b/‎cpp/tensorrt_llm/batch_manager/cacheFormatter.h‎
Lines changed: 21 additions & 6 deletions
diff --git a/‎cpp/tensorrt_llm/batch_manager/cacheTransceiver.cpp‎
Lines changed: 17 additions & 20 deletions b/‎cpp/tensorrt_llm/batch_manager/cacheTransceiver.cpp‎
Lines changed: 17 additions & 20 deletions
@@ -34,8 +34,14 @@ namespace tensorrt_llm::batch_manager
 
 class ContextProgress;
 class BaseCacheTransceiver;
-class DataResponder;
-class DataRequester;
+
+namespace kv_cache_manager
+{
+class BaseKVCacheManager;
+} // namespace kv_cache_manager
+
+class CacheSender;
+class CacheReceiver;
 
 class CacheTransceiverFactory
 {
@@ -110,9 +116,9 @@ class CacheTransceiver : public BaseCacheTransceiver
 
     void setContextState(LlmRequest* llmRequest);
 
-    std::unique_ptr<DataResponder> mDataResponder;
-    std::unique_ptr<DataRequester> mDataRequester;
-    std::vector<std::pair<LlmRequest*, std::future<void>>> mResponderFutures;
+    std::unique_ptr<CacheSender> mCacheSender;
+    std::unique_ptr<CacheReceiver> mCacheReceiver;
+    std::vector<std::pair<LlmRequest*, std::future<void>>> mSenderFutures;
     std::vector<std::pair<LlmRequest*, std::future<void>>> mRequesterFutures;
     mpi::MpiComm const *mMpiGroupComm{nullptr}, *mMpiWorldComm{nullptr};
     std::shared_ptr<mpi::MpiComm> mMpiGroupTensorParaComm, mMpiGroupPipeParaComm, mMpiGroupDataComm,
 
@@ -24,7 +24,6 @@ set(SRCS
     createNewDecoderRequests.cpp
     contextProgress.cpp
     dataTransceiver.cpp
-    dataTransceiverImpl.cpp
     decoderBuffers.cpp
     encoderBuffers.cpp
     guidedDecoder.cpp
 
@@ -19,6 +19,7 @@
 #include "mlaCacheFormatter.h"
 
 #include "tensorrt_llm/batch_manager/contextProgress.h"
+#include "tensorrt_llm/batch_manager/dataTransceiver.h"
 #include "tensorrt_llm/batch_manager/kvCacheUtils.h"
 #include "tensorrt_llm/common/assert.h"
 #include "tensorrt_llm/common/cudaUtils.h"
@@ -154,7 +155,7 @@ std::vector<size_t> CacheFormatter::pickRecvConnections(
     return ret;
 }
 
-void CacheFormatter::format(TransferSession& session)
+void CacheFormatter::format(tensorrt_llm::batch_manager::TransferSession& session)
 {
     NVTX3_SCOPED_RANGE(CacheFormatter_format);
     auto const& llmRequest = session.getLlmRequest();
@@ -468,7 +469,7 @@ void CacheFormatter::format(TransferSession& session)
         mpi::MpiComm::world().getRank(), "End the sending of KV cache for the request ID:%ld ", llmRequest.mRequestId);
 }
 
-void CacheFormatter::unformat(TransferSession& session)
+void CacheFormatter::unformat(tensorrt_llm::batch_manager::TransferSession& session)
 {
     NVTX3_SCOPED_RANGE(CacheFormatter_unformat);
     auto const& llmRequest = session.getLlmRequest();
 
@@ -18,22 +18,38 @@
 #pragma once
 
 #include "cacheTransBuffer.h"
-#include "dataTransceiver.h"
 #include "tensorrt_llm/batch_manager/kvCacheManager.h"
 #include "tensorrt_llm/batch_manager/kvCacheUtils.h"
+#include "tensorrt_llm/common/assert.h"
 #include "tensorrt_llm/common/envUtils.h"
 #include "tensorrt_llm/common/logger.h"
+#include "tensorrt_llm/executor/cacheCommunicator.h"
 #include "tensorrt_llm/executor/cache_transmission/cacheSplitConcat.h"
 #include "tensorrt_llm/executor/dataTransceiverState.h"
 #include "tensorrt_llm/runtime/bufferManager.h"
 #include "tensorrt_llm/runtime/utils/mpiUtils.h"
 #include <NvInferRuntimeBase.h>
 #include <cstddef>
 #include <cstdint>
+#include <fstream>
+#include <vector>
+
+// Forward declare TransferSession in the correct global namespace scope
+namespace tensorrt_llm::batch_manager
+{
+class TransferSession;
+}
 
 namespace tensorrt_llm::batch_manager::kv_cache_manager
 {
 
+using DataContext = tensorrt_llm::executor::kv_cache::DataContext;
+using Connection = tensorrt_llm::executor::kv_cache::Connection;
+using SizeType32 = tensorrt_llm::runtime::SizeType32;
+using BaseKVCacheManager = kv_cache_manager::BaseKVCacheManager;
+using CacheTransBufferManager = kv_cache_manager::CacheTransBufferManager;
+using BlockRange = kv_cache_manager::BlockRange;
+
 BlockRange getBlockRangeForSending(BaseKVCacheManager* cacheManager, LlmRequest const& llmRequest);
 
 BlockRange getBlockRangeForReceiving(BaseKVCacheManager* cacheManager, LlmRequest const& llmRequest);
@@ -42,16 +58,15 @@ BlockRange getBlockRangeForReceiving(BaseKVCacheManager* cacheManager, LlmReques
 class BaseCacheFormatter
 {
 public:
-    using SizeType32 = tensorrt_llm::runtime::SizeType32;
     using CacheState = executor::kv_cache::CacheState;
 
     /// @brief Format the cache data into bytes for sending.
     /// @param session The transfer session.
-    virtual void format(TransferSession& session) = 0;
+    virtual void format(tensorrt_llm::batch_manager::TransferSession& session) = 0;
 
     /// @brief Unformat the cache data from received bytes.
     /// @param session The transfer session.
-    virtual void unformat(TransferSession& session) = 0;
+    virtual void unformat(tensorrt_llm::batch_manager::TransferSession& session) = 0;
 
     /// @brief Determine whether the sender is applicable to the source and target.
     /// @param selfConfig Source data arrangement.
@@ -91,9 +106,9 @@ class CacheFormatter final : public BaseCacheFormatter
         TLLM_CHECK(mCacheTransBufferManager);
     }
 
-    void format(TransferSession& session) override;
+    void format(tensorrt_llm::batch_manager::TransferSession& session) override;
 
-    void unformat(TransferSession& session) override;
+    void unformat(tensorrt_llm::batch_manager::TransferSession& session) override;
 
     [[nodiscard]] bool inquireSupport(CacheState const& selfConfig, CacheState const& destConfig) const override;
 
 
@@ -37,8 +37,9 @@
 #include "tensorrt_llm/batch_manager/cacheFormatter.h"
 #include "tensorrt_llm/batch_manager/cacheTransceiver.h"
 #include "tensorrt_llm/batch_manager/contextProgress.h"
-#include "tensorrt_llm/batch_manager/dataTransceiverImpl.h"
 #include "tensorrt_llm/batch_manager/kvCacheManager.h"
+#include "tensorrt_llm/batch_manager/kvCacheType.h"
+#include "tensorrt_llm/batch_manager/kvCacheUtils.h"
 #include "tensorrt_llm/batch_manager/llmRequest.h"
 #include "tensorrt_llm/batch_manager/mlaCacheFormatter.h"
 #include "tensorrt_llm/common/envUtils.h"
@@ -116,7 +117,6 @@ CacheTransceiver::CacheTransceiver(kv_cache_manager::BaseKVCacheManager* cacheMa
     : mMpiGroupComm(std::addressof(tensorrt_llm::mpi::MpiComm::session()))
     , mCacheTransceiverConfig{cacheTransceiverConfig}
 {
-    using tensorrt_llm::batch_manager::kv_cache_manager::CacheFormatter;
     if (worldConfig.isPipelineParallel())
     {
         mMpiGroupPipeParaComm = std::make_shared<tensorrt_llm::mpi::MpiComm>(
@@ -200,14 +200,12 @@ CacheTransceiver::CacheTransceiver(kv_cache_manager::BaseKVCacheManager* cacheMa
         TLLM_THROW("Unsupported cache transceiver backend type ");
     }
 
-    using tensorrt_llm::batch_manager::kv_cache_manager::MLACacheFormatter;
     auto makeFormatter = [cacheManager, isMLA, this]()
     { return createCacheFormatter(cacheManager, mCacheTransBufferManager.get(), isMLA); };
 
-    mDataResponder = std::make_unique<DataResponder>(
-        std::make_unique<DataSenderImpl>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter()));
-    mDataRequester = std::make_unique<DataRequester>(
-        std::make_unique<DataReceiverImpl>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter()));
+    mCacheSender = std::make_unique<CacheSender>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter());
+    mCacheReceiver
+        = std::make_unique<CacheReceiver>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter());
 
     initializeCommState();
 }
@@ -223,7 +221,7 @@ CacheTransceiver::~CacheTransceiver()
 
 void CacheTransceiver::initializeCommState()
 {
-    mCommState = std::addressof(mDataResponder->getCommState());
+    mCommState = std::addressof(mCacheSender->getCommState());
 }
 
 void CacheTransceiver::setContextState(LlmRequest* llmRequest)
@@ -259,8 +257,8 @@ void CacheTransceiver::respondAndSendAsync(LlmRequest* llmRequest)
         return;
     }
     setContextState(llmRequest);
-    auto future = mDataResponder->respondAndSendAsync(*llmRequest);
-    mResponderFutures.emplace_back(llmRequest, std::move(future));
+    auto future = mCacheSender->sendAsync(*llmRequest);
+    mSenderFutures.emplace_back(llmRequest, std::move(future));
 }
 
 void CacheTransceiver::respondAndSendLayerWise(
@@ -275,16 +273,16 @@ void CacheTransceiver::respondAndSendLayerWise(
 
         llmRequest->setState(LlmRequestState::kDISAGG_CONTEXT_INIT_AND_TRANS);
         setContextState(llmRequest.get());
-        auto future = mDataResponder->respondAndSendAsync(*llmRequest);
-        mResponderFutures.emplace_back(llmRequest.get(), std::move(future));
+        auto future = mCacheSender->sendAsync(*llmRequest);
+        mSenderFutures.emplace_back(llmRequest.get(), std::move(future));
     }
 }
 
 void CacheTransceiver::requestAndReceiveSync(LlmRequest* llmRequest)
 {
     TLLM_CHECK(llmRequest && llmRequest->isGenerationOnlyRequest());
     {
-        auto future = mDataRequester->requestAndReceiveAsync(*llmRequest);
+        auto future = mCacheReceiver->receiveAsync(*llmRequest);
         future.get();
     }
     llmRequest->setState(LlmRequestState::kDISAGG_GENERATION_TRANS_COMPLETE);
@@ -302,7 +300,7 @@ void CacheTransceiver::requestAndReceiveAsync(LlmRequest* llmRequest)
         return;
     }
 
-    auto future = mDataRequester->requestAndReceiveAsync(*llmRequest);
+    auto future = mCacheReceiver->receiveAsync(*llmRequest);
     mRequesterFutures.emplace_back(llmRequest, std::move(future));
     llmRequest->setState(LlmRequestState::kDISAGG_GENERATION_TRANS_IN_PROGRESS);
 }
@@ -382,7 +380,7 @@ void CacheTransceiver::checkContextTransferStatus(std::optional<int> const& atLe
     bool blockAll = !atLeastRequestNum.has_value();
     auto syncComm = mCacheState->getParallelConfig().mEnableAttentionDP ? mMpiGroupTPInDPComm : mMpiGroupTensorParaComm;
     std::vector<LlmRequest::RequestIdType> contextCompleteRequestIds;
-    for (auto&& [request, future] : mResponderFutures)
+    for (auto&& [request, future] : mSenderFutures)
     {
         if (future.wait_for(std::chrono::milliseconds(0)) == std::future_status::ready)
         {
@@ -422,16 +420,15 @@ void CacheTransceiver::checkContextTransferStatus(std::optional<int> const& atLe
 
     // Make sure there are at least atLeastRequestNum requests in toCompleteIdSet.
     // This will preserve the order of insertion for KVCache transfer requests.
-    for (auto it = mResponderFutures.begin();
-         atLeastRequestNum.value_or(0) > static_cast<int>(toCompleteIdSet.size()) && it != mResponderFutures.end();
-         ++it)
+    for (auto it = mSenderFutures.begin();
+         atLeastRequestNum.value_or(0) > static_cast<int>(toCompleteIdSet.size()) && it != mSenderFutures.end(); ++it)
     {
         auto& [request, future] = *it;
         toCompleteIdSet.insert(request->mRequestId);
     }
 
     // Complete all the requests in toCompleteIdSet
-    for (auto it = mResponderFutures.begin(); it != mResponderFutures.end();)
+    for (auto it = mSenderFutures.begin(); it != mSenderFutures.end();)
     {
         auto& [request, future] = *it;
         if (blockAll || (toCompleteIdSet.find(request->mRequestId) != toCompleteIdSet.end()))
@@ -447,7 +444,7 @@ void CacheTransceiver::checkContextTransferStatus(std::optional<int> const& atLe
                     "Error occurred during context transfer for request %ld: %s", request->mRequestId, e.what());
                 request->setState(LlmRequestState::kDISAGG_TRANS_ERROR);
             }
-            it = mResponderFutures.erase(it);
+            it = mSenderFutures.erase(it);
         }
         else
         {
Original file line number	Diff line number	Diff line change
`@@ -19,6 +19,7 @@`
`19`	`19`	`#include "mlaCacheFormatter.h"`
`20`	`20`
`21`	`21`	`#include "tensorrt_llm/batch_manager/contextProgress.h"`
	`22`	`+#include "tensorrt_llm/batch_manager/dataTransceiver.h"`
`22`	`23`	`#include "tensorrt_llm/batch_manager/kvCacheUtils.h"`
`23`	`24`	`#include "tensorrt_llm/common/assert.h"`
`24`	`25`	`#include "tensorrt_llm/common/cudaUtils.h"`
`@@ -154,7 +155,7 @@ std::vector<size_t> CacheFormatter::pickRecvConnections(`
`154`	`155`	`return ret;`
`155`	`156`	`}`
`156`	`157`
`157`		`-void CacheFormatter::format(TransferSession& session)`
	`158`	`+void CacheFormatter::format(tensorrt_llm::batch_manager::TransferSession& session)`
`158`	`159`	`{`
`159`	`160`	`NVTX3_SCOPED_RANGE(CacheFormatter_format);`
`160`	`161`	`auto const& llmRequest = session.getLlmRequest();`
`@@ -468,7 +469,7 @@ void CacheFormatter::format(TransferSession& session)`
`468`	`469`	`mpi::MpiComm::world().getRank(), "End the sending of KV cache for the request ID:%ld ", llmRequest.mRequestId);`
`469`	`470`	`}`
`470`	`471`
`471`		`-void CacheFormatter::unformat(TransferSession& session)`
	`472`	`+void CacheFormatter::unformat(tensorrt_llm::batch_manager::TransferSession& session)`
`472`	`473`	`{`
`473`	`474`	`NVTX3_SCOPED_RANGE(CacheFormatter_unformat);`
`474`	`475`	`auto const& llmRequest = session.getLlmRequest();`
Original file line number	Diff line number	Diff line change
`@@ -37,8 +37,9 @@`
`37`	`37`	`#include "tensorrt_llm/batch_manager/cacheFormatter.h"`
`38`	`38`	`#include "tensorrt_llm/batch_manager/cacheTransceiver.h"`
`39`	`39`	`#include "tensorrt_llm/batch_manager/contextProgress.h"`
`40`		`-#include "tensorrt_llm/batch_manager/dataTransceiverImpl.h"`
`41`	`40`	`#include "tensorrt_llm/batch_manager/kvCacheManager.h"`
	`41`	`+#include "tensorrt_llm/batch_manager/kvCacheType.h"`
	`42`	`+#include "tensorrt_llm/batch_manager/kvCacheUtils.h"`
`42`	`43`	`#include "tensorrt_llm/batch_manager/llmRequest.h"`
`43`	`44`	`#include "tensorrt_llm/batch_manager/mlaCacheFormatter.h"`
`44`	`45`	`#include "tensorrt_llm/common/envUtils.h"`
`@@ -116,7 +117,6 @@ CacheTransceiver::CacheTransceiver(kv_cache_manager::BaseKVCacheManager* cacheMa`
`116`	`117`	`: mMpiGroupComm(std::addressof(tensorrt_llm::mpi::MpiComm::session()))`
`117`	`118`	`, mCacheTransceiverConfig{cacheTransceiverConfig}`
`118`	`119`	`{`
`119`		`- using tensorrt_llm::batch_manager::kv_cache_manager::CacheFormatter;`
`120`	`120`	`if (worldConfig.isPipelineParallel())`
`121`	`121`	`{`
`122`	`122`	`mMpiGroupPipeParaComm = std::make_shared<tensorrt_llm::mpi::MpiComm>(`
`@@ -200,14 +200,12 @@ CacheTransceiver::CacheTransceiver(kv_cache_manager::BaseKVCacheManager* cacheMa`
`200`	`200`	`TLLM_THROW("Unsupported cache transceiver backend type ");`
`201`	`201`	`}`
`202`	`202`
`203`		`- using tensorrt_llm::batch_manager::kv_cache_manager::MLACacheFormatter;`
`204`	`203`	`auto makeFormatter = [cacheManager, isMLA, this]()`
`205`	`204`	`{ return createCacheFormatter(cacheManager, mCacheTransBufferManager.get(), isMLA); };`
`206`	`205`
`207`		`- mDataResponder = std::make_unique<DataResponder>(`
`208`		`- std::make_unique<DataSenderImpl>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter()));`
`209`		`- mDataRequester = std::make_unique<DataRequester>(`
`210`		`- std::make_unique<DataReceiverImpl>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter()));`
	`206`	`+ mCacheSender = std::make_unique<CacheSender>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter());`
	`207`	`+ mCacheReceiver`
	`208`	`+ = std::make_unique<CacheReceiver>(mManager.get(), *mCacheState, worldConfig.getRank(), makeFormatter());`
`211`	`209`
`212`	`210`	`initializeCommState();`
`213`	`211`	`}`
`@@ -223,7 +221,7 @@ CacheTransceiver::~CacheTransceiver()`
`223`	`221`
`224`	`222`	`void CacheTransceiver::initializeCommState()`
`225`	`223`	`{`
`226`		`- mCommState = std::addressof(mDataResponder->getCommState());`
	`224`	`+ mCommState = std::addressof(mCacheSender->getCommState());`
`227`	`225`	`}`
`228`	`226`
`229`	`227`	`void CacheTransceiver::setContextState(LlmRequest* llmRequest)`
`@@ -259,8 +257,8 @@ void CacheTransceiver::respondAndSendAsync(LlmRequest* llmRequest)`
`259`	`257`	`return;`
`260`	`258`	`}`
`261`	`259`	`setContextState(llmRequest);`
`262`		`- auto future = mDataResponder->respondAndSendAsync(*llmRequest);`
`263`		`- mResponderFutures.emplace_back(llmRequest, std::move(future));`
	`260`	`+ auto future = mCacheSender->sendAsync(*llmRequest);`
	`261`	`+ mSenderFutures.emplace_back(llmRequest, std::move(future));`
`264`	`262`	`}`
`265`	`263`
`266`	`264`	`void CacheTransceiver::respondAndSendLayerWise(`
`@@ -275,16 +273,16 @@ void CacheTransceiver::respondAndSendLayerWise(`
`275`	`273`
`276`	`274`	`llmRequest->setState(LlmRequestState::kDISAGG_CONTEXT_INIT_AND_TRANS);`
`277`	`275`	`setContextState(llmRequest.get());`
`278`		`- auto future = mDataResponder->respondAndSendAsync(*llmRequest);`
`279`		`- mResponderFutures.emplace_back(llmRequest.get(), std::move(future));`
	`276`	`+ auto future = mCacheSender->sendAsync(*llmRequest);`
	`277`	`+ mSenderFutures.emplace_back(llmRequest.get(), std::move(future));`
`280`	`278`	`}`
`281`	`279`	`}`
`282`	`280`
`283`	`281`	`void CacheTransceiver::requestAndReceiveSync(LlmRequest* llmRequest)`
`284`	`282`	`{`
`285`	`283`	`TLLM_CHECK(llmRequest && llmRequest->isGenerationOnlyRequest());`
`286`	`284`	`{`
`287`		`- auto future = mDataRequester->requestAndReceiveAsync(*llmRequest);`
	`285`	`+ auto future = mCacheReceiver->receiveAsync(*llmRequest);`
`288`	`286`	`future.get();`
`289`	`287`	`}`
`290`	`288`	`llmRequest->setState(LlmRequestState::kDISAGG_GENERATION_TRANS_COMPLETE);`
`@@ -302,7 +300,7 @@ void CacheTransceiver::requestAndReceiveAsync(LlmRequest* llmRequest)`
`302`	`300`	`return;`
`303`	`301`	`}`
`304`	`302`
`305`		`- auto future = mDataRequester->requestAndReceiveAsync(*llmRequest);`
	`303`	`+ auto future = mCacheReceiver->receiveAsync(*llmRequest);`
`306`	`304`	`mRequesterFutures.emplace_back(llmRequest, std::move(future));`
`307`	`305`	`llmRequest->setState(LlmRequestState::kDISAGG_GENERATION_TRANS_IN_PROGRESS);`
`308`	`306`	`}`
`@@ -382,7 +380,7 @@ void CacheTransceiver::checkContextTransferStatus(std::optional<int> const& atLe`
`382`	`380`	`bool blockAll = !atLeastRequestNum.has_value();`
`383`	`381`	`auto syncComm = mCacheState->getParallelConfig().mEnableAttentionDP ? mMpiGroupTPInDPComm : mMpiGroupTensorParaComm;`
`384`	`382`	`std::vector<LlmRequest::RequestIdType> contextCompleteRequestIds;`
`385`		`- for (auto&& [request, future] : mResponderFutures)`
	`383`	`+ for (auto&& [request, future] : mSenderFutures)`
`386`	`384`	`{`
`387`	`385`	`if (future.wait_for(std::chrono::milliseconds(0)) == std::future_status::ready)`
`388`	`386`	`{`
`@@ -422,16 +420,15 @@ void CacheTransceiver::checkContextTransferStatus(std::optional<int> const& atLe`
`422`	`420`
`423`	`421`	`// Make sure there are at least atLeastRequestNum requests in toCompleteIdSet.`
`424`	`422`	`// This will preserve the order of insertion for KVCache transfer requests.`
`425`		`- for (auto it = mResponderFutures.begin();`
`426`		`- atLeastRequestNum.value_or(0) > static_cast<int>(toCompleteIdSet.size()) && it != mResponderFutures.end();`
`427`		`- ++it)`
	`423`	`+ for (auto it = mSenderFutures.begin();`
	`424`	`+ atLeastRequestNum.value_or(0) > static_cast<int>(toCompleteIdSet.size()) && it != mSenderFutures.end(); ++it)`
`428`	`425`	`{`
`429`	`426`	`auto& [request, future] = *it;`
`430`	`427`	`toCompleteIdSet.insert(request->mRequestId);`
`431`	`428`	`}`
`432`	`429`
`433`	`430`	`// Complete all the requests in toCompleteIdSet`
`434`		`- for (auto it = mResponderFutures.begin(); it != mResponderFutures.end();)`
	`431`	`+ for (auto it = mSenderFutures.begin(); it != mSenderFutures.end();)`
`435`	`432`	`{`
`436`	`433`	`auto& [request, future] = *it;`
`437`	`434`	`if (blockAll \|\| (toCompleteIdSet.find(request->mRequestId) != toCompleteIdSet.end()))`
`@@ -447,7 +444,7 @@ void CacheTransceiver::checkContextTransferStatus(std::optional<int> const& atLe`
`447`	`444`	`"Error occurred during context transfer for request %ld: %s", request->mRequestId, e.what());`
`448`	`445`	`request->setState(LlmRequestState::kDISAGG_TRANS_ERROR);`
`449`	`446`	`}`
`450`		`- it = mResponderFutures.erase(it);`
	`447`	`+ it = mSenderFutures.erase(it);`
`451`	`448`	`}`
`452`	`449`	`else`
`453`	`450`	`{`