[None][feat] Pass KvCacheRetentionConfig to torch LlmRequest (NVIDIA#8634)

achartier · yufeiwu-nv · commit 4b54ca3e5ffe · 2025-10-24T17:12:57.000Z
Signed-off-by: Aurelien Chartier &lt;2567591+achartier@users.noreply.github.com&gt;
Signed-off-by: yufeiwu-nv &lt;230315618+yufeiwu-nv@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/pyexecutor/llm_request.py b/tensorrt_llm/_torch/pyexecutor/llm_request.py
@@ -764,7 +764,8 @@ def executor_request_to_llm_request(
         cache_salt_id=executor_request.cache_salt_id,
         arrival_time=getattr(executor_request, "py_arrival_time", None),
         py_multimodal_data=getattr(executor_request, "py_multimodal_data",
-                                   None))
+                                   None),
+        kv_cache_retention_config=executor_request.kv_cache_retention_config)
     if child_req_ids:
         for child_id in child_req_ids:
             llm_request.create_child_request(child_id)