[Build][Router] Update vllm to v0.13.0 (#770)

shernshiou · web-flow · commit 5694032b802a · 2026-01-14T14:06:42.000-08:00
* build: Update vllm to v0.13.0

Signed-off-by: Shern Shiou Tan &lt;shernshiou@gmail.com&gt;

* feat: Add health_check_interval and lmcache_worker_timeout

Signed-off-by: Shern Shiou Tan &lt;shernshiou@gmail.com&gt;

---------

Signed-off-by: Shern Shiou Tan &lt;shernshiou@gmail.com&gt;
diff --git a/pyproject.toml b/pyproject.toml
@@ -14,7 +14,7 @@ classifiers = [
 dependencies = [
     "aiofiles==24.1.0",
     "black>=25.1.0",
-    "fastapi==0.115.8",
+    "fastapi==0.128.0",
     "aiohttp[speedups]==3.13.0",
     "kubernetes==32.0.0",
     "numpy==1.26.4",
@@ -45,13 +45,13 @@ semantic_cache = [
     "huggingface-hub==0.34.0",
 ]
 lmcache = [
-    "lmcache==0.3.9post2",
-    "vllm==0.11.0",
+    "lmcache==0.3.11",
+    "vllm==0.13.0",
 ]
 test = [
     "pytest>=8.3.4",
     "pytest-asyncio>=0.25.3",
-    "vllm==0.11.0"
+    "vllm==0.13.0"
 ]
 
 [build-system]
diff --git a/src/vllm_router/app.py b/src/vllm_router/app.py
@@ -253,6 +253,8 @@ def initialize_all(app: FastAPI, args):
         prefill_model_labels=args.prefill_model_labels,
         decode_model_labels=args.decode_model_labels,
         kv_aware_threshold=args.kv_aware_threshold,
+        lmcache_health_check_interval=args.lmcache_health_check_interval,
+        lmcache_worker_timeout=args.lmcache_worker_timeout,
     )
 
     # Initialize feature gates
diff --git a/src/vllm_router/parsers/parser.py b/src/vllm_router/parsers/parser.py
@@ -399,6 +399,20 @@ def parse_args():
         help="The threshold for kv-aware routing.",
     )
 
+    parser.add_argument(
+        "--lmcache-health-check-interval",
+        type=float,
+        default=5.0,
+        help="Health check interval for LMCache worker (seconds)",
+    )
+
+    parser.add_argument(
+        "--lmcache-worker-timeout",
+        type=float,
+        default=30.0,
+        help="Timeout for LMCache worker (seconds)",
+    )
+
     args = parser.parse_args()
     args = load_initial_config_from_config_file_if_required(parser, args)
 
diff --git a/src/vllm_router/requirements.txt b/src/vllm_router/requirements.txt
@@ -1,6 +1,6 @@
 aiofiles==24.1.0
 aiohttp[speedups]==3.13.0
-fastapi==0.115.8
+fastapi==0.128.0
 kubernetes==32.0.0
 numpy==1.26.4
 
diff --git a/src/vllm_router/routers/routing_logic.py b/src/vllm_router/routers/routing_logic.py
@@ -244,6 +244,8 @@ def __init__(
         lmcache_controller_port: int,
         session_key: str,
         kv_aware_threshold: int = 2000,
+        health_check_interval: float = 5.0,
+        lmcache_worker_timeout: float = 30.0,
     ):
         self.lmcache_controller_port = lmcache_controller_port
         logger.info(
@@ -253,7 +255,9 @@ def __init__(
             {
                 "pull": f"0.0.0.0:{self.lmcache_controller_port}",
                 "reply": None,
-            }
+            },
+            health_check_interval,
+            lmcache_worker_timeout,
         )
         self.req_id = 0
         self.instance_id_to_ip = {}
@@ -528,9 +532,11 @@ def initialize_routing_logic(
     elif routing_logic == RoutingLogic.KVAWARE:
         logger.info("Initializing kvaware routing logic")
         router = KvawareRouter(
-            kwargs.get("lmcache_controller_port"),
-            kwargs.get("session_key"),
-            kwargs.get("kv_aware_threshold"),
+            lmcache_controller_port=kwargs.get("lmcache_controller_port"),
+            session_key=kwargs.get("session_key"),
+            kv_aware_threshold=kwargs.get("kv_aware_threshold"),
+            health_check_interval=kwargs.get("lmcache_health_check_interval"),
+            lmcache_worker_timeout=kwargs.get("lmcache_worker_timeout"),
         )
         router.start_kv_manager()
         return router

Original file line number	Diff line number	Diff line change
`@@ -253,6 +253,8 @@ def initialize_all(app: FastAPI, args):`
`253`	`253`	`prefill_model_labels=args.prefill_model_labels,`
`254`	`254`	`decode_model_labels=args.decode_model_labels,`
`255`	`255`	`kv_aware_threshold=args.kv_aware_threshold,`
	`256`	`+ lmcache_health_check_interval=args.lmcache_health_check_interval,`
	`257`	`+ lmcache_worker_timeout=args.lmcache_worker_timeout,`
`256`	`258`	`)`
`257`	`259`
`258`	`260`	`# Initialize feature gates`