Updating doc for enabling prefix caching (#489)

YuhanLiu11 · web-flow · commit d14cb7c102b6 · 2025-06-05T00:21:57.000-07:00
Signed-off-by: YuhanLiu11 &lt;yliu738@wisc.edu&gt;
diff --git a/docs/source/tutorials/disagg.rst b/docs/source/tutorials/disagg.rst
@@ -64,7 +64,7 @@ The router coordinates between the prefill and decode servers, handling request
     python3 -m vllm_router.app --port 8005 \
         --service-discovery static \
         --static-backends "http://localhost:8100,http://localhost:8200" \
-        --static-models "meta-llama/Llama-3.1-8B-Instruct,meta-llama/Llama-3.1-70B-Instruct" \
+        --static-models "meta-llama/Llama-3.1-8B-Instruct,meta-llama/Llama-3.1-8B-Instruct" \
         --static-model-labels "llama-prefill,llama-decode" \
         --log-stats \
         --log-stats-interval 10 \
@@ -134,8 +134,7 @@ Create a configuration file ``values-16-disagg-prefill.yaml`` with the following
           # requestGPU: 1
           pvcStorage: "50Gi"
           vllmConfig:
-            enableChunkedPrefill: false
-            enablePrefixCaching: false
+            enablePrefixCaching: true
             maxModelLen: 32000
             v1: 1
             gpuMemoryUtilization: 0.6
@@ -166,8 +165,7 @@ Create a configuration file ``values-16-disagg-prefill.yaml`` with the following
           # requestGPU: 1
           pvcStorage: "50Gi"
           vllmConfig:
-            enableChunkedPrefill: false
-            enablePrefixCaching: false
+            enablePrefixCaching: true
             maxModelLen: 32000
             v1: 1
           lmcacheConfig:
diff --git a/docs/source/tutorials/kv_cache.rst b/docs/source/tutorials/kv_cache.rst
@@ -36,9 +36,8 @@ Locate the file ``tutorials/assets/values-05-cpu-offloading.yaml`` with the foll
             requestGPU: 1
             pvcStorage: "50Gi"
             vllmConfig:
-            enableChunkedPrefill: false
-            enablePrefixCaching: false
-            maxModelLen: 16384
+              enablePrefixCaching: true
+              maxModelLen: 16384
 
             lmcacheConfig:
             enabled: true
diff --git a/tutorials/assets/values-05-cpu-offloading.yaml b/tutorials/assets/values-05-cpu-offloading.yaml
@@ -16,6 +16,7 @@ servingEngineSpec:
       enableChunkedPrefill: false
       enablePrefixCaching: false
       maxModelLen: 16384
+      v1: 1
 
     lmcacheConfig:
       enabled: true
diff --git a/tutorials/assets/values-06-shared-storage.yaml b/tutorials/assets/values-06-shared-storage.yaml
@@ -11,8 +11,7 @@ servingEngineSpec:
     requestGPU: 1
     pvcStorage: "50Gi"
     vllmConfig:
-      enableChunkedPrefill: false
-      enablePrefixCaching: false
+      enablePrefixCaching: true
       maxModelLen: 16384
       v1: 1
 
diff --git a/tutorials/assets/values-14-vllm-v1.yaml b/tutorials/assets/values-14-vllm-v1.yaml
@@ -16,8 +16,7 @@ servingEngineSpec:
       - ReadWriteOnce
 
     vllmConfig:
-      enableChunkedPrefill: false
-      enablePrefixCaching: false
+      enablePrefixCaching: true
       maxModelLen: 4096
       dtype: "bfloat16"
       v1: 1
diff --git a/tutorials/assets/values-16-disagg-prefill.yaml b/tutorials/assets/values-16-disagg-prefill.yaml
@@ -15,8 +15,7 @@ servingEngineSpec:
       # requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
-        enableChunkedPrefill: false
-        enablePrefixCaching: false
+        enablePrefixCaching: true
         maxModelLen: 32000
         v1: 1
         gpuMemoryUtilization: 0.6
@@ -47,8 +46,7 @@ servingEngineSpec:
       # requestGPU: 1
       pvcStorage: "50Gi"
       vllmConfig:
-        enableChunkedPrefill: false
-        enablePrefixCaching: false
+        enablePrefixCaching: true
         maxModelLen: 32000
         v1: 1
       lmcacheConfig:
diff --git a/tutorials/assets/values-17-kv-aware.yaml b/tutorials/assets/values-17-kv-aware.yaml
@@ -11,8 +11,7 @@ servingEngineSpec:
     requestGPU: 1
     pvcStorage: "50Gi"
     vllmConfig:
-      enableChunkedPrefill: false
-      enablePrefixCaching: false
+      enablePrefixCaching: true
       maxModelLen: 16384
       v1: 1
 
@@ -38,8 +37,7 @@ servingEngineSpec:
     requestGPU: 1
     pvcStorage: "50Gi"
     vllmConfig:
-      enableChunkedPrefill: false
-      enablePrefixCaching: false
+      enablePrefixCaching: true
       maxModelLen: 16384
       v1: 1
 
diff --git a/tutorials/assets/values-18-prefix-aware.yaml b/tutorials/assets/values-18-prefix-aware.yaml
@@ -11,8 +11,7 @@ servingEngineSpec:
     requestGPU: 1
     pvcStorage: "50Gi"
     vllmConfig:
-      enableChunkedPrefill: false
-      enablePrefixCaching: false
+      enablePrefixCaching: true
       maxModelLen: 16384
       v1: 1