Merge pull request #147 from intel/update-branch

gooishin · web-flow · commit cbb0b8b21e8a · 2025-03-03T10:37:58.000+08:00
refactor: remove VLLM_OPENVINO_CPU_KV_CACHE_PRECISION environment variable from README and entrypoint script (#396)
diff --git a/usecases/ai/microservices/text-generation/vllm/README.md b/usecases/ai/microservices/text-generation/vllm/README.md
@@ -39,7 +39,6 @@ docker run -it --rm \
     -e MAX_NUM_SEQS=1 \
     -e VLLM_OPENVINO_DEVICE=CPU \
     -e VLLM_OPENVINO_KVCACHE_SPACE=4 \
-    -e VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 \
     -v ov-vllm:/usr/src/app/data \
     ov-vllm
 ```
@@ -59,7 +58,6 @@ docker run -it --rm \
     -e GPU_MEMORY_UTILIZATION=0.9 \
     -e VLLM_OPENVINO_DEVICE=GPU \
     -e VLLM_OPENVINO_KVCACHE_SPACE=4 \
-    -e VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 \
     -v ov-vllm:/usr/src/app/data \
     ov-vllm
 ```
diff --git a/usecases/ai/microservices/text-generation/vllm/entrypoint.sh b/usecases/ai/microservices/text-generation/vllm/entrypoint.sh
@@ -13,12 +13,10 @@ export GPU_MEMORY_UTILIZATION=${GPU_MEMORY_UTILIZATION:-0.9}
 export MAX_NUM_SEQS=${MAX_NUM_SEQS:-1}
 export VLLM_OPENVINO_DEVICE=${VLLM_OPENVINO_DEVICE:-CPU}
 export VLLM_OPENVINO_KVCACHE_SPACE=${VLLM_OPENVINO_KVCACHE_SPACE:-8}
-export VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=${VLLM_OPENVINO_CPU_KV_CACHE_PRECISION:-u8}
 
 echo -e "Using the following configuration:"
 echo -e "- VLLM_OPENVINO_DEVICE: ${VLLM_OPENVINO_DEVICE}"
 echo -e "- VLLM_OPENVINO_KVCACHE_SPACE: ${VLLM_OPENVINO_KVCACHE_SPACE}"
-echo -e "- VLLM_OPENVINO_CPU_KV_CACHE_PRECISION: ${VLLM_OPENVINO_CPU_KV_CACHE_PRECISION}"
 echo -e "- DEFAULT_MODEL_ID: ${DEFAULT_MODEL_ID}"
 echo -e "- MODEL_PATH: ${MODEL_PATH}"
 echo -e "- MODEL_PRECISION: ${MODEL_PRECISION}"