feat: initial commit for openvino vllm serving microservice (#269)

gooishin · gooishin · commit 05be2ef9ab5a · 2024-12-19T09:09:24.000+08:00
diff --git a/usecases/ai/microservices/text-generation/vllm/.gitignore b/usecases/ai/microservices/text-generation/vllm/.gitignore
@@ -0,0 +1 @@
+data/ov_model
diff --git a/usecases/ai/microservices/text-generation/vllm/Dockerfile b/usecases/ai/microservices/text-generation/vllm/Dockerfile
@@ -0,0 +1,54 @@
+# Copyright (C) 2024 Intel Corporation
+# SPDX-License-Identifier: Apache-2.0
+
+FROM debian:12-slim
+ARG DEBIAN_FRONTEND=noninteractive
+ARG VLLM_VERSION=v0.6.5
+SHELL ["/bin/bash", "-o", "pipefail", "-c"]
+RUN apt-get update \
+    && apt-get upgrade -y \
+    && apt-get install --no-install-recommends -y \
+        sudo \
+        curl \
+        git \
+        gpg-agent \
+        software-properties-common \
+        python3.11 \
+        python3.11-venv \
+    && curl -fsSL https://repositories.intel.com/gpu/intel-graphics.key | gpg --dearmor | tee /usr/share/keyrings/intel-graphics.gpg \
+    && echo "deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy client" > /etc/apt/sources.list.d/intel-graphics.list \
+    && apt-get update \
+    && apt-get install -y --no-install-recommends \
+        intel-opencl-icd \
+        intel-level-zero-gpu \
+        libze1 \
+        libze-dev \
+        clinfo \
+    && addgroup --system intel --gid 1000 \
+    && adduser --system --ingroup intel --uid 1000 --home /home/intel intel \
+    && echo "intel ALL=(ALL:ALL) NOPASSWD:ALL" > /etc/sudoers.d/intel \
+    && rm -rf /var/lib/apt/lists/* \
+    && mkdir -p /usr/src \
+    && chown -R intel:intel /usr/src
+
+USER intel
+WORKDIR /usr/src/app
+RUN python3 -m venv /usr/src/.venv \
+    && git clone https://github.com/vllm-project/vllm.git
+ENV PATH="/usr/src/.venv/bin:$PATH"
+
+WORKDIR /usr/src/app/vllm
+RUN git checkout ${VLLM_VERSION} \
+    && python3 -m pip install --no-cache-dir --upgrade pip \
+    && PIP_EXTRA_INDEX_URL="https://download.pytorch.org/whl/cpu" python3 -m pip install --no-cache-dir -r requirements-build.txt \
+    && PIP_EXTRA_INDEX_URL="https://download.pytorch.org/whl/cpu" VLLM_TARGET_DEVICE="openvino" python3 -m pip install --no-cache-dir .
+
+WORKDIR /usr/src/app
+RUN opt_in_out --opt_out
+COPY --chown=intel:intel entrypoint.sh /usr/src/app/entrypoint.sh
+RUN chmod +x /usr/src/app/entrypoint.sh
+
+HEALTHCHECK --interval=1m --timeout=30s --start-period=5s --retries=10 \
+    CMD curl -f http://localhost:8000/health || exit 1
+
+ENTRYPOINT [ "/usr/src/app/entrypoint.sh" ]
diff --git a/usecases/ai/microservices/text-generation/vllm/README.md b/usecases/ai/microservices/text-generation/vllm/README.md
@@ -0,0 +1,122 @@
+# VLLM OpenVINO
+
+## Requirements
+
+### Validated Hardware Requirements
+- **CPU:** 13th generation Intel Core processors or newer
+- **GPU:** Intel® Arc™ graphics
+- **RAM:** 32GB (may vary based on model size)
+- **Disk:** 128GB (may vary based on model size)
+
+## Quick Start
+
+### 1. Install Operating System
+Install the latest [Ubuntu 22.04 LTS Desktop](https://releases.ubuntu.com/jammy/). Refer to the [Ubuntu Desktop installation tutorial](https://ubuntu.com/tutorials/install-ubuntu-desktop#1-overview) if needed.
+
+### 2. Install GPU Driver (Optional)
+If you plan to use a GPU for inference, install the appropriate GPU driver:
+- **Intel® Arc™ A-Series Graphics:** [Installation Guide](https://github.com/intel/edge-developer-kit-reference-scripts/tree/main/gpu/arc/dg2)
+- **Intel® Data Center GPU Flex Series:** [Installation Guide](https://github.com/intel/edge-developer-kit-reference-scripts/tree/main/gpu/flex/ats)
+
+### 3. Set Up Docker
+Follow the instructions [here](https://docs.docker.com/engine/install/) to install Docker and Docker Compose.
+
+### 4. Build the OpenVINO VLLM Docker Image
+```bash
+docker build -t ov-vllm .
+```
+
+### 5. Run the OpenVINO VLLM container
+By default, on the container launch, it 
+* **CPU**
+```bash
+docker run -it --rm \
+    -p 8000:8000 \
+    -e DEFAULT_MODEL_ID=Qwen/Qwen2.5-7B-Instruct \
+    -e MODEL_PRECISION=int4 \
+    -e SERVED_MODEL_NAME=ov-vllm \
+    -e MAX_MODEL_LEN=2048 \
+    -e VLLM_OPENVINO_DEVICE=CPU \
+    -e VLLM_OPENVINO_KVCACHE_SPACE=8 \
+    -e VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 \
+    -e VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON \
+    -v ./data:/usr/src/app/data \
+    ov-vllm
+```
+
+* **GPU**
+```bash
+RENDER_GROUP_ID=$(getent group render | cut -d: -f3)
+docker run -it --rm \
+    --group-add $RENDER_GROUP_ID \
+    --device /dev/dri:/dev/dri \
+    -p 8000:8000 \
+    -e DEFAULT_MODEL_ID=Qwen/Qwen2.5-7B-Instruct \
+    -e MODEL_PRECISION=int4 \
+    -e SERVED_MODEL_NAME=ov-vllm \
+    -e MAX_MODEL_LEN=2048 \
+    -e GPU_MEMORY_UTILIZATION=0.9 \
+    -e VLLM_OPENVINO_DEVICE=GPU \
+    -e VLLM_OPENVINO_KVCACHE_SPACE=8 \
+    -e VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 \
+    -e VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON \
+    -v ./data:/usr/src/app/data \
+    ov-vllm
+```
+
+### 6. Test the OpenVINO VLLM with chat completion API
+```bash
+curl "http://localhost:8000/v1/chat/completions" \
+    -H "Content-Type: application/json" \
+    -d '{
+        "model": "ov-vllm",
+        "messages": [
+            {
+                "role": "system",
+                "content": "You are a helpful assistant."
+            },
+            {
+                "role": "user",
+                "content": "What is AI?"
+            }
+        ],
+        "stream": true
+    }'
+```
+
+
+## FAQs
+### 1. How can I replace or use my own model?
+1. Convert the model into OpenVINO format. Refer to this [link](https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-model-preparation.html) for more information.
+2. After the model convertion steps, place the model in the following following file structures.
+```bash
+.
+├── data
+│   └── ov_model
+│       ├── added_tokens.json
+│       ├── config.json
+│       ├── generation_config.json
+│       ├── merges.txt
+│       ├── openvino_model.bin
+│       ├── openvino_model.xml
+│       ├── special_tokens_map.json
+│       ├── tokenizer_config.json
+│       ├── tokenizer.json
+│       └── vocab.json
+├── Dockerfile
+├── entrypoint.sh
+└── README.md
+```
+
+### 2. How can I change the default model after it has been run once?
+1. Delete the existing model located in `./data/ov_model`.
+```bash
+rm -rf ./data/ov_model
+```
+2. Rerun the `docker run` command to load and quantize the new model.
+
+### 3. How can I avoid redownload the model everytime to convert and quantize the model?
+1. Mount the huggingface cache path into the container
+```bash
+-v $HOME/.cache/huggingface:/home/intel/.cache/huggingface
+```
diff --git a/usecases/ai/microservices/text-generation/vllm/data/.gitkeep b/usecases/ai/microservices/text-generation/vllm/data/.gitkeep
diff --git a/usecases/ai/microservices/text-generation/vllm/entrypoint.sh b/usecases/ai/microservices/text-generation/vllm/entrypoint.sh
@@ -0,0 +1,49 @@
+#!/bin/bash
+# Copyright (C) 2024 Intel Corporation
+# SPDX-License-Identifier: Apache-2.0
+
+echo -e "Initializing OpenVINO VLLM service ..."
+export DEFAULT_MODEL_ID=${DEFAULT_MODEL_ID:-Qwen/Qwen2.5-7B-Instruct}
+export MODEL_PATH=${MODEL_PATH:-./data/ov_model}
+export MODEL_PRECISION=${MODEL_PRECISION:-int4}
+export SERVED_MODEL_NAME=${SERVED_MODEL_NAME:-ov-vllm}
+export MAX_MODEL_LEN=${MAX_MODEL_LEN:-2048}
+export GPU_MEMORY_UTILIZATION=${GPU_MEMORY_UTILIZATION:-0.9}
+export VLLM_OPENVINO_DEVICE=${VLLM_OPENVINO_DEVICE:-CPU}
+export VLLM_OPENVINO_KVCACHE_SPACE=${VLLM_OPENVINO_KVCACHE_SPACE:-8}
+export VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=${VLLM_OPENVINO_CPU_KV_CACHE_PRECISION:-u8}
+export VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=${VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS:-ON}
+
+echo -e "Using the following configuration:"
+echo -e "- VLLM_OPENVINO_DEVICE: ${VLLM_OPENVINO_DEVICE}"
+echo -e "- VLLM_OPENVINO_KVCACHE_SPACE: ${VLLM_OPENVINO_KVCACHE_SPACE}"
+echo -e "- VLLM_OPENVINO_CPU_KV_CACHE_PRECISION: ${VLLM_OPENVINO_CPU_KV_CACHE_PRECISION}"
+echo -e "- VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS: ${VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS}"
+echo -e "- DEFAULT_MODEL_ID: ${DEFAULT_MODEL_ID}"
+echo -e "- MODEL_PATH: ${MODEL_PATH}"
+echo -e "- MODEL_PRECISION: ${MODEL_PRECISION}"
+echo -e "- SERVED_MODEL_NAME: ${SERVED_MODEL_NAME}"
+echo -e "- MAX_MODEL_LEN: ${MAX_MODEL_LEN}"
+echo -e "- GPU_MEMORY_UTILIZATION: ${GPU_MEMORY_UTILIZATION}"
+
+if [ ! -d "$MODEL_PATH" ]; then
+    echo -e "Model path does not exist: $MODEL_PATH. Downloading the default model: $DEFAULT_MODEL_ID ..."
+    optimum-cli export openvino \
+        --model "$DEFAULT_MODEL_ID" \
+        --weight-format "$MODEL_PRECISION" \
+        --sym \
+        --ratio 1.0 \
+        --group-size -1 \
+        "$MODEL_PATH"
+fi
+
+if [ ! -f "$MODEL_PATH/openvino_model.xml" ]; then
+    echo -e "Model file does not exist: $MODEL_PATH/openvino_model.xml. Please export the model first and save to $MODEL_PATH"
+    exit 1
+fi
+
+echo -e "Starting OpenVINO VLLM service ..."
+vllm serve "$MODEL_PATH" \
+    --served_model_name "$SERVED_MODEL_NAME" \
+    --max-model-len "$MAX_MODEL_LEN" \
+    --gpu-memory-utilization "$GPU_MEMORY_UTILIZATION"