chore: bump vLLM default version to 0.17.0

doringeman · doringeman · commit e85b0d7e497f · 2026-03-09T11:28:56.000+02:00
Signed-off-by: Dorin Geman &lt;dorin.geman@docker.com&gt;
diff --git a/.github/workflows/release.yml b/.github/workflows/release.yml
@@ -34,7 +34,7 @@ on:
         description: "vLLM version"
         required: false
         type: string
-        default: "0.12.0"
+        default: "0.17.0"
       sglangVersion:
         description: "SGLang version"
         required: false
@@ -230,7 +230,7 @@ jobs:
     env:
       RELEASE_TAG: ${{ needs.prepare.outputs.release_tag }}
       LLAMA_SERVER_VERSION: ${{ inputs.llamaServerVersion || 'latest' }}
-      VLLM_VERSION: ${{ inputs.vllmVersion || '0.12.0' }}
+      VLLM_VERSION: ${{ inputs.vllmVersion }}
       SGLANG_VERSION: ${{ inputs.sglangVersion || '0.4.0' }}
       PUSH_LATEST: ${{ inputs.pushLatest || 'false' }}
       BUILD_MUSA_CANN: ${{ inputs.buildMusaCann || 'false' }}
diff --git a/Dockerfile b/Dockerfile
@@ -90,7 +90,7 @@ ENTRYPOINT ["/app/model-runner"]
 # --- vLLM variant ---
 FROM llamacpp AS vllm
 
-ARG VLLM_VERSION=0.12.0
+ARG VLLM_VERSION=0.17.0
 ARG VLLM_CUDA_VERSION=cu130
 ARG VLLM_PYTHON_TAG=cp38-abi3
 ARG TARGETARCH
diff --git a/Makefile b/Makefile
@@ -5,7 +5,7 @@ LLAMA_SERVER_VERSION := latest
 LLAMA_SERVER_VARIANT := cpu
 BASE_IMAGE := ubuntu:24.04
 VLLM_BASE_IMAGE := nvidia/cuda:13.0.2-runtime-ubuntu24.04
-VLLM_VERSION ?= 0.12.0
+VLLM_VERSION ?= 0.17.0
 DOCKER_IMAGE := docker/model-runner:latest
 DOCKER_IMAGE_VLLM := docker/model-runner:latest-vllm-cuda
 DOCKER_IMAGE_SGLANG := docker/model-runner:latest-sglang