Upgrade vllm to 0.15.0 with DeepSeek and GPT OSS Eagle Regression Fix (#2995)

ksuma2109 · Suma Kasa · web-flow · commit d9dda20e0dbb · 2026-02-04T09:52:30.000-08:00
Co-authored-by: Suma Kasa &lt;sumakasa@amazon.com&gt;
diff --git a/engines/python/setup/djl_python/chat_completions/vllm_chat_utils.py b/engines/python/setup/djl_python/chat_completions/vllm_chat_utils.py
@@ -14,11 +14,11 @@
 
 from pydantic import Field
 from vllm import TokensPrompt
-from vllm.entrypoints.openai.serving_engine import RequestPrompt, TextTokensPrompt
+from vllm.entrypoints.openai.protocol import RequestPrompt, TextTokensPrompt
 from vllm.tool_parsers import ToolParser
 from vllm.tokenizers.mistral import maybe_serialize_tool_calls
 from vllm.transformers_utils.tokenizer import AnyTokenizer
-from vllm.entrypoints.openai.protocol import ChatCompletionRequest
+from vllm.entrypoints.openai.chat_completion.protocol import ChatCompletionRequest
 from vllm.entrypoints.chat_utils import (
     apply_hf_chat_template, apply_mistral_chat_template, parse_chat_messages,
     resolve_chat_template_content_format, ChatCompletionMessageParam,
diff --git a/engines/python/setup/djl_python/lmi_vllm/request_response_utils.py b/engines/python/setup/djl_python/lmi_vllm/request_response_utils.py
@@ -12,14 +12,16 @@
 # the specific language governing permissions and limitations under the License.
 import json
 from typing import Callable, Tuple, Union, List, Dict
-from vllm.entrypoints.openai.protocol import (
+from vllm.entrypoints.openai.completion.protocol import (
     CompletionRequest,
-    ChatCompletionRequest,
     CompletionResponse,
-    ChatCompletionResponse,
-    ErrorResponse,
     CompletionLogProbs,
 )
+from vllm.entrypoints.openai.chat_completion.protocol import (
+    ChatCompletionRequest,
+    ChatCompletionResponse,
+)
+from vllm.entrypoints.openai.engine.protocol import ErrorResponse
 from vllm.logprobs import Logprob
 from vllm.transformers_utils.tokenizer import AnyTokenizer
 
diff --git a/engines/python/setup/djl_python/lmi_vllm/vllm_async_service.py b/engines/python/setup/djl_python/lmi_vllm/vllm_async_service.py
@@ -16,13 +16,13 @@
 from typing import Optional, Union, AsyncGenerator
 
 from vllm import AsyncLLMEngine
-from vllm.entrypoints.openai.protocol import (
-    ChatCompletionRequest,
-    CompletionRequest,
-)
-from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
-from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion
-from vllm.entrypoints.openai.serving_models import OpenAIServingModels, BaseModelPath
+from vllm.entrypoints.openai.chat_completion.protocol import ChatCompletionRequest
+from vllm.entrypoints.openai.completion.protocol import CompletionRequest
+
+from vllm.entrypoints.openai.chat_completion.serving import OpenAIServingChat
+from vllm.entrypoints.openai.completion.serving import OpenAIServingCompletion
+from vllm.entrypoints.openai.models.protocol import BaseModelPath
+from vllm.entrypoints.openai.models.serving import OpenAIServingModels
 from vllm.utils.counter import AtomicCounter
 from vllm.utils.system_utils import kill_process_tree
 
@@ -123,7 +123,7 @@ async def initialize(self, properties: dict):
             async_engine=True)
         self.vllm_engine = AsyncLLMEngine.from_engine_args(
             self.vllm_engine_args)
-        self.tokenizer = await self.vllm_engine.get_tokenizer()
+        self.tokenizer = self.vllm_engine.get_tokenizer()
 
         model_names = self.vllm_engine_args.served_model_name or "lmi"
         if not isinstance(model_names, list):
diff --git a/serving/docker/lmi-container-requirements.txt b/serving/docker/lmi-container-requirements.txt
@@ -1,38 +1,12 @@
 torch==2.9.1
-autoawq
-torchvision
-peft==0.15.1
-protobuf>=6.30.0
-transformers==4.57.1
+transformers >= 4.56.0, < 5
+huggingface-hub
 hf-transfer
-zstandard
-datasets==3.0.1
-mpi4py
-sentencepiece
-tiktoken
-blobfile
-einops
-accelerate==1.0.1
-bitsandbytes
-pandas
-pyarrow
-jinja2
-retrying
-opencv-contrib-python-headless
-safetensors
-scipy==1.16.0
-onnx==1.19.0
-sentence_transformers
-onnxruntime-gpu==1.20.0
-autoawq
-tokenizers
-pydantic>=2.12.0
+peft==0.15.1
+sentence-transformers==3.3.1
 optimum==1.23.2
-uvloop
-ninja
-peft
-llmcompressor
-vllm==0.14.0
-xgrammar
-flashinfer-python==0.5.3
-lmcache
+llmcompressor==0.9.0.1
+mpi4py==4.0.1
+https://djl-ai.s3.us-east-1.amazonaws.com/publish/vllm/vllm-0.15.1.dev2%2Bgb225806e5.cu128-cp312-cp312-linux_x86_64.whl
+lmcache
+autoawq
diff --git a/serving/docker/lmi.Dockerfile b/serving/docker/lmi.Dockerfile
@@ -90,7 +90,7 @@ RUN scripts/patch_oss_dlc.sh python \
 
 COPY lmi-container-requirements.txt ./requirements.txt
 RUN pip3 install --upgrade pip setuptools
-RUN pip3 install torch==2.9.1 torchvision \
+RUN pip3 install torch==2.9.1 torchvision\
     && pip3 install -r requirements.txt \
     && pip3 install ${djl_converter_wheel} --no-deps
 
diff --git a/tests/integration/tests.py b/tests/integration/tests.py
@@ -370,7 +370,7 @@ class TestVllm1_g6:
 
     def test_gemma_2b(self):
         with Runner("lmi", "gemma-2b") as r:
-            prepare.build_vllm_model("gemma-2b")
+            prepare.build_vllm_async_model("gemma-2b")
             r.launch()
             client.run("vllm gemma-2b".split())