Cherrypick LoRA fix and vLLM upgrade changes to Release branch (#2958)

ksuma2109 · Lokiiiiii · Suma Kasa · web-flow · commit aec43933e0dc · 2025-11-19T14:05:40.000-08:00
Co-authored-by: Loki &lt;lokravi@amazon.com&gt;
Co-authored-by: Suma Kasa &lt;sumakasa@amazon.com&gt;
diff --git a/engines/python/setup/djl_python/lmi_vllm/request_response_utils.py b/engines/python/setup/djl_python/lmi_vllm/request_response_utils.py
@@ -55,6 +55,7 @@ def convert_lmi_schema_to_completion_request(
     parameters = payload.get("parameters", {})
 
     completion_dict = {
+        "model": payload.pop("model"),
         "prompt": payload.pop("inputs"),
         "max_tokens": parameters.pop("max_new_tokens", 30),
         "echo": parameters.pop("return_full_text", False),
diff --git a/engines/python/setup/djl_python/lmi_vllm/vllm_async_service.py b/engines/python/setup/djl_python/lmi_vllm/vllm_async_service.py
@@ -165,6 +165,8 @@ def preprocess_request(self, inputs: Input) -> ProcessedRequest:
             logging.info(
                 f"Using LoRA request: {lora_request.lora_name} (ID: {lora_request.lora_int_id})"
             )
+            # Set the model field to the adapter name so vLLM's _maybe_get_adapters() can extract it
+            decoded_payload["model"] = adapter_name
 
         # completions request
         if "prompt" in decoded_payload:
@@ -238,22 +240,9 @@ async def inference(
                 "", error=f"Input parsing failed: {str(e)}", code=424)
             return output
 
-        if processed_request.lora_request:
-            original_add_request = self.vllm_engine.add_request
-
-            async def add_request_with_lora(*args, **kwargs):
-                kwargs['lora_request'] = processed_request.lora_request
-                return await original_add_request(*args, **kwargs)
-
-            self.vllm_engine.add_request = add_request_with_lora
-            try:
-                response = await processed_request.inference_invoker(
-                    processed_request.vllm_request)
-            finally:
-                self.vllm_engine.add_request = original_add_request
-        else:
-            response = await processed_request.inference_invoker(
-                processed_request.vllm_request)
+        # vLLM will extract the adapter from the request object via _maybe_get_adapters()
+        response = await processed_request.inference_invoker(
+            processed_request.vllm_request)
 
         if isinstance(response, types.AsyncGeneratorType):
             # Apply custom formatter to streaming response
diff --git a/serving/docker/lmi-container-requirements.txt b/serving/docker/lmi-container-requirements.txt
@@ -32,7 +32,7 @@ uvloop
 ninja
 peft
 llmcompressor
-https://vllm-wheels.s3.us-west-2.amazonaws.com/93103575ce0480f36fc1a3603eb51d9a89f38a00/vllm-1.0.0.dev-cp38-abi3-manylinux1_x86_64.whl
+vllm==0.11.1
 xgrammar
 flashinfer-python==0.5.2
 lmcache
diff --git a/tests/integration/llm/prepare.py b/tests/integration/llm/prepare.py
@@ -162,6 +162,7 @@
         '{"method":"eagle","model":"yuhuili/EAGLE-LLaMA3.1-Instruct-8B","num_speculative_tokens":4}',
         "option.tensor_parallel_degree": 4,
         "option.max_rolling_batch_size": 4,
+        "option.enforce_eager": True,
     },
     "llama-7b-unmerged-lora": {
         "option.model_id": "s3://djl-llm/huggyllama-llama-7b",