deepjavalibrary
diff --git a/‎engines/python/setup/djl_python/chat_completions/vllm_chat_utils.py‎
Lines changed: 3 additions & 2 deletions b/‎engines/python/setup/djl_python/chat_completions/vllm_chat_utils.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎tests/integration/launch_container.sh‎
Lines changed: 7 additions & 1 deletion b/‎tests/integration/launch_container.sh‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎tests/integration/llm/prepare.py‎
Lines changed: 118 additions & 0 deletions b/‎tests/integration/llm/prepare.py‎
Lines changed: 118 additions & 0 deletions
@@ -78,9 +78,10 @@ def parse_chat_completions_request_vllm(
     default_sampling_params = rolling_batch.get_default_sampling_params()
     default_max_new_tokens = rolling_batch.engine.model_config.max_model_len - len(
         engine_prompt["prompt_token_ids"])
+    # Use max_tokens from request if provided, otherwise use default
+    max_tokens = chat_params.max_tokens or chat_params.max_completion_tokens or default_max_new_tokens
     sampling_params = chat_params.to_sampling_params(
-        default_max_new_tokens,
-        rolling_batch.engine.model_config.logits_processor_pattern,
+        max_tokens, rolling_batch.engine.model_config.logits_processor_pattern,
         default_sampling_params)
     params = {
         "stream": chat_params.stream,
 
@@ -77,7 +77,13 @@ support_nvme() {
   fi
 }
 
-if [[ "$(support_nvme)" == *"true"* ]]; then
+# Check if DISABLE_NVME_TMP is set in docker_env file
+disable_nvme_tmp=false
+if [[ -f ${PWD}/docker_env ]] && grep -q "DISABLE_NVME_TMP=true" ${PWD}/docker_env; then
+  disable_nvme_tmp=true
+fi
+
+if [[ "$(support_nvme)" == *"true"* ]] && [[ "$disable_nvme_tmp" != "true" ]]; then
   sudo rm -rf /opt/dlami/nvme/inf_tmp || true
   sudo mkdir -p /opt/dlami/nvme/inf_tmp && sudo chmod 777 /opt/dlami/nvme/inf_tmp
   nvme="/opt/dlami/nvme/inf_tmp:/tmp"
 
@@ -465,6 +465,124 @@
         "option.enable_reasoning": True,
         "option.reasoning_parser": "deepseek_r1",
     },
+    "qwen3-8b": {
+        "option.model_id": "Qwen/Qwen3-8B",
+        "option.tensor_parallel_degree": 1,
+    },
+    "qwen3-8b-lmcache": {
+        "option.model_id": "Qwen/Qwen3-8B",
+        "option.tensor_parallel_degree": 1,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+        "lmcache_config_file": "lmcache_qwen3_benchmark.yaml",
+        "option.kv_transfer_config":
+        '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}',
+        "load_on_devices": 0,
+    },
+    "qwen3-8b-baseline": {
+        "option.model_id": "Qwen/Qwen3-8B",
+        "option.tensor_parallel_degree": 1,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+        "gpu.maxWorkers": 1,
+        "load_on_devices": 0,
+    },
+    "qwen3-8b-lmcache-ebs": {
+        "option.model_id": "Qwen/Qwen3-8B",
+        "option.tensor_parallel_degree": 1,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+        "lmcache_config_file": "lmcache_qwen3_ebs.yaml",
+        "option.kv_transfer_config":
+        '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}',
+        "load_on_devices": 0,
+    },
+    "qwen3-8b-lmcache-nvme": {
+        "option.model_id": "Qwen/Qwen3-8B",
+        "option.tensor_parallel_degree": 1,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+        "lmcache_config_file": "lmcache_qwen3_nvme.yaml",
+        "option.kv_transfer_config":
+        '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}',
+        "load_on_devices": 0,
+    },
+    "qwen3-8b-no-cache": {
+        "option.model_id": "Qwen/Qwen3-8B",
+        "option.tensor_parallel_degree": 1,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+        "option.enable_prefix_caching": False,
+        "load_on_devices": 0,
+    },
+    "qwen3-8b-vllm-prefix-cache": {
+        "option.model_id": "Qwen/Qwen3-8B",
+        "option.tensor_parallel_degree": 1,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+        "option.enable_prefix_caching": True,
+        "load_on_devices": 0,
+    },
+    "qwen2.5-1.5b": {
+        "option.model_id": "Qwen/Qwen2.5-1.5B",
+        "option.tensor_parallel_degree": 1,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+    },
+    "qwen2.5-7b": {
+        "option.model_id": "Qwen/Qwen2.5-7B",
+        "option.tensor_parallel_degree": 1,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+    },
+    "qwen2.5-72b": {
+        "option.model_id": "Qwen/Qwen2.5-72B",
+        "option.tensor_parallel_degree": 4,
+        "option.load_format": "dummy",
+        "option.max_new_tokens": 100,
+    },
+    "qwen2.5-1.5b-lmcache": {
+        "option.model_id":
+        "Qwen/Qwen2.5-1.5B",
+        "option.tensor_parallel_degree":
+        1,
+        "option.load_format":
+        "dummy",
+        "option.max_new_tokens":
+        100,
+        "lmcache_config_file":
+        "lmcache_qwen25_1_5b.yaml",
+        "option.kv_transfer_config":
+        '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}',
+    },
+    "qwen2.5-7b-lmcache": {
+        "option.model_id":
+        "Qwen/Qwen2.5-7B",
+        "option.tensor_parallel_degree":
+        1,
+        "option.load_format":
+        "dummy",
+        "option.max_new_tokens":
+        100,
+        "lmcache_config_file":
+        "lmcache_qwen25_7b.yaml",
+        "option.kv_transfer_config":
+        '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}',
+    },
+    "qwen2.5-72b-lmcache": {
+        "option.model_id":
+        "Qwen/Qwen2.5-72B",
+        "option.tensor_parallel_degree":
+        4,
+        "option.load_format":
+        "dummy",
+        "option.max_new_tokens":
+        100,
+        "lmcache_config_file":
+        "lmcache_qwen25_72b.yaml",
+        "option.kv_transfer_config":
+        '{"kv_connector":"LMCacheConnectorV1", "kv_role":"kv_both"}',
+    },
     "tinyllama-input-len-exceeded": {
         "option.model_id": "s3://djl-llm/tinyllama-1.1b-chat/",
         "option.max_model_len": "50",