llm-d
diff --git a/‎build/Dockerfile‎
Lines changed: 2 additions & 2 deletions b/‎build/Dockerfile‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎scenarios/examples/spyre.sh‎
Lines changed: 1 addition & 1 deletion b/‎scenarios/examples/spyre.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎scenarios/guides/inference-scheduling.sh‎
Lines changed: 1 addition & 0 deletions b/‎scenarios/guides/inference-scheduling.sh‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎scenarios/guides/pd-disaggregation.sh‎
Lines changed: 1 addition & 0 deletions b/‎scenarios/guides/pd-disaggregation.sh‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎scenarios/guides/precise-prefix-cache-aware.sh‎
Lines changed: 1 addition & 0 deletions b/‎scenarios/guides/precise-prefix-cache-aware.sh‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎scenarios/guides/simulated-accelerators.sh‎
Lines changed: 1 addition & 0 deletions b/‎scenarios/guides/simulated-accelerators.sh‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎scenarios/guides/tiered-prefix-cache.sh‎
Lines changed: 1 addition & 0 deletions b/‎scenarios/guides/tiered-prefix-cache.sh‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎scenarios/guides/wide-ep-lws.sh‎
Lines changed: 41 additions & 90 deletions b/‎scenarios/guides/wide-ep-lws.sh‎
Lines changed: 41 additions & 90 deletions
diff --git a/‎setup/env.sh‎
Lines changed: 5 additions & 5 deletions b/‎setup/env.sh‎
Lines changed: 5 additions & 5 deletions
@@ -35,7 +35,7 @@ WORKDIR /workspace
 
 ARG INFERENCE_PERF_REPO=https://github.com/kubernetes-sigs/inference-perf.git
 ARG INFERENCE_PERF_BRANCH=main
-ARG INFERENCE_PERF_COMMIT=e8e0aa99c57f2ffa0912df7ba1fbd2a8a596a041
+ARG INFERENCE_PERF_COMMIT=a85b31b5de9fde12b5a0ebaaabb2aee1ccb76657
 RUN git clone --branch ${INFERENCE_PERF_BRANCH} ${INFERENCE_PERF_REPO}
 RUN cd inference-perf; \
     git checkout ${INFERENCE_PERF_COMMIT}; \
@@ -51,7 +51,7 @@ RUN cd vllm; \
 
 ARG GUIDELLM_REPO=https://github.com/vllm-project/guidellm.git
 ARG GUIDELLM_BRANCH=main
-ARG GUIDELLM_COMMIT=f6175cdd8a88f0931bd46822ed7a71787dcd7cee
+ARG GUIDELLM_COMMIT=adfa108ab1df6f2a1452d1037a71817a493303a8
 RUN git clone --branch ${GUIDELLM_BRANCH} ${GUIDELLM_REPO}
 RUN cd guidellm; \
     pip install torch --index-url https://download.pytorch.org/whl/cpu; \
 
@@ -117,7 +117,7 @@ export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_RESOURCE=ibm.com/spyre_pf
 # export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_NR=0
 
 # Decode parameters: 2 decode pods
-export LLMDBENCH_VLLM_MODELSERVICE_DECODE_TENSOR_PARALLELISM=1
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_TENSOR_PARALLELISM=2
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_NR=16
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_MEM=64Gi
 #              Uncomment (###) the following line to enable multi-nic
 
@@ -13,6 +13,7 @@
 #export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m"
 export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-8B-Instruct"
 #export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-70B-Instruct"
+#export LLMDBENCH_DEPLOY_MODEL_LIST="deepseek-ai/DeepSeek-R1-0528"
 
 # PVC parameters
 #             Storage class (leave uncommented to automatically detect the "default" storage class)
 
@@ -13,6 +13,7 @@
 #export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m"
 export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-8B-Instruct"
 #export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-70B-Instruct"
+#export LLMDBENCH_DEPLOY_MODEL_LIST="deepseek-ai/DeepSeek-R1-0528"
 
 # PVC parameters
 #             Storage class (leave uncommented to automatically detect the "default" storage class)
 
@@ -13,6 +13,7 @@
 #export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m"
 export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-8B-Instruct"
 #export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-70B-Instruct"
+#export LLMDBENCH_DEPLOY_MODEL_LIST="deepseek-ai/DeepSeek-R1-0528"
 
 # PVC parameters
 #             Storage class (leave uncommented to automatically detect the "default" storage class)
 
@@ -6,6 +6,7 @@
 export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m"
 #export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-8B-Instruct"
 #export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-70B-Instruct"
+#export LLMDBENCH_DEPLOY_MODEL_LIST="deepseek-ai/DeepSeek-R1-0528"
 
 export LLMDBENCH_VLLM_COMMON_REPLICAS=1
 
 
@@ -13,6 +13,7 @@
 #export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m"
 export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-8B-Instruct"
 #export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-70B-Instruct"
+#export LLMDBENCH_DEPLOY_MODEL_LIST="deepseek-ai/DeepSeek-R1-0528"
 
 # PVC parameters
 #             Storage class (leave uncommented to automatically detect the "default" storage class)
 
@@ -9,24 +9,19 @@
 # Many commonly defined values were left blank (default) so that this scenario is applicable to as many environments as possible.
 
 # Model parameters
+#export LLMDBENCH_DEPLOY_MODEL_LIST="Qwen/Qwen3-0.6B"
+#export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m"
+#export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-8B-Instruct"
+#export LLMDBENCH_DEPLOY_MODEL_LIST="meta-llama/Llama-3.1-70B-Instruct"
 export LLMDBENCH_DEPLOY_MODEL_LIST="deepseek-ai/DeepSeek-R1-0528"
 
-
 # PVC parameters
 #             Storage class (leave uncommented to automatically detect the "default" storage class)
 #export LLMDBENCH_VLLM_COMMON_PVC_STORAGE_CLASS=standard-rwx
 #export LLMDBENCH_VLLM_COMMON_PVC_STORAGE_CLASS=shared-vast
 #export LLMDBENCH_VLLM_COMMON_PVC_STORAGE_CLASS=ocs-storagecluster-cephfs
 export LLMDBENCH_VLLM_COMMON_PVC_MODEL_CACHE_SIZE=1Ti
 
-# gateway configuration
-###### default is istio and NodePort
-# export LLMDBENCH_VLLM_MODELSERVICE_GATEWAY_CLASS_NAME=kgateway
-###### on openshift as alternative to (default) NodePort
-# export LLMDBENCH_VLLM_MODELSERVICE_GATEWAY_SERVICE_TYPE=ClusterIP
-###### if support LoadBalancer
-# export LLMDBENCH_VLLM_MODELSERVICE_GATEWAY_SERVICE_TYPE=LoadBalancer
-
 # Routing configuration (via gaie)
 export LLMDBENCH_VLLM_MODELSERVICE_GAIE_PLUGINS_CONFIGFILE="custom-plugins.yaml"
 export LLMDBENCH_VLLM_MODELSERVICE_GAIE_CUSTOM_PLUGINS=$(mktemp)
@@ -74,27 +69,16 @@ EOF
 
 # Routing configuration (via modelservice)
 # export LLMDBENCH_LLMD_ROUTINGSIDECAR_CONNECTOR=nixlv2 # already the default
-export LLMDBENCH_LLMD_ROUTINGSIDECAR_DEBUG_LEVEL=1
-export LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_TAG=v0.4.0
-
-export LLMDBENCH_LLMD_IMAGE_TAG=v0.4.0
 
 #             Affinity to select node with appropriate accelerator (leave uncommented to automatically detect GPU... WILL WORK FOR OpenShift, Kubernetes and GKE)
 #export LLMDBENCH_VLLM_COMMON_AFFINITY=nvidia.com/gpu.product:NVIDIA-H100-80GB-HBM3        # OpenShift
-export LLMDBENCH_VLLM_COMMON_AFFINITY=gpu.nvidia.com/model:H200                           # Kubernetes
+#export LLMDBENCH_VLLM_COMMON_AFFINITY=gpu.nvidia.com/model:H200                           # Kubernetes
 #export LLMDBENCH_VLLM_COMMON_AFFINITY=cloud.google.com/gke-accelerator:nvidia-tesla-a100  # GKE
 #export LLMDBENCH_VLLM_COMMON_AFFINITY=cloud.google.com/gke-accelerator:nvidia-h100-80gb   # GKE
 #export LLMDBENCH_VLLM_COMMON_AFFINITY=nvidia.com/gpu.product:NVIDIA-L40S                  # OpenShift
 #export LLMDBENCH_VLLM_COMMON_AFFINITY=nvidia.com/gpu.product:NVIDIA-A100-SXM4-80GB        # OpenShift
 #export LLMDBENCH_VLLM_COMMON_AFFINITY=nvidia.com/gpu                                      # ANY GPU (useful for Minikube)
 
-#             Uncomment to request specific network devices
-#####export LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE=rdma/roce_gdr
-#######export LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE=rdma/ib
-#export LLMDBENCH_VLLM_COMMON_NETWORK_NR=4
-export LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_RESOURCE=ephemeral-storage
-export LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_NR=1Ti
-
 export LLMDBENCH_VLLM_COMMON_POD_SCHEDULER=custom-binpack-scheduler
 
 #             Uncomment to use hostNetwork (onlye ONE PODE PER NODE)
@@ -109,8 +93,6 @@ export LLMDBENCH_VLLM_COMMON_POD_SCHEDULER=custom-binpack-scheduler
 export LLMDBENCH_VLLM_MODELSERVICE_MULTINODE=true
 
 # Common parameters across standalone and llm-d (prefill and decode) pods
-#export LLMDBENCH_VLLM_COMMON_MAX_MODEL_LEN=16000
-#export LLMDBENCH_VLLM_COMMON_BLOCK_SIZE=64
 
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ENVVARS_TO_YAML=$(mktemp)
 cat << EOF > $LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ENVVARS_TO_YAML
@@ -171,15 +153,17 @@ export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_RESOURCE=nvidia
 ######export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_NETWORK_RESOURCE=rdma/roce_gdr
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_NETWORK_RESOURCE=rdma/ib
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_NETWORK_NR=1
-export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EPHEMERAL_STORAGE_NR=1Ti
-export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_INFERENCE_PORT=8000
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_MEM_UTIL=0.75
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EPHEMERAL_STORAGE=1Ti
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_MODEL_COMMAND=custom
-# export LLMDBENCH_VLLM_MODELSERVICE_DECODE_PREPROCESS="python3 /setup/preprocess/set_llmdbench_environment.py; source \$HOME/llmdbench_env.sh"
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_PREPROCESS="python3 /setup/preprocess/set_llmdbench_environment.py; source \$HOME/llmdbench_env.sh"
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_ARGS=$(mktemp)
 cat << EOF > $LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_ARGS
-find /dev/shm -type f -delete; START_RANK=\$(( \${LWS_WORKER_INDEX:-0} * DP_SIZE_LOCAL )); exec vllm serve \
+REPLACE_ENV_LLMDBENCH_VLLM_MODELSERVICE_PREFILL_PREPROCESS; \
+exec vllm serve \
   REPLACE_ENV_LLMDBENCH_DEPLOY_CURRENT_MODEL \
-  --port 8000 \
+  --served-model-name REPLACE_ENV_LLMDBENCH_DEPLOY_CURRENT_MODEL \
+  --port REPLACE_ENV_LLMDBENCH_VLLM_MODELSERVICE_PREFILL_INFERENCE_PORT \
   --trust-remote-code \
   --disable-uvicorn-access-log \
   --data-parallel-hybrid-lb \
@@ -201,7 +185,7 @@ find /dev/shm -type f -delete; START_RANK=\$(( \${LWS_WORKER_INDEX:-0} * DP_SIZE
                   "step_interval":"3000",
                   "num_redundant_experts":"32",
                   "log_balancedness":"False"}' \
-  --gpu-memory-utilization 0.75
+  --gpu-memory-utilization REPLACE_ENV_LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_MEM_UTIL
 EOF
 
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_CONTAINER_CONFIG=$(mktemp)
@@ -213,28 +197,6 @@ securityContext:
     - SYS_RAWIO
   runAsGroup: 0
   runAsUser: 0
-# startupProbe:
-#   httpGet:
-#     path: /health
-#     port: 8000
-#   initialDelaySeconds: 0
-#   periodSeconds: 1
-#   timeoutSeconds: 5
-#   failureThreshold: 2700
-# livenessProbe:
-#   httpGet:
-#     path: /health
-#     port: 8000
-#   periodSeconds: 30
-#   timeoutSeconds: 5
-#   failureThreshold: 3
-# readinessProbe:
-#   httpGet:
-#     path: /v1/models
-#     port: 8000
-#   periodSeconds: 10
-#   timeoutSeconds: 5
-#   failureThreshold: 3
 imagePullPolicy: Always
 EOF
 
@@ -244,18 +206,24 @@ export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_VOLUME_MOUNTS=$(mktemp)
 cat << EOF > ${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_VOLUME_MOUNTS}
 - name: dshm
   mountPath: /dev/shm
-- mountPath: /var/cache/huggingface
-  name: hf-cache
-- mountPath: /var/cache/vllm
-  name: jit-cache
+- name: preprocesses
+  mountPath: /setup/preprocess
+- name: hf-cache
+  mountPath: /var/cache/huggingface
+- name: jit-cache
+  mountPath: /var/cache/vllm
 EOF
 
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_VOLUMES=$(mktemp)
 cat << EOF > ${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_VOLUMES}
 - name: dshm
   emptyDir:
     medium: Memory
-    sizeLimit: 2Gi # roughly 32MB per local DP plus scratch space
+    sizeLimit: REPLACE_ENV_LLMDBENCH_VLLM_COMMON_SHM_MEM # roughly 32MB per local DP plus scratch space
+- name: preprocesses
+  configMap:
+    defaultMode: 320
+    name: llm-d-benchmark-preprocesses
 - hostPath:
     path: /mnt/local/hf-cache
     type: DirectoryOrCreate
@@ -281,17 +249,16 @@ export LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_RESOURCE=nvidia
 ######export LLMDBENCH_VLLM_MODELSERVICE_DECODE_NETWORK_RESOURCE=rdma/roce_gdr
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_NETWORK_RESOURCE=rdma/ib
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_NETWORK_NR=1
-export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EPHEMERAL_STORAGE_NR=1Ti
-export LLMDBENCH_VLLM_MODELSERVICE_DECODE_INFERENCE_PORT=8200
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EPHEMERAL_STORAGE=1Ti
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_MODEL_COMMAND=custom
-# export LLMDBENCH_VLLM_MODELSERVICE_DECODE_PREPROCESS="python3 /setup/preprocess/set_llmdbench_environment.py; source \$HOME/llmdbench_env.sh"
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_PREPROCESS="python3 /setup/preprocess/set_llmdbench_environment.py; source \$HOME/llmdbench_env.sh"
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_ARGS=$(mktemp)
-# Clear /dev/shm on start to prevent running out of space when crashes occur
-# https://github.com/llm-d/llm-d/issues/352
 cat << EOF > $LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_ARGS
-find /dev/shm -type f -delete; START_RANK=\$(( \${LWS_WORKER_INDEX:-0} * DP_SIZE_LOCAL )); exec vllm serve \
+REPLACE_ENV_LLMDBENCH_VLLM_MODELSERVICE_DECODE_PREPROCESS; \
+exec vllm serve \
   REPLACE_ENV_LLMDBENCH_DEPLOY_CURRENT_MODEL \
-  --port 8200 \
+  --served-model-name REPLACE_ENV_LLMDBENCH_DEPLOY_CURRENT_MODEL \
+  --port REPLACE_ENV_LLMDBENCH_VLLM_COMMON_METRICS_PORT \
   --trust-remote-code \
   --disable-uvicorn-access-log \
   --data-parallel-hybrid-lb \
@@ -372,47 +339,31 @@ securityContext:
     - SYS_RAWIO
   runAsGroup: 0
   runAsUser: 0
-# startupProbe:
-#   httpGet:
-#     path: /health
-#     port: 8200
-#   initialDelaySeconds: 0
-#   periodSeconds: 1
-#   timeoutSeconds: 5
-#   failureThreshold: 2700
-# livenessProbe:
-#   httpGet:
-#     path: /health
-#     port: 8200
-#   periodSeconds: 30
-#   timeoutSeconds: 5
-#   failureThreshold: 3
-# readinessProbe:
-#   httpGet:
-#     path: /v1/models
-#     port: 8200
-#   periodSeconds: 10
-#   timeoutSeconds: 5
-#   failureThreshold: 3
 imagePullPolicy: Always
 EOF
 
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_VOLUME_MOUNTS=$(mktemp)
 cat << EOF > ${LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_VOLUME_MOUNTS}
 - name: dshm
   mountPath: /dev/shm
-- mountPath: /var/cache/huggingface
-  name: hf-cache
-- mountPath: /var/cache/vllm
-  name: jit-cache
+- name: preprocesses
+  mountPath: /setup/preprocess
+- name: hf-cache
+  mountPath: /var/cache/huggingface
+- name: jit-cache
+  mountPath: /var/cache/vllm
 EOF
 
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_VOLUMES=$(mktemp)
 cat << EOF > ${LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_VOLUMES}
 - name: dshm
   emptyDir:
     medium: Memory
-    sizeLimit: 2Gi # roughly 32MB per local DP plus scratch space
+    sizeLimit: REPLACE_ENV_LLMDBENCH_VLLM_COMMON_SHM_MEM # roughly 32MB per local DP plus scratch space
+- name: preprocesses
+  configMap:
+    defaultMode: 320
+    name: llm-d-benchmark-preprocesses
 - hostPath:
     path: /mnt/local/hf-cache
     type: DirectoryOrCreate
 
@@ -100,8 +100,8 @@ export LLMDBENCH_VLLM_COMMON_ACCELERATOR_MEMORY="${LLMDBENCH_VLLM_COMMON_ACCELER
 export LLMDBENCH_VLLM_COMMON_NAMESPACE="${LLMDBENCH_VLLM_COMMON_NAMESPACE:-llmdbench}"
 export LLMDBENCH_VLLM_COMMON_SERVICE_ACCOUNT="${LLMDBENCH_VLLM_COMMON_SERVICE_ACCOUNT:-default}"
 export LLMDBENCH_VLLM_COMMON_PULL_SECRET=${LLMDBENCH_VLLM_COMMON_PULL_SECRET:-}
-export LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_RESOURCE=${LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_RESOURCE:-}
-export LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_NR=${LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_NR:-}
+export LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_RESOURCE=${LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_RESOURCE:-ephemeral-storage}
+export LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE=${LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE:-}
 export LLMDBENCH_VLLM_COMMON_ACCELERATOR_RESOURCE=${LLMDBENCH_VLLM_COMMON_ACCELERATOR_RESOURCE:-auto}
 export LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE=${LLMDBENCH_VLLM_COMMON_NETWORK_RESOURCE:-}
 export LLMDBENCH_VLLM_COMMON_NETWORK_NR=${LLMDBENCH_VLLM_COMMON_NETWORK_NR:-}
@@ -163,7 +163,7 @@ export LLMDBENCH_VLLM_STANDALONE_EXTRA_VOLUME_MOUNTS=${LLMDBENCH_VLLM_STANDALONE
 export LLMDBENCH_VLLM_STANDALONE_EXTRA_VOLUMES=${LLMDBENCH_VLLM_STANDALONE_EXTRA_VOLUMES:-$LLMDBENCH_VLLM_COMMON_EXTRA_VOLUMES}
 export LLMDBENCH_VLLM_STANDALONE_ENVVARS_TO_YAML=${LLMDBENCH_VLLM_STANDALONE_ENVVARS_TO_YAML:-$LLMDBENCH_VLLM_COMMON_ENVVARS_TO_YAML}
 export LLMDBENCH_VLLM_STANDALONE_ARGS=${LLMDBENCH_VLLM_STANDALONE_ARGS:-"REPLACE_ENV_LLMDBENCH_VLLM_STANDALONE_PREPROCESS____;____vllm____serve____REPLACE_ENV_LLMDBENCH_DEPLOY_CURRENT_MODEL____--no-enable-prefix-caching____--load-format____REPLACE_ENV_LLMDBENCH_VLLM_COMMON_VLLM_LOAD_FORMAT____--port____REPLACE_ENV_LLMDBENCH_VLLM_COMMON_INFERENCE_PORT____--max-model-len____REPLACE_ENV_LLMDBENCH_VLLM_COMMON_MAX_MODEL_LEN____--disable-log-requests____--gpu-memory-utilization____REPLACE_ENV_LLMDBENCH_VLLM_COMMON_ACCELERATOR_MEM_UTIL____--tensor-parallel-size____REPLACE_ENV_LLMDBENCH_VLLM_COMMON_TENSOR_PARALLELISM____--model-loader-extra-config____\"\$LLMDBENCH_VLLM_STANDALONE_MODEL_LOADER_EXTRA_CONFIG\""}
-export LLMDBENCH_VLLM_STANDALONE_EPHEMERAL_STORAGE=${LLMDBENCH_VLLM_STANDALONE_EPHEMERAL_STORAGE:-"20Gi"}
+export LLMDBENCH_VLLM_STANDALONE_EPHEMERAL_STORAGE=${LLMDBENCH_VLLM_STANDALONE_EPHEMERAL_STORAGE:-${LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE}}
 
 # Modelservice (helm chart) specific parameters
 export LLMDBENCH_VLLM_INFRA_CHART_NAME=${LLMDBENCH_VLLM_INFRA_CHART_NAME:-"llm-d-infra"}
@@ -358,7 +358,7 @@ export LLMDBENCH_VLLM_MODELSERVICE_DECODE_NETWORK_NR=${LLMDBENCH_VLLM_MODELSERVI
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_NR=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_NR:-$LLMDBENCH_VLLM_COMMON_CPU_NR}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_MEM=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_MEM:-$LLMDBENCH_VLLM_COMMON_CPU_MEM}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_SHM_MEM=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_SHM_MEM:-$LLMDBENCH_VLLM_COMMON_SHM_MEM}
-export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EPHEMERAL_STORAGE_NR=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_EPHEMERAL_STORAGE_NR:-$LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_NR}
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EPHEMERAL_STORAGE=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_EPHEMERAL_STORAGE:-$LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_PREPROCESS=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_PREPROCESS:-true}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_MODEL_COMMAND=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_MODEL_COMMAND:-vllmServe}
 export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_ARGS=${LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_ARGS:-"[--disable-log-requests____--max-model-len____REPLACE_ENV_LLMDBENCH_VLLM_COMMON_MAX_MODEL_LEN____--tensor-parallel-size____REPLACE_ENV_LLMDBENCH_VLLM_MODELSERVICE_DECODE_TENSOR_PARALLELISM]"}
@@ -383,7 +383,7 @@ export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_NETWORK_NR=${LLMDBENCH_VLLM_MODELSERV
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_CPU_NR=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_CPU_NR:-$LLMDBENCH_VLLM_COMMON_CPU_NR}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_CPU_MEM=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_CPU_MEM:-$LLMDBENCH_VLLM_COMMON_CPU_MEM}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_SHM_MEM=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_SHM_MEM:-$LLMDBENCH_VLLM_COMMON_SHM_MEM}
-export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EPHEMERAL_STORAGE_NR=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EPHEMERAL_STORAGE_NR:-$LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE_NR}
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EPHEMERAL_STORAGE=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EPHEMERAL_STORAGE:-$LLMDBENCH_VLLM_COMMON_EPHEMERAL_STORAGE}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_PREPROCESS=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_PREPROCESS:-true}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_MODEL_COMMAND=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_MODEL_COMMAND:-vllmServe}
 export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_ARGS=${LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_ARGS:-"[--disable-log-requests____--max-model-len____REPLACE_ENV_LLMDBENCH_VLLM_COMMON_MAX_MODEL_LEN____--tensor-parallel-size____REPLACE_ENV_LLMDBENCH_VLLM_MODELSERVICE_PREFILL_TENSOR_PARALLELISM]"}