Run benchmark test on PRs (#229)

jgchn · web-flow · commit b0250130c0e7 · 2025-08-08T12:39:01.000-04:00
* Run benchmark test on PRs

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Add hf token placeholder

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix env var

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Trigger workflow

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Rm teardown

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Use kind

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix os

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix node label

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix steps

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix step list

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix env var

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix env var

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix env var again

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix file call

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix file call for e2e

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix gaie call for e2e

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Partially working

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix standup step

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Add debugging stmt

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Specify pod rs

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Get pod logs

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* sleep for longer

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix ns debug

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Check pvc status

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Ensure pvc is created

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Name error

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Add ns to pvc

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Rm need for pv and pvc

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Run step fix

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Fix harness call

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

* Skip harness pod creation

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;

---------

Signed-off-by: Jing Chen &lt;jing.chen2@ibm.com&gt;
diff --git a/.github/workflows/ci-pr-benchmark.yaml b/.github/workflows/ci-pr-benchmark.yaml
@@ -0,0 +1,66 @@
+name: CI - PR Benchmark Run
+
+on:
+  pull_request:
+
+jobs:
+  run-benchmark:
+    name: Inference Sim Benchmark Test
+    runs-on: ubuntu-latest
+    timeout-minutes: 240
+
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+        with:
+          fetch-depth: 0
+
+      - name: Display OS used
+        run: |
+          cat /etc/*os-*
+        shell: bash
+
+      - name: Create k8s Kind Cluster
+        uses: helm/kind-action@v1
+
+      - name: Label node with affinity from inference-sim scenario
+        run: |
+          NODE=$(kubectl get nodes -o jsonpath='{.items[0].metadata.name}')
+          echo "Labeling node: $NODE"
+          kubectl label node "$NODE" kubernetes.io/os=linux --overwrite
+
+      - name: Run install_deps
+        run: |
+          sudo apt-get update
+          ./setup/install_deps.sh
+        shell: bash
+
+      - name: Populate python deps
+        run: |
+          echo -e "pandas\ngrip>=4.6.0\nmatplotlib>=3.7.0\nnumpy>=1.22.0\nseaborn>=0.12.0\nkubernetes>=28.0.0" > requirements.txt
+
+      - name: Install python deps
+        uses: actions/setup-python@v5
+        with:
+          python-version: '3.13'
+          cache: 'pip'
+      - run: pip install -r requirements.txt
+
+      - name: Standup a modelservice using llm-d-inference-sim
+        env:
+          LLMDBENCH_HF_TOKEN: hf-token-placeholder
+        run: |
+          ./setup/standup.sh -c kind_modelservice_inference-sim -t modelservice -s 0,1,2,7,8,9
+
+      - name: Run harness (mock)
+        env:
+          LLMDBENCH_HF_TOKEN: hf-token-placeholder
+          LLMD_CONTROL_DRY_RUN: 1 # TODO: harness doesn't work now for kind bc no harness endpoint
+        run: |
+          ./setup/run.sh -c kind_modelservice_inference-sim --dry-run
+
+      - name: Teardown
+        env:
+          LLMDBENCH_HF_TOKEN: hf-token-placeholder
+        run: |
+          ./setup/teardown.sh -c kind_modelservice_inference-sim
diff --git a/scenarios/kind_modelservice_inference-sim.sh b/scenarios/kind_modelservice_inference-sim.sh
@@ -0,0 +1,26 @@
+# A scenario to capture running inference-sim on a Kind cluster without requiring GPUs
+export LLMDBENCH_DEPLOY_METHODS=modelservice
+export LLMDBENCH_VLLM_COMMON_REPLICAS=1
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_ACCELERATOR_NR=0
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_ACCELERATOR_NR=0
+export LLMDBENCH_VLLM_COMMON_AFFINITY=kubernetes.io/os:linux
+export LLMDBENCH_LLMD_IMAGE_NAME="llm-d-inference-sim"
+export LLMDBENCH_LLMD_IMAGE_TAG="v0.3.0"
+export LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_TAG="v0.2.0@sha256:a623a0752af0a71b7b05ebf95517848b5dbc3d8d235c1897035905632d5b7d80"
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_MODEL_COMMAND=imageDefault
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_MODEL_COMMAND=imageDefault
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_EXTRA_ARGS="[]"
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_ARGS="[]"
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_NR=0
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_CPU_NR=0
+export LLMDBENCH_VLLM_MODELSERVICE_DECODE_CPU_MEM=100Mi
+export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_CPU_MEM=100Mi
+export LLMDBENCH_VLLM_MODELSERVICE_URI="hf://facebook/opt-125m"
+export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m:facebook/opt-125m"
+export LLMDBENCH_VLLM_COMMON_PVC_MODEL_CACHE_SIZE=3Gi
+export LLMDBENCH_HARNESS_PVC_SIZE=3Gi
+export LLMDBENCH_VLLM_COMMON_PVC_NAME=model-pvc
+export LLMDBENCH_CONTROL_DEPLOY_IS_OPENSHIFT=0
+export LLMDBENCH_CONTROL_RESOURCE_LIST=deployment,httproute,service,gateway,gatewayparameters,inferencepool,inferencemodel,cm,ing,pod,job
+export LLMDBENCH_VLLM_MODELSERVICE_INFERENCE_MODEL=true
+
diff --git a/scenarios/ocp_modelservice_inference-sim.sh b/scenarios/ocp_modelservice_inference-sim.sh
@@ -14,4 +14,4 @@ export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_EXTRA_ARGS="[]"
 #export LLMDBENCH_DEPLOY_MODEL_LIST="random/model"
 #export LLMDBENCH_HF_TOKEN="llm-d-hf-token"          # <---- TODO: remove this dependency
 #export LLMDBENCH_VLLM_MODELSERVICE_URI="hf://random/model"
-#export LLMDBENCH_STEP_LIST=0,1,2,7,8,9
+#export LLMDBENCH_STEP_LIST=0,1,2,7,8,9
diff --git a/setup/functions.sh b/setup/functions.sh
@@ -33,6 +33,7 @@ function model_attribute {
     "llama-8b") local model=meta-llama/Llama-3.1-8B-Instruct:llama-8b ;;
     "llama-70b") local model=meta-llama/Llama-3.1-70B-Instruct:llama-70b ;;
     "llama-17b") local model=meta-llama/Llama-4-Scout-17B-16E-Instruct:llama-17b ;;
+    "facebook/opt-125m") local model=facebook/opt-1.0-125m-hf:opt-125m ;;
     *)
       true ;;
   esac
diff --git a/setup/run.sh b/setup/run.sh
@@ -323,56 +323,60 @@ for method in ${LLMDBENCH_DEPLOY_METHODS//,/ }; do
           continue
         fi
 
-        create_harness_pod
-
-        announce "🚀 Starting pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" ($LLMDBENCH_DEPLOY_CURRENT_MODEL)..."
-        llmdbench_execute_cmd "${LLMDBENCH_CONTROL_KCMD} apply -f $LLMDBENCH_CONTROL_WORK_DIR/setup/yamls/pod_benchmark-launcher.yaml" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
-        announce "✅ Pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" started"
-
-        announce "⏳ Waiting for pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" to be Ready (timeout=${LLMDBENCH_CONTROL_WAIT_TIMEOUT}s)..."
-        llmdbench_execute_cmd "${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} wait --timeout=${LLMDBENCH_CONTROL_WAIT_TIMEOUT}s --for=jsonpath='{.status.phase}'=Running pod -l app=${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
-        announce "✅ Benchmark execution for model \"$model\" effectivelly started"
-
-        announce "ℹ️ You can follow the execution's output with \"${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} logs -l app=${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME} -f\"..."
-
-        LLMDBENCH_HARNESS_ACCESS_RESULTS_POD_NAME=$(${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} get pod -l app=llm-d-benchmark-harness --no-headers -o name | $LLMDBENCH_CONTROL_SCMD 's|^pod/||g')
-        llmdbench_execute_cmd "mkdir -p ${local_results_dir}/ && mkdir -p ${local_analysis_dir}/" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
-
-        copy_results_cmd="${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} cp --retries=5 $LLMDBENCH_HARNESS_ACCESS_RESULTS_POD_NAME:${LLMDBENCH_RUN_EXPERIMENT_RESULTS_DIR} ${local_results_dir}"
-        copy_analysis_cmd="rsync -az --inplace --delete ${local_results_dir}/analysis/ ${local_analysis_dir}/ && rm -rf ${local_results_dir}/analysis"
-
-        if [[ $LLMDBENCH_HARNESS_DEBUG -eq 0 && ${LLMDBENCH_HARNESS_WAIT_TIMEOUT} -ne 0 ]]; then
-          announce "⏳ Waiting for pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" to be in \"Completed\" state (timeout=${LLMDBENCH_HARNESS_WAIT_TIMEOUT}s)..."
-          llmdbench_execute_cmd "${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} wait --timeout=${LLMDBENCH_HARNESS_WAIT_TIMEOUT}s --for=condition=ready=False pod ${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
-          announce "✅ Benchmark execution for model \"$model\" completed"
-
-          is_pod_in_error=$(${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} get pod/${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME} --no-headers | grep " Error " || true)
-          if [ ! -z $is_pod_in_error ]; then
-            announce "❌ Final status of pod \"$LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME\" is \"Error\""
-            exit 1
-          fi
-
-          announce "🗑️ Deleting pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" ..."
-          llmdbench_execute_cmd "${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} delete pod ${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
-          announce "✅ Pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" deleted"
-
-          announce "🏗️ Collecting results for model \"$model\" ($LLMDBENCH_DEPLOY_CURRENT_MODEL) to \"${local_results_dir}\"..."
-          llmdbench_execute_cmd "${copy_results_cmd}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
-
-          if [[ -d ${local_results_dir}/analysis && $LLMDBENCH_HARNESS_DEBUG -eq 0 && ${LLMDBENCH_HARNESS_WAIT_TIMEOUT} -ne 0 ]]; then
-            llmdbench_execute_cmd "$copy_analysis_cmd" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
-          fi
-
-          announce "✅ Results for model \"$model\" collected successfully"
-        elif [[ $LLMDBENCH_HARNESS_WAIT_TIMEOUT -eq 0 ]]; then
-          announce "ℹ️ Harness was started with LLMDBENCH_HARNESS_WAIT_TIMEOUT=0. Will NOT wait for pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" to be in \"Completed\" state. The pod can be accessed through \"${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} exec -it pod/${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME} -- bash\""
-          announce "ℹ️ To collect results after an execution, \"$copy_results_cmd && $copy_analysis_cmd"
-          break
+        if [[ $LLMDBENCH_CONTROL_DRY_RUN -eq 1 ]]; then
+          announce "ℹ️ Skipping \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\ creation"
         else
-          announce "ℹ️ Harness was started in \"debug mode\". The pod can be accessed through \"${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} exec -it pod/${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME} -- bash\""
-          announce "ℹ️ In order to execute a given workload profile, run \"llm-d-benchmark.sh <[$(get_harness_list)]> [WORKLOAD FILE NAME]\" (all inside the pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\")"
-          announce "ℹ️ To collect results after an execution, \"$copy_results_cmd && $copy_analysis_cmd"
-          break
+          create_harness_pod
+
+          announce "🚀 Starting pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" ($LLMDBENCH_DEPLOY_CURRENT_MODEL)..."
+          llmdbench_execute_cmd "${LLMDBENCH_CONTROL_KCMD} apply -f $LLMDBENCH_CONTROL_WORK_DIR/setup/yamls/pod_benchmark-launcher.yaml" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
+          announce "✅ Pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" started"
+
+          announce "⏳ Waiting for pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" to be Ready (timeout=${LLMDBENCH_CONTROL_WAIT_TIMEOUT}s)..."
+          llmdbench_execute_cmd "${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} wait --timeout=${LLMDBENCH_CONTROL_WAIT_TIMEOUT}s --for=jsonpath='{.status.phase}'=Running pod -l app=${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
+          announce "✅ Benchmark execution for model \"$model\" effectivelly started"
+
+          announce "ℹ️ You can follow the execution's output with \"${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} logs -l app=${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME} -f\"..."
+
+          LLMDBENCH_HARNESS_ACCESS_RESULTS_POD_NAME=$(${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} get pod -l app=llm-d-benchmark-harness --no-headers -o name | $LLMDBENCH_CONTROL_SCMD 's|^pod/||g')
+          llmdbench_execute_cmd "mkdir -p ${local_results_dir}/ && mkdir -p ${local_analysis_dir}/" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
+
+          copy_results_cmd="${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} cp --retries=5 $LLMDBENCH_HARNESS_ACCESS_RESULTS_POD_NAME:${LLMDBENCH_RUN_EXPERIMENT_RESULTS_DIR} ${local_results_dir}"
+          copy_analysis_cmd="rsync -az --inplace --delete ${local_results_dir}/analysis/ ${local_analysis_dir}/ && rm -rf ${local_results_dir}/analysis"
+
+          if [[ $LLMDBENCH_HARNESS_DEBUG -eq 0 && ${LLMDBENCH_HARNESS_WAIT_TIMEOUT} -ne 0 ]]; then
+            announce "⏳ Waiting for pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" to be in \"Completed\" state (timeout=${LLMDBENCH_HARNESS_WAIT_TIMEOUT}s)..."
+            llmdbench_execute_cmd "${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} wait --timeout=${LLMDBENCH_HARNESS_WAIT_TIMEOUT}s --for=condition=ready=False pod ${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
+            announce "✅ Benchmark execution for model \"$model\" completed"
+
+            is_pod_in_error=$(${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} get pod/${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME} --no-headers | grep " Error " || true)
+            if [ ! -z $is_pod_in_error ]; then
+              announce "❌ Final status of pod \"$LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME\" is \"Error\""
+              exit 1
+            fi
+
+            announce "🗑️ Deleting pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" ..."
+            llmdbench_execute_cmd "${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} delete pod ${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
+            announce "✅ Pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" deleted"
+
+            announce "🏗️ Collecting results for model \"$model\" ($LLMDBENCH_DEPLOY_CURRENT_MODEL) to \"${local_results_dir}\"..."
+            llmdbench_execute_cmd "${copy_results_cmd}" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
+
+            if [[ -d ${local_results_dir}/analysis && $LLMDBENCH_HARNESS_DEBUG -eq 0 && ${LLMDBENCH_HARNESS_WAIT_TIMEOUT} -ne 0 ]]; then
+              llmdbench_execute_cmd "$copy_analysis_cmd" ${LLMDBENCH_CONTROL_DRY_RUN} ${LLMDBENCH_CONTROL_VERBOSE}
+            fi
+
+            announce "✅ Results for model \"$model\" collected successfully"
+          elif [[ $LLMDBENCH_HARNESS_WAIT_TIMEOUT -eq 0 ]]; then
+            announce "ℹ️ Harness was started with LLMDBENCH_HARNESS_WAIT_TIMEOUT=0. Will NOT wait for pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\" for model \"$model\" to be in \"Completed\" state. The pod can be accessed through \"${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} exec -it pod/${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME} -- bash\""
+            announce "ℹ️ To collect results after an execution, \"$copy_results_cmd && $copy_analysis_cmd"
+            break
+          else
+            announce "ℹ️ Harness was started in \"debug mode\". The pod can be accessed through \"${LLMDBENCH_CONTROL_KCMD} --namespace ${LLMDBENCH_HARNESS_NAMESPACE} exec -it pod/${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME} -- bash\""
+            announce "ℹ️ In order to execute a given workload profile, run \"llm-d-benchmark.sh <[$(get_harness_list)]> [WORKLOAD FILE NAME]\" (all inside the pod \"${LLMDBENCH_RUN_HARNESS_LAUNCHER_NAME}\")"
+            announce "ℹ️ To collect results after an execution, \"$copy_results_cmd && $copy_analysis_cmd"
+            break
+          fi
         fi
       done
     fi
diff --git a/setup/steps/09_deploy_via_modelservice.sh b/setup/steps/09_deploy_via_modelservice.sh
@@ -27,7 +27,7 @@ if [[ $LLMDBENCH_CONTROL_ENVIRONMENT_TYPE_MODELSERVICE_ACTIVE -eq 1 ]]; then
     export LLMDBENCH_DEPLOY_CURRENT_MODEL_ID_LABEL=$(model_attribute $model modelid_label)
 
     # If LLMDBENCH_VLLM_MODELSERVICE_URI is not defined, set it to pvc://
-    if [[ -n "$LLMDBENCH_VLLM_MODELSERVICE_URI" ]]; then
+    if [[ -z "$LLMDBENCH_VLLM_MODELSERVICE_URI" ]]; then
       export LLMDBENCH_VLLM_MODELSERVICE_URI="pvc://${LLMDBENCH_VLLM_COMMON_PVC_NAME}/models/$(model_attribute $model model)"
     fi
 
@@ -64,6 +64,7 @@ routing:
       kind: Gateway
       name: infra-${LLMDBENCH_VLLM_MODELSERVICE_RELEASE}-inference-gateway
   proxy:
+    image: "$(get_image ${LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_REGISTRY} ${LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_REPO} ${LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_NAME} ${LLMDBENCH_LLMD_ROUTINGSIDECAR_IMAGE_TAG} 0)"
     secure: false
   inferenceModel:
     create: ${LLMDBENCH_VLLM_MODELSERVICE_INFERENCE_MODEL}