Fix vLLM doc (#912)

lewtun · web-flow · commit bfa60767cbf9 · 2025-08-11T14:06:15.000+02:00
diff --git a/docs/source/use-vllm-as-backend.mdx b/docs/source/use-vllm-as-backend.mdx
@@ -9,8 +9,8 @@ To use, simply change the `model_args` to reflect the arguments you want to pass
 
 ```bash
 lighteval vllm \
-    "model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16" \
-    "leaderboard|truthfulqa:mc|0|0"
+    "model_name=HuggingFaceH4/zephyr-7b-beta" \
+    "extended|ifeval|0|0"
 ```
 
 `vllm` is able to distribute the model across multiple GPUs using data
@@ -21,16 +21,16 @@ For example if you have 4 GPUs you can split it across using `tensor_parallelism
 
 ```bash
 export VLLM_WORKER_MULTIPROC_METHOD=spawn && lighteval vllm \
-    "model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16,tensor_parallel_size=4" \
-    "leaderboard|truthfulqa:mc|0|0"
+    "model_name=HuggingFaceH4/zephyr-7b-beta,tensor_parallel_size=4" \
+    "extended|ifeval|0|0"
 ```
 
 Or, if your model fits on a single GPU, you can use `data_parallelism` to speed up the evaluation:
 
 ```bash
-lighteval vllm \
-    "model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16,data_parallel_size=4" \
-    "leaderboard|truthfulqa:mc|0|0"
+export VLLM_WORKER_MULTIPROC_METHOD=spawn && lighteval vllm \
+    "model_name=HuggingFaceH4/zephyr-7b-beta,data_parallel_size=4" \
+    "extended|ifeval|0|0"
 ```
 
 ## Use a config file
@@ -41,7 +41,7 @@ An example of a config file is shown below and can be found at `examples/model_c
 ```bash
 lighteval vllm \
     "examples/model_configs/vllm_model_config.yaml" \
-    "leaderboard|truthfulqa:mc|0|0"
+    "extended|ifeval|0|0"
 ```
 
 ```yaml