vllm fix sampling params (#625)

NathanHB · web-flow · commit d46f2f78ae75 · 2025-03-19T14:36:47.000+01:00
* fix

* Update src/lighteval/models/vllm/vllm_model.py

* Update src/lighteval/models/vllm/vllm_model.py

* fix
diff --git a/src/lighteval/models/vllm/vllm_model.py b/src/lighteval/models/vllm/vllm_model.py
@@ -129,7 +129,6 @@ def __init__(
         self.precision = _get_dtype(config.dtype, config=self._config)
 
         self.model_info = ModelInfo(model_name=self.model_name, model_sha=self.model_sha)
-        self.sampling_params = SamplingParams(**config.generation_parameters.to_vllm_dict())
         self.pairwise_tokenization = config.pairwise_tokenization
 
     @property
@@ -139,8 +138,7 @@ def tokenizer(self):
     def cleanup(self):
         destroy_model_parallel()
         if self.model is not None:
-            del self.model.llm_engine.model_executor.driver_worker
-        self.model = None
+            del self.model
         gc.collect()
         ray.shutdown()
         destroy_distributed_environment()
@@ -247,11 +245,7 @@ def greedy_until(
                 # the case! Because of that we only use batch size of 1
                 stop_tokens = dataset[0].stop_sequence
 
-            max_new_tokens = (
-                dataset[0].generation_size
-                if self.sampling_params.max_tokens is None
-                else self.sampling_params.max_tokens
-            )
+            max_new_tokens = self._config.generation_parameters.max_new_tokens or dataset[0].generation_size
             returns_logits = dataset[0].use_logits
             num_samples = dataset[0].num_samples
 
@@ -322,7 +316,8 @@ def _generate(
         generate: bool = True,
     ) -> list[GenerativeResponse]:
         """Contains the actual logic of the generation."""
-        sampling_params = self.sampling_params.clone() or SamplingParams()
+        sampling_params = SamplingParams(**self._config.generation_parameters.to_vllm_dict())
+
         if generate:
             sampling_params.n = num_samples
             sampling_params.max_tokens = max_new_tokens