Introduce VLLM_WARMUP_WITH_PENALTY for internVL warmup (#1967)

yeonsily · web-flow · commit 716f3fc2f836 · 2025-09-22T15:17:17.000-07:00
Introduce VLLM_WARMUP_WITH_PENALTY to call apply penalty code in sampler during warmup also. https://github.com/HabanaAI/vllm-fork/blob/libint/intervl_bucket/vllm/model_executor/layers/sampler.py#L280 is not called during warmup. And it causes extra graph compile during runtime as it sets to True for real run.
diff --git a/vllm/worker/hpu_model_runner.py b/vllm/worker/hpu_model_runner.py
@@ -2784,11 +2784,15 @@ def create_dummy_seq_group_metadata(self,
                                         lora_request=None,
                                         img_args=None,
                                         temperature=0,
+                                        presence_penalty=0.0,
+                                        top_p=1.0,
                                         ctx=0):
         if self.is_pooler:
             sampling_params = None
         else:
-            sampling_params = SamplingParams(temperature=temperature)
+            sampling_params = SamplingParams(temperature=temperature,
+                                             presence_penalty=presence_penalty,
+                                             top_p=top_p)
         num_blocks = math.ceil(seq_len / self.block_size)
         seq_len = max(seq_len, 1)
         computed_block_nums = None
@@ -2945,6 +2949,12 @@ def warmup_scenario(self,
                 ]
         self.profiler.start('internal', scenario_name)
         times = num_iters if use_graphs or is_pt_profiler_run else 1
+        presence_penalty = 1.0 if os.getenv('VLLM_WARMUP_WITH_PENALTY',
+                                            '0') == '1' else 0.0
+        top_p = 0.1 if os.getenv('VLLM_WARMUP_WITH_PENALTY',
+                                 '0') == '1' else 1.0
+        temperature = 1.0 if os.getenv('VLLM_WARMUP_WITH_PENALTY',
+                                       '0') == '1' else 0.0
         if is_prompt:
             seqs = [
                 self.create_dummy_seq_group_metadata(
@@ -2955,6 +2965,8 @@ def warmup_scenario(self,
                     if dummy_lora_requests_per_seq else None,
                     img_args=img_args,
                     temperature=temperature,
+                    presence_penalty=presence_penalty,
+                    top_p=top_p,
                     ctx=ctx) for i in range(batch_size)
             ]
         else:
@@ -2968,6 +2980,8 @@ def warmup_scenario(self,
                     lora_request=dummy_lora_requests_per_seq[i]
                     if dummy_lora_requests_per_seq else None,
                     temperature=temperature,
+                    presence_penalty=presence_penalty,
+                    top_p=top_p,
                     ctx=ctx) for i, b in enumerate(blocks)
             ]
         if not is_dummy_run: