fix dummy run

wuxun-zhang · wuxun-zhang · commit 4ada515e620b · 2025-08-24T14:50:19.000+03:00
Signed-off-by: Wuxun Zhang &lt;wuxun.zhang@intel.com&gt;
diff --git a/vllm_gaudi/v1/worker/hpu_model_runner.py b/vllm_gaudi/v1/worker/hpu_model_runner.py
@@ -447,7 +447,9 @@ def forward(self, *args, **kwargs):
             kwargs.update(model_mm_kwargs)
 
         num_input_tokens = input_ids.size(0) * input_ids.size(1)
-        with set_forward_context(attn_meta, self.vllm_config, num_tokens=num_input_tokens):
+        with set_forward_context(attn_meta,
+                                 self.vllm_config,
+                                 num_tokens=num_input_tokens):
             hidden_states = self.model(*args, **kwargs)
             if self._rotary_prepare_cos_sin is not None:
                 self._reset_rotary_cos_sin()
@@ -2744,13 +2746,14 @@ def profile_run(self) -> None:
         max_seq_len = math.ceil(
             (self.max_num_tokens // self.max_prefill_batch_size) /
             self.block_size) * self.block_size
+        max_seq_len = min(max_seq_len, self.max_model_len)
         self._execute_dummy_scenario(
             (self.max_prefill_batch_size, max_seq_len, 0), None)
 
     def _dummy_run(self, max_num_batched_tokens: int) -> None:
         assert max_num_batched_tokens == 1
         prompt_cfg = None
-        decode_cfg = 1, 1
+        decode_cfg = 1, 1, 1
         # add dummy decode run
         self._execute_dummy_scenario(prompt_cfg, decode_cfg)
         return