Clean-up. Minor fixes

vivekgoe · vivekgoe · commit 74653469ae15 · 2025-07-29T18:31:14.000+03:00
Signed-off-by: Vivek &lt;vgoel@habana.ai&gt;
diff --git a/vllm_gaudi/lora/punica_wrapper/punica_hpu.py b/vllm_gaudi/lora/punica_wrapper/punica_hpu.py
@@ -1,19 +1,13 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
-from typing import TYPE_CHECKING, Optional, Union, final
+from typing import Optional, Union, final
 
 import torch
 from vllm_gaudi.extension.ops import (dispatch_bgmv_embedding,
-                                    dispatch_bgmv_linear)
+                                      dispatch_bgmv_linear)
 
 from vllm.lora.punica_wrapper.punica_base import PunicaWrapperBase
-from vllm.lora.punica_wrapper.utils import convert_mapping
-
-if TYPE_CHECKING:
-    # avoid circuit import
-    from vllm.lora.layers import LoRAMapping
-    from vllm.lora.models import LongContextLoRAContext
 
 
 @final
@@ -27,7 +21,6 @@ def __init__(self, max_num_batched_tokens: int, max_batches: int,
         PunicaWrapperBase.__init__(self, 3 * max_num_batched_tokens,
                                    max_batches, device)
 
-
     def add_lora_embedding(self,
                            y: torch.Tensor,
                            x: torch.Tensor,
diff --git a/vllm_gaudi/v1/worker/hpu_model_runner.py b/vllm_gaudi/v1/worker/hpu_model_runner.py
@@ -7,7 +7,7 @@
 import os
 import time
 from dataclasses import dataclass, field, fields
-from typing import TYPE_CHECKING, Any, Callable, Optional, TypeAlias, Union, Set, List
+from typing import TYPE_CHECKING, Any, Callable, Optional, TypeAlias, Union
 
 import habana_frameworks.torch as htorch
 import habana_frameworks.torch.internal.bridge_config as bc
@@ -407,6 +407,10 @@ def forward(self, *args, **kwargs):
         # kwargs['attn_metadata'].slot_mapping, compared to untrimmed metadata
         kwargs = kwargs.copy()
         #        selected_token_indices = kwargs.pop('selected_token_indices')
+        if 'lora_mask' in kwargs:
+            lora_mask = kwargs['lora_mask']
+            LoraMask.setLoraMask(lora_mask)
+            kwargs.pop('lora_mask')
         if 'warmup_mode' in kwargs:
             kwargs.pop('warmup_mode')
         input_ids = kwargs['input_ids']
@@ -442,9 +446,11 @@ def generate_proposals(self, *args, **kwargs):
 
 
 def _maybe_wrap_in_hpu_graph(*args, **kwargs):
-    '''return htorch.hpu.wrap_in_hpu_graph(
+    '''
+    return htorch.hpu.wrap_in_hpu_graph(
         HpuModelAdapter(*args, **kwargs), disable_tensor_cache=True
-    ) if htorch.utils.internal.is_lazy() else HpuModelAdapter(*args, **kwargs)'''
+    ) if htorch.utils.internal.is_lazy() else HpuModelAdapter(*args, **kwargs)
+    '''
     return HpuModelAdapter(*args, **kwargs)
 
 
@@ -649,7 +655,7 @@ def __init__(
         # TODO(madamczyk-intel): debug why increasing it lowers acc
         self.logits_rounding = 1
 
-    def create_lora_mask(self, input_tokens: torch.Tensor, lora_ids: List[int],
+    def create_lora_mask(self, input_tokens: torch.Tensor, lora_ids: list[int],
                          is_prompt: bool):
         '''
         This is a helper function to create the mask for lora computations.
@@ -747,7 +753,7 @@ def load_lora_model(self, model: nn.Module, model_config: ModelConfig,
         )
         return self.lora_manager.create_lora_manager(model)
 
-    def set_active_loras(self, lora_requests: Set[LoRARequest],
+    def set_active_loras(self, lora_requests: set[LoRARequest],
                          lora_mapping: LoRAMapping) -> None:
         if not self.lora_manager:
             raise RuntimeError("LoRA is not enabled.")
@@ -1160,7 +1166,6 @@ def _extract_prefill_batch_contents(self, num_prefills, num_decodes,
             logits_positions = list(
                 range(query_len - num_output_logits, query_len))
 
-
             new_batch_contents = BatchContents(
                 req_ids=[req_id],
                 token_ids=[token_ids],
@@ -1491,15 +1496,17 @@ def _check_config(self, batch_size, seq_len, num_blocks, attn_metadata,
                 "Configuration: (%s, %s, %s, %s) was not warmed-up!", phase,
                 batch_size, seq_len, num_blocks)
 
-    def _execute_model_generic(self,
-                               token_ids,
-                               position_ids,
-                               attn_metadata,
-                               logits_indices,
-                               kv_caches,
-                               lora_logits_mask,
-                               warmup_mode=False,
-                               ):
+    def _execute_model_generic(
+        self,
+        token_ids,
+        position_ids,
+        attn_metadata,
+        logits_indices,
+        kv_caches,
+        lora_logits_mask,
+        lora_mask,
+        warmup_mode=False,
+    ):
 
         # FORWARD.
         batch_size = token_ids.size(0)
@@ -1519,7 +1526,8 @@ def _execute_model_generic(self,
         hidden_states = self.model.forward(input_ids=token_ids,
                                            positions=position_ids,
                                            attn_metadata=trimmed_attn_metadata,
-                                           kv_caches=kv_caches)
+                                           kv_caches=kv_caches,
+                                           lora_mask=lora_mask)
         # NOTE(kzawora): returning hidden_states is required in prompt logprobs
         # scenarios, as they will do logit processing on their own
         non_flattened_hidden_states = hidden_states
@@ -1695,29 +1703,35 @@ def execute_model(
                 lora_ids = []
                 lora_index_mapping = []
                 lora_prompt_mapping = []
+                lora_mask = None
+                lora_logits_mask = None
                 ###### Code for LoRA. Move to a function later #######
-                # We only need lora_mask and lora_logits_mask here, everything else
-                # could have been done in _prepare_inputs
-                for i, r_id in enumerate(req_id):
-                    lora_request = self.requests[r_id].lora_request
-                    lora_id = self.requests[r_id].lora_request.lora_int_id if lora_request else 0
-                    if lora_id > 0:
-                        lora_requests.append(lora_request)
-                    lora_index_mapping += [lora_id] * (token_ids.shape[1])
-                    lora_prompt_mapping += [lora_id]  #TODO: This may need to change for some cases
-                    lora_ids.append(lora_id)
-                lora_mapping = LoRAMapping(lora_index_mapping,
-                                        lora_prompt_mapping,
-                                        is_prefill=False)
-                self.set_active_loras(lora_requests, lora_mapping)
-                lora_mask, lora_logits_mask = self.create_lora_mask(
-                    token_ids, lora_ids,True)
-                LoraMask.setLoraMask(lora_mask)
+                # We only need lora_mask and lora_logits_mask here,
+                # everything else could have been done in _prepare_inputs
+                if self.lora_config:
+                    for i, r_id in enumerate(req_id):
+                        lora_request = self.requests[r_id].lora_request
+                        lora_id = self.requests[
+                            r_id].lora_request.lora_int_id if \
+                                lora_request else 0
+                        if lora_id > 0:
+                            lora_requests.append(lora_request)
+                        lora_index_mapping += [lora_id] * (token_ids.shape[1])
+                        lora_prompt_mapping += [
+                            lora_id
+                        ]  #TODO: This may need to change for some cases
+                        lora_ids.append(lora_id)
+                    lora_mapping = LoRAMapping(lora_index_mapping,
+                                               lora_prompt_mapping,
+                                               is_prefill=False)
+                    self.set_active_loras(lora_requests, lora_mapping)
+                    lora_mask, lora_logits_mask = self.create_lora_mask(
+                        token_ids, lora_ids, True)
 
                 prefill_hidden_states_ts, logits_device = \
                     self._execute_model_generic(
                         token_ids, position_ids, attn_metadata, logits_indices,
-                        self.kv_caches, lora_logits_mask)
+                        self.kv_caches, lora_logits_mask, lora_mask)
                 htorch.core.mark_step()
 
                 sampling_metadata = self._prepare_sampling(
@@ -1738,33 +1752,39 @@ def execute_model(
             lora_ids = []
             lora_index_mapping = []
             lora_prompt_mapping = []
+            lora_mask = None
+            lora_logits_mask = None
             ###### Code for LoRA. Move to a function later #######
-            for i, r_id in enumerate(pd_info.decode_req_ids):
-                lora_request = self.requests[r_id].lora_request
-                lora_id = self.requests[r_id].lora_request.lora_int_id if lora_request else 0
-                lora_requests = []
-                if lora_id > 0:
-                    lora_requests.append(lora_request)
-                lora_index_mapping += [lora_id]
-                lora_prompt_mapping += [lora_id]
-                lora_ids.append(lora_id)
-            if decode_data.token_ids.shape[0] > len(pd_info.decode_req_ids): #TODO: Need to remove this hack for handling padding
-                for i in range(decode_data.token_ids.shape[0] - len(pd_info.decode_req_ids)):
+            if self.lora_config:
+                for i, r_id in enumerate(pd_info.decode_req_ids):
+                    lora_request = self.requests[r_id].lora_request
+                    lora_id = self.requests[
+                        r_id].lora_request.lora_int_id if lora_request else 0
+                    lora_requests = []
+                    if lora_id > 0:
+                        lora_requests.append(lora_request)
                     lora_index_mapping += [lora_id]
                     lora_prompt_mapping += [lora_id]
                     lora_ids.append(lora_id)
-            lora_mapping = LoRAMapping(lora_index_mapping,
-                                    lora_prompt_mapping,
-                                    is_prefill=False)
-            self.set_active_loras(lora_requests, lora_mapping)
-            lora_mask, lora_logits_mask = self.create_lora_mask(
-                decode_data.token_ids, lora_ids, False)
-            LoraMask.setLoraMask(lora_mask)
+                if decode_data.token_ids.shape[0] > len(
+                        pd_info.decode_req_ids
+                ):  #TODO: Need to remove this hack for handling padding
+                    for i in range(decode_data.token_ids.shape[0] -
+                                   len(pd_info.decode_req_ids)):
+                        lora_index_mapping += [0]
+                        lora_prompt_mapping += [0]
+                        lora_ids.append(lora_id)
+                lora_mapping = LoRAMapping(lora_index_mapping,
+                                           lora_prompt_mapping,
+                                           is_prefill=False)
+                self.set_active_loras(lora_requests, lora_mapping)
+                lora_mask, lora_logits_mask = self.create_lora_mask(
+                    decode_data.token_ids, lora_ids, False)
 
             _, logits_device = self._execute_model_generic(
                 decode_data.token_ids, decode_data.position_ids,
                 decode_data.attn_metadata, decode_data.logits_indices,
-                self.kv_caches, lora_logits_mask)
+                self.kv_caches, lora_logits_mask, lora_mask)
             htorch.core.mark_step()
             sampling_metadata = self._prepare_sampling(
                 batch_changed,
@@ -2093,8 +2113,10 @@ def warmup_scenario(self,
                                                        self.device)
 
         # TODO: Fix the GC assert seen when this is enabled
-        dummy_lora_requests: List[LoRARequest] = []
-        dummy_lora_requests_per_seq: List[LoRARequest] = []
+        dummy_lora_requests: list[LoRARequest] = []
+        dummy_lora_requests_per_seq: list[LoRARequest] = []
+        lora_mask = None
+        lora_logits_mask = None
         if self.lora_config:
             assert self.lora_manager is not None
             with self.lora_manager.dummy_lora_cache():
@@ -2122,20 +2144,19 @@ def warmup_scenario(self,
                 lora_prompt_mapping += [lora_id]
                 lora_ids.append(lora_id)
             lora_mapping = LoRAMapping(lora_index_mapping,
-                                    lora_prompt_mapping,
-                                    is_prefill=False)
+                                       lora_prompt_mapping,
+                                       is_prefill=False)
             self.set_active_loras(dummy_lora_requests_per_seq, lora_mapping)
             lora_mask, lora_logits_mask = self.create_lora_mask(
                 input_ids, lora_ids, is_prompt)
-            LoraMask.setLoraMask(lora_mask)
 
         # Dummy run.
         htorch.core.mark_step()
         logits = self._execute_model_generic(input_ids_device,
                                              position_ids_device,
                                              attn_metadata,
-                                             logits_indices_device, kv_caches, lora_logits_mask,
-                                             True)
+                                             logits_indices_device, kv_caches,
+                                             lora_logits_mask, lora_mask, True)
         # TODO: do sampling on logits, warmup sampler and prefill joiner
         htorch.core.mark_step()
         if self.lora_config: