huggingface
diff --git a/‎.github/workflows/test_ipex.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/test_ipex.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎optimum/exporters/ipex/cache_utils.py‎
Lines changed: 63 additions & 87 deletions b/‎optimum/exporters/ipex/cache_utils.py‎
Lines changed: 63 additions & 87 deletions
diff --git a/‎optimum/exporters/ipex/model_patcher.py‎
Lines changed: 6 additions & 0 deletions b/‎optimum/exporters/ipex/model_patcher.py‎
Lines changed: 6 additions & 0 deletions
@@ -65,4 +65,4 @@ jobs:
 
       - name: Test with Pytest
         run: |
-          pytest tests/ipex/${{ matrix.test-file }}
+          pytest tests/ipex/${{ matrix.test-file }} -rsx -v
@@ -54,7 +54,10 @@ def __init__(
         # Used in `generate` to keep tally of how many tokens the cache has seen
 
         self._seen_tokens = torch.zeros([max_batch_size], dtype=torch.int32, device=device)
-        default_block_size = 16
+        self.slots = torch.zeros([max_cache_len * max_batch_size], dtype=torch.int32, device=device)
+        torch._dynamo.mark_static_address(self._seen_tokens)
+        torch._dynamo.mark_static_address(self.slots)
+        default_block_size = 16 if max_cache_len <= 64 else 64
         self.block_size = int(os.environ.get("OI_PAGED_ATTN_BLOCK_SIZE", str(default_block_size)))
         self.num_blocks = (max_cache_len // self.block_size + (max_cache_len % self.block_size != 0)) * max_batch_size
         self.block_tables = -1 * torch.ones([self.num_blocks], dtype=torch.int32, device=device).reshape(
@@ -69,7 +72,6 @@ def __init__(
         else:
             head_size = config.hidden_size // config.num_attention_heads
         self.head_size = head_size
-        self.max_seq_len = 0
 
         self.key_cache: List[torch.Tensor] = []
         self.value_cache: List[torch.Tensor] = []
@@ -87,6 +89,8 @@ def __init__(
         for i in range(config.num_hidden_layers):
             new_layer_key_cache = torch.zeros(key_cache_shape, dtype=dtype, device=device)
             new_layer_value_cache = torch.zeros(value_cache_shape, dtype=dtype, device=device)
+            torch._dynamo.mark_static_address(new_layer_key_cache)
+            torch._dynamo.mark_static_address(new_layer_value_cache)
             self.key_cache.append(new_layer_key_cache)
             self.value_cache.append(new_layer_value_cache)
 
@@ -116,79 +120,50 @@ def reshape_and_cache(
                 slots,
             )
 
-    def update_for_prefill(
-        self,
-        key_states: torch.Tensor,
-        value_states: torch.Tensor,
-        layer_idx: int,
-        batch_size: int,
-        input_lens: torch.Tensor,
-    ):
-        if layer_idx == 0:
-            all_block_indices = []
-            all_slot_offsets = []
-            num_blocks = (input_lens + self.block_size - 1) // self.block_size
-            for i in range(batch_size):
-                nb = num_blocks[i]
-                block_table = self.free_blocks.nonzero().view(-1)[0:nb]
-                self.block_tables[i][0:nb] = block_table
-                self.free_blocks[block_table] = 0
-                slots_range = torch.arange(input_lens[i], device=self.device)
-                block_indices = slots_range // self.block_size
-                slot_offsets = slots_range % self.block_size
-                all_block_indices.append(self.block_tables[i][block_indices])
-                all_slot_offsets.append(slot_offsets)
-
-            all_block_indices = torch.cat(all_block_indices)
-            all_slot_offsets = torch.cat(all_slot_offsets)
-            self.slots = all_block_indices * self.block_size + all_slot_offsets
-        # Update the cache
-        self.reshape_and_cache(
-            key_states, value_states, self.key_cache[layer_idx], self.value_cache[layer_idx], self.slots
-        )
-
-        # Update the number of seen tokens
-        if layer_idx == self.num_hidden_layers - 1:
-            self._seen_tokens = self._seen_tokens + input_lens
-            self.max_seq_len, _ = self._seen_tokens.max(dim=0)
-
-    def update_for_decode(
-        self,
-        key_states: torch.Tensor,
-        value_states: torch.Tensor,
-        layer_idx: int,
-        batch_size: int,
-    ):
-        if layer_idx == 0:
-            start_block_idx = self._seen_tokens // self.block_size
-            slot_offset_in_block = (self._seen_tokens) % self.block_size
-            self.slots = torch.zeros([batch_size], device=self.device, dtype=torch.int32)
-            for i in range(batch_size):
-                if slot_offset_in_block[i] == 0:
-                    # need a new block:
-                    b_idx = start_block_idx[i]
-                    if self.block_tables[i][b_idx] == -1:
-                        # need a free block
-                        self.block_tables[i][b_idx] = self.free_blocks.nonzero().view(-1)[0:1]
-                        self.free_blocks[self.block_tables[i][b_idx]] = 0
-                self.slots[i] = self.block_tables[i][start_block_idx[i]] * self.block_size + slot_offset_in_block[i]
-        # Update the cache
-        self.reshape_and_cache(
-            key_states, value_states, self.key_cache[layer_idx], self.value_cache[layer_idx], self.slots
-        )
-
-        # Update the number of seen tokens
-        if layer_idx == self.num_hidden_layers - 1:
-            self._seen_tokens = self._seen_tokens + 1
-            self.max_seq_len = self.max_seq_len + 1
+    # outside the model forward
+    def alloc_slot_for_prefill(self, input_lens: torch.Tensor, batch_size: int):
+        all_block_indices = []
+        all_slot_offsets = []
+        num_blocks = (input_lens + self.block_size - 1) // self.block_size
+        for i in range(batch_size):
+            nb = num_blocks[i]
+            scores = self.free_blocks * torch.arange(self.free_blocks.shape[0], 0, -1)
+            block_table = torch.topk(scores, nb).indices
+            self.block_tables[i][0:nb] = block_table
+            self.free_blocks[block_table] = 0
+            slots_range = torch.arange(input_lens[i], device=self.device)
+            block_indices = slots_range // self.block_size
+            slot_offsets = slots_range % self.block_size
+            all_block_indices.append(self.block_tables[i][block_indices])
+            all_slot_offsets.append(slot_offsets)
+
+        all_block_indices = torch.cat(all_block_indices)
+        all_slot_offsets = torch.cat(all_slot_offsets).int()
+        # Use inplace op to keep the same memory address, avoid recompile
+        self.slots[: all_block_indices.shape[0]].copy_(all_block_indices * self.block_size + all_slot_offsets)
+
+    # outside the model forward
+    def alloc_slot_for_decode(self, batch_size: int):
+        start_block_idx = self._seen_tokens // self.block_size
+        slot_offset_in_block = (self._seen_tokens) % self.block_size
+        # Use inplace op to keep the same memory address, avoid recompile
+        self.slots.zero_()
+        for i in range(batch_size):
+            if slot_offset_in_block[i] == 0:
+                # need a new block:
+                b_idx = start_block_idx[i]
+                if self.block_tables[i][b_idx] == -1:
+                    # Need a free block. Get indices of free blocks, select the first free block
+                    scores = self.free_blocks * torch.arange(self.free_blocks.shape[0], 0, -1)
+                    self.block_tables[i][b_idx] = scores.argmax()
+                    self.free_blocks[self.block_tables[i][b_idx]] = 0
+            self.slots[i] = self.block_tables[i][start_block_idx[i]] * self.block_size + slot_offset_in_block[i]
 
     def update(
         self,
         key_states: torch.Tensor,
         value_states: torch.Tensor,
         layer_idx: int,
-        attention_mask: torch.Tensor,
-        input_lens: torch.Tensor,
     ) -> Tuple[torch.Tensor, torch.Tensor]:
         """
         Updates the cache with the new `key_states` and `value_states` for the layer `layer_idx`.
@@ -204,45 +179,46 @@ def update(
             A tuple containing the updated key and value states.
         """
 
-        batch_size = input_lens.shape[-1]
-        if self.get_seq_length() == 0:
-            # prefill
-            self.update_for_prefill(key_states, value_states, layer_idx, batch_size, input_lens)
-        else:
-            # decode
-            self.update_for_decode(key_states, value_states, layer_idx, batch_size)
+        self.reshape_and_cache(
+            key_states, value_states, self.key_cache[layer_idx], self.value_cache[layer_idx], self.slots
+        )
 
         return self.key_cache[layer_idx], self.value_cache[layer_idx]
 
-    def get_seq_length(self, layer_idx: Optional[int] = 0) -> int:
+    def get_seq_length(self) -> int:
         """Returns the sequence length of the cached states that were seen by the model."""
-        return self.max_seq_len
+        return self._seen_tokens.max()
 
     def get_max_length(self) -> Optional[int]:
         """Returns the maximum sequence length of the cached states."""
         return self.max_cache_len
 
     def reset(self):
         """Resets the cache values while preserving the objects"""
-        self._seen_tokens = torch.zeros([self.max_batch_size], dtype=torch.int32, device=self.device)
+        self._seen_tokens.zero_()
         self.block_tables.fill_(-1)
-        self.free_blocks = torch.ones([self.num_blocks], dtype=torch.int32, device=self.device)
-        self.max_seq_len = 0
+        self.free_blocks.fill_(1)
 
     def reorder_cache(self, beam_idx: torch.LongTensor):
         """Reorders the cache for beam search, given the selected beam indices."""
         origin_table = self.block_tables.clone()
         updated_block_tables = self.block_tables.index_select(0, beam_idx.to(self.device))
-        mask = self.block_tables.masked_fill(self.block_tables != -1, 1).masked_fill(self.block_tables == -1, 0)
-        num_blocks = mask.cumsum(-1)[:, -1]
+        mask = torch.where(self.block_tables == -1, 0, 1)
+        num_blocks = mask.sum(-1)
         updated_table = torch.zeros_like(beam_idx)
         for i in range(beam_idx.shape[0]):
             nb = num_blocks[i]
             self.block_tables[i, 0 : nb - 1] = updated_block_tables[i, 0 : nb - 1]
             updated_table[i] = self.block_tables[i][nb - 1]
         for layer_idx in range(self.num_hidden_layers):
-            self.key_cache[layer_idx][updated_table] = self.key_cache[layer_idx][updated_table[beam_idx]]
-            self.value_cache[layer_idx][updated_table] = self.value_cache[layer_idx][updated_table[beam_idx]]
+            # The updated_table cannot contain the whole block table, otherwise will cause core-dump.
+            self.key_cache[layer_idx][updated_table] = self.key_cache[layer_idx].index_select(
+                0, updated_table[beam_idx]
+            )
+            self.value_cache[layer_idx][updated_table] = self.value_cache[layer_idx].index_select(
+                0, updated_table[beam_idx]
+            )
+
         free_table = torch.unique((origin_table[origin_table != self.block_tables]).view(-1))
         for i in free_table:
             if not (self.block_tables == i).any():
@@ -252,7 +228,7 @@ def crop(self, maximum_length: int):
         """Crop the past key values up to a new `maximum_length` in terms of tokens. `maximum_length` can also be
         negative to remove `maximum_length` tokens. This is used in assisted decoding and contrastive search."""
 
-        max_seq_len = self.get_seq_length()
+        max_seq_len = self._seen_tokens.max()
         if maximum_length < 0:
             maximum_length = max_seq_len - abs(maximum_length)
 
@@ -264,7 +240,7 @@ def crop(self, maximum_length: int):
             num_blocks = (new_tokens + self.block_size - 1) // self.block_size
             self.block_tables[bs, num_blocks:] = -1
             self._seen_tokens[bs] = new_tokens
-        self.max_seq_len, _ = self._seen_tokens.max(dim=0)
+
         free_table = torch.unique((origin_table[origin_table != self.block_tables]).view(-1))
         for i in free_table:
             if not (self.block_tables == i).any():
 
@@ -33,7 +33,9 @@
 
 from .modeling_utils import (
     _IPEX_MINIMUM_VERSION_FOR_PATCHING,
+    _falcon_for_causal_lm_forward,
     _falcon_model_forward,
+    _gpt2_lm_head_model_forward,
     _gpt2_model_forward,
     _ipex_rms_layer_norm_forward,
     _IPEXFalconDecoderLayer,
@@ -104,6 +106,7 @@ def _patch_falcon_model(model):
         model.config.num_kv_heads if (model.config.new_decoder_architecture or not model.config.multi_query) else 1
     )
     setattr(model.config, "num_key_value_heads", num_key_value_heads)
+    convert_func(model, "forward", _falcon_for_causal_lm_forward)
     convert_functions(model, FalconModel, "forward", _falcon_model_forward)
     replace_customized_linear_with_linear(model)
     convert_class(model, FalconDecoderLayer, _IPEXFalconDecoderLayer, model.device, model.config)
@@ -118,6 +121,7 @@ def _patch_gpt2_model(model):
     """
     num_key_value_heads = model.config.num_attention_heads
     setattr(model.config, "num_key_value_heads", num_key_value_heads)
+    convert_func(model, "forward", _gpt2_lm_head_model_forward)
     convert_functions(model, GPT2Model, "forward", _gpt2_model_forward)
     convert_class(model, GPT2Block, _IPEXGPT2Block, model.device, model.config)
     return model
@@ -129,6 +133,8 @@ def _patch_qwen2_model(model):
         1. Use IPEX rope and paged cache
         2. Linear fusion with (2 Linears + Silu + Mul) and (Linear + Add)
     """
+    # To avoid call _ignore_causal_mask_sdpa which will cause recompile
+    model.config._attn_implementation = "ipex_paged"
     convert_functions(model, Qwen2Model, "forward", _qwen2_model_forward)
     convert_functions(model, Qwen2RMSNorm, "forward", _ipex_rms_layer_norm_forward)
     convert_class(model, Qwen2DecoderLayer, _IPEXQwen2DecoderLayer, model.device, model.config)