up

metascroy · metascroy · commit c96227849376 · 2024-12-15T17:48:05.000-08:00
diff --git a/backends/apple/coreml/compiler/coreml_preprocess.py b/backends/apple/coreml/compiler/coreml_preprocess.py
@@ -449,5 +449,8 @@ def preprocess(
                 op_type_configs={"gather": None},
             )
             mlmodel = cto.coreml.linear_quantize_weights(mlmodel, config=config)
+        
+        print("MIL program:")
+        print(mlmodel._mil_program)
 
         return CoreMLBackend.preprocess_model(mlmodel, model_type=model_type)
diff --git a/examples/models/llama/export_llama_lib.py b/examples/models/llama/export_llama_lib.py
@@ -229,6 +229,18 @@ def build_args_parser() -> argparse.ArgumentParser:
         action="store_true",
         help="Whether or not to export a model using kv cache",
     )
+    parser.add_argument(
+        "--decode_kv_cache_as_io",
+        default=False,
+        action="store_true",
+        help="Whether decode models accepts KV cache as IO",
+    )
+    parser.add_argument(
+        "--use_additive_kv_cache_update",
+        default=False,
+        action="store_true",
+        help="Whether use additive KV cache updates",
+    )
     parser.add_argument(
         "--prefill_return_kv",
         default=False,
diff --git a/examples/models/llama/llama_transformer.py b/examples/models/llama/llama_transformer.py
@@ -115,6 +115,8 @@ class ModelArgs:
     num_activated_experts: int = 2  # Number of experts to activate
     use_kv_cache: bool = False  # Use key/value cache
     prefill_return_kv: bool = False  # Return kv cache for prefill
+    decode_kv_cache_as_io: bool = False # Decode uses KV caches as IO
+    use_additive_kv_cache_update: bool = False # Additive KV cache update
     use_sdpa_with_kv_cache_op: bool = (
         False  # Use custom sdpa op that updates kv cache in-place
     )
@@ -367,6 +369,9 @@ class Attention(nn.Module):
     def __init__(self, args: ModelArgs, layer_id: int, rope: Rope):
         super().__init__()
         self.use_kv_cache = args.use_kv_cache
+        self.decode_kv_cache_as_io = args.decode_kv_cache_as_io
+        self.use_additive_kv_cache_update = args.use_additive_kv_cache_update
+        self.return_kv_values = (args.prefill_return_kv or args.decode_kv_cache_as_io)
         self.n_heads = args.n_heads
         self.n_kv_heads = self.n_heads if args.n_kv_heads is None else args.n_kv_heads
         assert self.n_heads % self.n_kv_heads == 0
@@ -397,7 +402,7 @@ def __init__(self, args: ModelArgs, layer_id: int, rope: Rope):
         )
         self.register_buffer("mask", causal_mask, persistent=False)
 
-        if self.use_kv_cache:
+        if self.use_kv_cache and not self.decode_kv_cache_as_io:
             self.kv_cache = KVCache(
                 args.max_batch_size,
                 args.max_seq_len,
@@ -421,10 +426,19 @@ def forward(
         freqs_cos: torch.Tensor,
         freqs_sin: torch.Tensor,
         input_pos: Optional[torch.Tensor] = None,
-        return_kv: bool = False,
+        k_cache: Optional[torch.Tensor] = None,
+        v_cache: Optional[torch.Tensor] = None,
+        cache_pos_mask: Optional[torch.Tensor] = None,
     ):
-        if return_kv:
-            assert self.use_kv_cache == False, "Can't return kv when use_kv_cache is True"
+        if self.decode_kv_cache_as_io:
+            assert self.use_kv_cache
+            assert k_cache is not None
+            assert v_cache is not None
+            assert self.return_kv_values
+        
+        if self.use_additive_kv_cache_update:
+            assert self.decode_kv_cache_as_io
+            assert cache_pos_mask is not None
 
         bsz, seqlen, _ = x.shape
 
@@ -438,34 +452,53 @@ def forward(
         # RoPE relative positional embeddings
         q, k = self.rope.forward(q, k, freqs_cos, freqs_sin)
 
-        if self.use_kv_cache:
+        if self.use_kv_cache and not self.decode_kv_cache_as_io:
             assert input_pos is not None
+            assert not self.return_kv_values
             output = self.SDPA(input_pos, q, k, v, bsz, seqlen, self.mask)
             return self.wo(output)
 
         q = q.transpose(1, 2)  # (bs, n_local_heads, seqlen, head_dim)
         k = k.transpose(1, 2)
         v = v.transpose(1, 2)
 
-        if return_kv:
+        if self.return_kv_values:
             k_ret = k
             v_ret = v
-
-        # grouped multiquery attention: expand out keys and values
-        k = k.repeat_interleave(self.n_rep, dim=1)
-        v = v.repeat_interleave(self.n_rep, dim=1)
-
+        
         assert hasattr(self, "mask")
+        if self.decode_kv_cache_as_io:
+            assert self.use_kv_cache
+            mask = self.mask[None, None, input_pos]
+            if self.use_additive_kv_cache_update:
+                assert cache_pos_mask is not None
+                assert seqlen == 1
+                k_update = cache_pos_mask * k
+                v_update = cache_pos_mask * v
+                k = k_cache + k_update
+                v = v_cache + v_update
+                assert k.shape == k_cache.shape
+                assert v.shape == v_cache.shape
+            else:
+                k = torch.ops.aten.index_put(k_cache, [None, None, input_pos, None], k)
+                v = torch.ops.aten.index_put(v_cache, [None, None, input_pos, None], v)
+        else:
+            assert not self.use_kv_cache
+            mask = self.mask[:seqlen, :seqlen]
+
 
-        mask = self.mask[:seqlen, :seqlen]
+        # grouped multiquery attention: expand out keys and values
+        if self.n_rep > 1:
+            k = k.repeat_interleave(self.n_rep, dim=1)
+            v = v.repeat_interleave(self.n_rep, dim=1)
 
         output = torch.ops.coreml.sdpa(q, k, v, mask)
 
         output = output.transpose(1, 2).contiguous().view(bsz, seqlen, -1)
 
         output = self.wo(output)
 
-        if return_kv:
+        if self.return_kv_values:
             return output, k_ret, v_ret
         return output
 
@@ -533,6 +566,8 @@ class TransformerBlock(nn.Module):
     def __init__(self, layer_id: int, args: ModelArgs, rope: Rope):
         super().__init__()
         self.use_kv_cache = args.use_kv_cache
+        self.decode_kv_cache_as_io = args.decode_kv_cache_as_io
+        self.return_kv_values = (args.prefill_return_kv or args.decode_kv_cache_as_io)
         self.n_heads = args.n_heads
         self.dim = args.dim
         self.head_dim = args.head_dim
@@ -544,14 +579,19 @@ def __init__(self, layer_id: int, args: ModelArgs, rope: Rope):
         self.attention_norm = RMSNorm(args.dim, eps=args.norm_eps)
         self.ffn_norm = RMSNorm(args.dim, eps=args.norm_eps)
 
-    def forward(self, x, freqs_cos, freqs_sin, input_pos=None, return_kv=False):  # x: 1xN
-        if not return_kv:
+    def forward(self, x, freqs_cos, freqs_sin, input_pos=None, k_cache=None, v_cache=None, cache_pos_mask=None):  # x: 1xN
+        if self.decode_kv_cache_as_io:
+            assert self.use_kv_cache
+            assert k_cache is not None
+            assert v_cache is not None
+
+        if not self.return_kv_values:
             h = self.attention.forward(
-                self.attention_norm(x), freqs_cos, freqs_sin, input_pos, return_kv=False,
+                self.attention_norm(x), freqs_cos, freqs_sin, input_pos, k_cache, v_cache, cache_pos_mask,
             )
         else:
             h, k, v = self.attention.forward(
-                self.attention_norm(x), freqs_cos, freqs_sin, input_pos, return_kv=True,
+                self.attention_norm(x), freqs_cos, freqs_sin, input_pos, k_cache, v_cache, cache_pos_mask,
             )
 
         h = x + h
@@ -560,7 +600,7 @@ def forward(self, x, freqs_cos, freqs_sin, input_pos=None, return_kv=False):  #
         else:
             out = h + self.feed_forward(self.ffn_norm(h))
         
-        if return_kv:
+        if self.return_kv_values:
             return out, k, v
         return out
 
@@ -580,49 +620,71 @@ def __init__(self, params: ModelArgs):
         self.norm = RMSNorm(params.dim, eps=params.norm_eps)
         self.output = nn.Linear(params.dim, params.vocab_size, bias=False)
         self.use_kv_cache = params.use_kv_cache
+        self.decode_kv_cache_as_io = params.decode_kv_cache_as_io
         self.generate_full_logits = params.generate_full_logits
         self.max_seq_len = params.max_seq_len
         self.input_prune_map = params.input_prune_map
         self.output_prune_map = params.output_prune_map
-        self.prefill_return_kv = params.prefill_return_kv
+
+        # Whether model returns newly computed KV values
+        self.return_kv_values = (params.prefill_return_kv or params.decode_kv_cache_as_io)
 
     def forward(
         self,
         tokens: Optional[torch.LongTensor] = None,  # tokens
         input_pos: Optional[
             torch.LongTensor
         ] = None,  # Scalar tensor indicating size of window of the caches
-        h: Optional[torch.FloatTensor] = None,  # embeddings
+        k_cache: Optional[torch.FloatTensor] = None,
+        v_cache: Optional[torch.FloatTensor] = None,
+        cache_pos_mask: Optional[torch.FloatTensor] = None,
     ) -> torch.Tensor:
-        if (tokens is None) ^ (h is not None):
-            raise ValueError(
-                "You cannot specify both tokens and h at the same time, and must specify either one"
-            )
-        if tokens is not None and h is None:
-            h = self.tok_embeddings(tokens)
+        h = self.tok_embeddings(tokens)
+        if self.decode_kv_cache_as_io:
+            assert self.use_kv_cache
+            assert k_cache is not None
+            assert v_cache is not None
+            
+
+            
         seqlen = h.shape[1]
         freqs_cos, freqs_sin = self.rope.get_freqs(input_pos, seqlen)
 
-        if not self.prefill_return_kv:
+        if not self.return_kv_values:
             for layer in self.layers:
                 h = layer(
                     h,
                     freqs_cos,
                     freqs_sin,
                     input_pos,
-                    return_kv=False,
+                    k_cache,
+                    v_cache,
+                    cache_pos_mask,
                 )
         else:
             k_caches = []
             v_caches = []
-            for layer in self.layers:
-                h, k, v = layer(
-                    h,
-                    freqs_cos,
-                    freqs_sin,
-                    input_pos,
-                    return_kv=True,
-                )
+            for i, layer in enumerate(self.layers):
+                if not self.decode_kv_cache_as_io:
+                    h, k, v = layer(
+                        h,
+                        freqs_cos,
+                        freqs_sin,
+                        input_pos,
+                        k_cache,
+                        v_cache,
+                        cache_pos_mask,
+                    )
+                else:
+                    h, k, v = layer(
+                        h,
+                        freqs_cos,
+                        freqs_sin,
+                        input_pos,
+                        k_cache[i,:,:,:,:],
+                        v_cache[i,:,:,:,:],
+                        cache_pos_mask,
+                    )
                 k_caches.append(k)
                 v_caches.append(v)
             k_ret = torch.stack(k_caches, dim=0)
@@ -658,6 +720,6 @@ def forward(
                 expanded_logits[:, list(self.output_prune_map.values())] = logits
             logits = expanded_logits
 
-        if self.prefill_return_kv:
+        if self.return_kv_values:
             return logits, k_ret, v_ret
         return logits
diff --git a/examples/models/llama/model.py b/examples/models/llama/model.py
@@ -55,6 +55,8 @@ def __init__(self, **kwargs):
         self.args = kwargs.get("args", None)
         self.prefill_seq_length = self.args.prefill_seq_length
         self.prefill_return_kv = self.args.prefill_return_kv
+        self.decode_kv_cache_as_io = self.args.decode_kv_cache_as_io
+        self.use_additive_kv_cache_update = self.args.use_additive_kv_cache_update
 
         # The example is using a dummy small model with random weights for demo purpose only.
         # Follow the instruction in https://github.com/facebookresearch/llama to download the model.
@@ -146,9 +148,16 @@ def __init__(self, **kwargs):
             output_prune_map=output_prune_map,
             enable_dynamic_shape=self.enable_dynamic_shape,
             prefill_return_kv=self.prefill_return_kv,
+            decode_kv_cache_as_io=self.decode_kv_cache_as_io,
+            use_additive_kv_cache_update=self.use_additive_kv_cache_update,
             **params,
         )
 
+        # Used for self.decode_kv_cache_as_io and self.args.decode_kv_cache_as_io
+        self._cache_shape = (model_args.n_layers, model_args.max_batch_size, model_args.n_kv_heads, model_args.max_seq_len, model_args.head_dim)
+        self._cache_pos_mask_shape = (model_args.max_batch_size, model_args.n_kv_heads, model_args.max_seq_len, model_args.head_dim)
+        
+
         if model_args.use_scaled_rope:
             # Older models don't have use_scaled_rope configuration
             assert self.args.model not in ["llama2", "stories110m"]
@@ -288,14 +297,27 @@ def get_example_inputs_kvcache_sdpa(self):
                 torch.tensor([0], dtype=torch.long),
             )
         else:
-            return (
+            args = (
                 torch.tensor(
                     [[1]], dtype=torch.long
                 ),  # tokens, with kv cache our input token length is always just 1 token.
                 torch.tensor(
                     [0], dtype=torch.long
                 ),  # start_pos, what token of output are we on.
             )
+            if self.decode_kv_cache_as_io:
+                args = args + (
+                    # (n_layers, max_batch_size, n_heads, max_seq_length, head_dim)
+                    torch.zeros(self._cache_shape, dtype=torch.float16), # k-cache
+                    torch.zeros(self._cache_shape, dtype=torch.float16), # v-cache
+                )
+            
+            if self.use_additive_kv_cache_update:
+                args = args + (
+                    torch.zeros(self._cache_pos_mask_shape, dtype=torch.float16),
+                )
+            return args
+
 
     def _transform_for_pre_quantization(self, checkpoint, model_args):
         assert hasattr(self.args, "preq_mode"), "preq_mode must be specified"
diff --git a/extension/llm/export/builder.py b/extension/llm/export/builder.py
@@ -201,6 +201,7 @@ def export(self) -> "LLMEdgeManager":
                 logging.info(f"inputs: {self.example_inputs}")
                 logging.info(f"kwargs: {self.example_kwarg_inputs}")
                 logging.info(f"dynamic shapes: {dynamic_shape}")
+                print("EVALUATED", self.model(*self.example_inputs))
                 exported_module = export_for_training(
                     self.model,
                     self.example_inputs,
diff --git a/model_export_script.sh b/model_export_script.sh
@@ -6,13 +6,19 @@ export PARAMS=$HOME/models/stories110M/params.json
 export MODEL_OUT_DIR=$HOME/models/stories110M
 export MODEL_OUT_PREFILL=$MODEL_OUT_DIR/prefill_model.pte
 export MODEL_OUT_DECODE=$MODEL_OUT_DIR/decode_model.pte
+export MODEL_OUT_DECODE_KV_IO=$MODEL_OUT_DIR/decode_kv_io_model.pte
+export MODEL_OUT_DECODE_KV_IO_ADDITIVE=$MODEL_OUT_DIR/decode_kv_io_additive_model.pte
 
-python -m examples.models.llama.export_llama -c $MODEL_IN -p $PARAMS --output_name=$MODEL_OUT_PREFILL -E "4,32" --prefill_seq_length 512 --disable_dynamic_shape --coreml --coreml-ios 18 --coreml-quantize c4w --coreml-compute-units cpu_only --max_seq_length 1024 --prefill_return_kv --dtype fp16
 
-python -m examples.models.llama.export_llama -c $MODEL_IN -p $PARAMS --output_name=$MODEL_OUT_DECODE -E "4,32" -kv --disable_dynamic_shape --coreml --coreml-ios 18 --coreml-quantize c4w --coreml-compute-units cpu_only --max_seq_length 1024
+python -m examples.models.llama.export_llama -c $MODEL_IN -p $PARAMS --output_name=$MODEL_OUT_PREFILL -E "4,32" --prefill_seq_length 512 --disable_dynamic_shape --coreml --coreml-ios 18 --coreml-quantize c4w --coreml-compute-units cpu_and_ne --max_seq_length 1024 --prefill_return_kv --dtype fp16
+python -m examples.models.llama.export_llama -c $MODEL_IN -p $PARAMS --output_name=$MODEL_OUT_DECODE -E "4,32" -kv --disable_dynamic_shape --coreml --coreml-ios 18 --coreml-quantize c4w --coreml-compute-units cpu_and_ne --max_seq_length 1024
+python -m examples.models.llama.export_llama -c $MODEL_IN -p $PARAMS --output_name=$MODEL_OUT_DECODE_KV_IO -E "4,32" -kv --disable_dynamic_shape --coreml --coreml-ios 18 --coreml-quantize c4w --coreml-compute-units cpu_and_ne --max_seq_length 1024 --decode_kv_cache_as_io --dtype fp16
+python -m examples.models.llama.export_llama -c $MODEL_IN -p $PARAMS --output_name=$MODEL_OUT_DECODE_KV_IO_ADDITIVE -E "4,32" -kv --disable_dynamic_shape --coreml --coreml-ios 18 --coreml-quantize c4w --coreml-compute-units cpu_and_ne --max_seq_length 1024 --decode_kv_cache_as_io --use_additive_kv_cache_update --dtype fp16
 
 
 python examples/apple/coreml/scripts/extract_coreml_models.py -m $MODEL_OUT_PREFILL -o "${MODEL_OUT_DIR}/prefill"
 python examples/apple/coreml/scripts/extract_coreml_models.py -m $MODEL_OUT_DECODE -o "${MODEL_OUT_DIR}/decode"
+python examples/apple/coreml/scripts/extract_coreml_models.py -m $MODEL_OUT_DECODE_KV_IO -o "${MODEL_OUT_DIR}/decode_kv_io"
+python examples/apple/coreml/scripts/extract_coreml_models.py -m $MODEL_OUT_DECODE_KV_IO_ADDITIVE -o "${MODEL_OUT_DIR}/decode_kv_io_additive"
 
 python combine_coreml_models.py -m1 "${MODEL_OUT_DIR}/prefill/extracted_coreml_models/model_1/lowered_module/model.mlpackage" -m2 "${MODEL_OUT_DIR}/decode/extracted_coreml_models/model_1/lowered_module/model.mlpackage" -o "${MODEL_OUT_DIR}/combined.mlpackage"

Original file line number	Diff line number	Diff line change
`@@ -449,5 +449,8 @@ def preprocess(`
`449`	`449`	`op_type_configs={"gather": None},`
`450`	`450`	`)`
`451`	`451`	`mlmodel = cto.coreml.linear_quantize_weights(mlmodel, config=config)`
	`452`	`+`
	`453`	`+ print("MIL program:")`
	`454`	`+ print(mlmodel._mil_program)`
`452`	`455`
`453`	`456`	`return CoreMLBackend.preprocess_model(mlmodel, model_type=model_type)`