updates

metascroy · metascroy · commit 2414e61a5a7d · 2024-12-11T15:12:58.000-08:00
diff --git a/combine_coreml_models.py b/combine_coreml_models.py
@@ -0,0 +1,48 @@
+import coremltools as ct
+import argparse
+
+
+if __name__ == "__main__":
+    """
+    Combines two CoreML models together
+    """
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "-m1",
+        "--model1_path",
+        type=str,
+        help="Model1 path.",
+    )
+    parser.add_argument(
+        "-m2",
+        "--model2_path",
+        type=str,
+        help="Model2 path.",
+    )
+    parser.add_argument(
+        "-o",
+        "--output_path",
+        type=str,
+        help="Output path to save combined model",
+    )
+
+    args = parser.parse_args()
+    model1_path = str(args.model1_path)
+    model2_path = str(args.model2_path)
+    output_path = str(args.output_path)
+
+
+    desc = ct.utils.MultiFunctionDescriptor()
+
+    desc.add_function(
+        model1_path,
+        src_function_name="main",
+        target_function_name="model1"
+    )
+    desc.add_function(
+        model2_path,
+        src_function_name="main",
+        target_function_name="model2"
+    )
+    desc.default_function_name = "model1"
+    ct.utils.save_multifunction(desc, output_path)
diff --git a/examples/apple/coreml/scripts/extract_coreml_models.py b/examples/apple/coreml/scripts/extract_coreml_models.py
@@ -23,7 +23,7 @@
 )
 
 
-def extract_coreml_models(pte_data: bytes):
+def extract_coreml_models(pte_data: bytes, output_dir: str = "."):
     program = deserialize_pte_binary(pte_data)
     delegates: List[BackendDelegate] = sum(
         [execution_plan.delegates for execution_plan in program.execution_plan], []
@@ -45,7 +45,7 @@ def extract_coreml_models(pte_data: bytes):
                 AssertionError("The loaded Program must have inline data.")
 
         model_name: str = f"model_{model_index}"
-        model_path: Path = Path() / "extracted_coreml_models" / model_name
+        model_path: Path = Path() / output_dir / "extracted_coreml_models" / model_name
         if model_path.exists():
             shutil.rmtree(model_path.absolute())
         os.makedirs(model_path.absolute())
@@ -72,9 +72,15 @@ def extract_coreml_models(pte_data: bytes):
         required=True,
         help="Input must be a .pte file.",
     )
+    parser.add_argument(
+        "-o",
+        "--output_dir",
+        default=".",
+        help="Output directory to save the extracted Core ML models.",
+    )
 
     args = parser.parse_args()
     model_path = str(args.model_path)
     with open(model_path, mode="rb") as pte_file:
         pte_data = pte_file.read()
-        extract_coreml_models(pte_data)
+        extract_coreml_models(pte_data, args.output_dir)
diff --git a/examples/models/llama/export_llama_lib.py b/examples/models/llama/export_llama_lib.py
@@ -22,7 +22,7 @@
 import pkg_resources
 import torch
 
-from executorch.devtools.etrecord import generate_etrecord
+
 
 from executorch.extension.llm.export.builder import DType, LLMEdgeManager
 
@@ -237,8 +237,8 @@ def build_args_parser() -> argparse.ArgumentParser:
     )
     parser.add_argument(
         "--prefill_seq_length",
-        default=False,
-        action="store_true",
+        type=int,
+        default=32,
         help="Sequence length for prefill model",
     )
     parser.add_argument(
@@ -781,6 +781,7 @@ def _export_llama(args) -> LLMEdgeManager:  # noqa: C901
         logging.info(f"--> {partitioner.__class__.__name__}")
 
     if args.generate_etrecord:
+        from executorch.devtools.etrecord import generate_etrecord
         if not builder_exported_to_edge.edge_manager:
             raise ValueError("Unable to generate etrecord due to missing edge manager.")
 
diff --git a/examples/models/llama/llama_transformer.py b/examples/models/llama/llama_transformer.py
@@ -114,6 +114,7 @@ class ModelArgs:
     num_experts: int = 8  # Number of experts
     num_activated_experts: int = 2  # Number of experts to activate
     use_kv_cache: bool = False  # Use key/value cache
+    prefill_return_kv: bool = False  # Return kv cache for prefill
     use_sdpa_with_kv_cache_op: bool = (
         False  # Use custom sdpa op that updates kv cache in-place
     )
@@ -420,7 +421,11 @@ def forward(
         freqs_cos: torch.Tensor,
         freqs_sin: torch.Tensor,
         input_pos: Optional[torch.Tensor] = None,
+        return_kv: bool = False,
     ):
+        if return_kv:
+            assert self.use_kv_cache == False, "Can't return kv when use_kv_cache is True"
+
         bsz, seqlen, _ = x.shape
 
         # QKV
@@ -442,6 +447,10 @@ def forward(
         k = k.transpose(1, 2)
         v = v.transpose(1, 2)
 
+        if return_kv:
+            k_ret = k
+            v_ret = v
+
         # grouped multiquery attention: expand out keys and values
         k = k.repeat_interleave(self.n_rep, dim=1)
         v = v.repeat_interleave(self.n_rep, dim=1)
@@ -456,6 +465,8 @@ def forward(
 
         output = self.wo(output)
 
+        if return_kv:
+            return output, k_ret, v_ret
         return output
 
 
@@ -533,16 +544,24 @@ def __init__(self, layer_id: int, args: ModelArgs, rope: Rope):
         self.attention_norm = RMSNorm(args.dim, eps=args.norm_eps)
         self.ffn_norm = RMSNorm(args.dim, eps=args.norm_eps)
 
-    def forward(self, x, freqs_cos, freqs_sin, input_pos=None):  # x: 1xN
-        h = self.attention.forward(
-            self.attention_norm(x), freqs_cos, freqs_sin, input_pos
-        )
+    def forward(self, x, freqs_cos, freqs_sin, input_pos=None, return_kv=False):  # x: 1xN
+        if not return_kv:
+            h = self.attention.forward(
+                self.attention_norm(x), freqs_cos, freqs_sin, input_pos, return_kv=False,
+            )
+        else:
+            h, k, v = self.attention.forward(
+                self.attention_norm(x), freqs_cos, freqs_sin, input_pos, return_kv=True,
+            )
 
         h = x + h
         if hasattr(self, "block_sparse_moe"):
             out = h + self.block_sparse_moe(self.ffn_norm(h))
         else:
             out = h + self.feed_forward(self.ffn_norm(h))
+        
+        if return_kv:
+            return out, k, v
         return out
 
 
@@ -565,6 +584,7 @@ def __init__(self, params: ModelArgs):
         self.max_seq_len = params.max_seq_len
         self.input_prune_map = params.input_prune_map
         self.output_prune_map = params.output_prune_map
+        self.prefill_return_kv = params.prefill_return_kv
 
     def forward(
         self,
@@ -583,13 +603,30 @@ def forward(
         seqlen = h.shape[1]
         freqs_cos, freqs_sin = self.rope.get_freqs(input_pos, seqlen)
 
-        for layer in self.layers:
-            h = layer(
-                h,
-                freqs_cos,
-                freqs_sin,
-                input_pos,
-            )
+        if not self.prefill_return_kv:
+            for layer in self.layers:
+                h = layer(
+                    h,
+                    freqs_cos,
+                    freqs_sin,
+                    input_pos,
+                    return_kv=False,
+                )
+        else:
+            k_caches = []
+            v_caches = []
+            for layer in self.layers:
+                h, k, v = layer(
+                    h,
+                    freqs_cos,
+                    freqs_sin,
+                    input_pos,
+                    return_kv=True,
+                )
+                k_caches.append(k)
+                v_caches.append(v)
+            k_ret = torch.stack(k_caches, dim=0)
+            v_ret = torch.stack(v_caches, dim=0)
 
         if not self.generate_full_logits:
             # Only the last logit is used for the new generated token
@@ -621,4 +658,6 @@ def forward(
                 expanded_logits[:, list(self.output_prune_map.values())] = logits
             logits = expanded_logits
 
+        if self.prefill_return_kv:
+            return logits, k_ret, v_ret
         return logits
diff --git a/examples/models/llama/model.py b/examples/models/llama/model.py
@@ -53,6 +53,8 @@ def __init__(self, **kwargs):
         self.output_prune_map_path = kwargs.get("output_prune_map_path", None)
         self.max_seq_len = kwargs.get("max_seq_len", 128)
         self.args = kwargs.get("args", None)
+        self.prefill_seq_length = self.args.prefill_seq_length
+        self.prefill_return_kv = self.args.prefill_return_kv
 
         # The example is using a dummy small model with random weights for demo purpose only.
         # Follow the instruction in https://github.com/facebookresearch/llama to download the model.
@@ -143,6 +145,7 @@ def __init__(self, **kwargs):
             input_prune_map=input_prune_map,
             output_prune_map=output_prune_map,
             enable_dynamic_shape=self.enable_dynamic_shape,
+            prefill_return_kv=self.prefill_return_kv,
             **params,
         )
 
@@ -273,7 +276,7 @@ def get_example_inputs(self):
         else:
             return (
                 torch.tensor(
-                    [[0 for _ in range(self.args.get("prefill_seq_length", 3))]], dtype=torch.long
+                    [[0 for _ in range(self.prefill_seq_length)]], dtype=torch.long
                 ),  # tokens, with kv cache our input token length is always just 1 token.
             )
 
diff --git a/extension/llm/export/builder.py b/extension/llm/export/builder.py
@@ -160,8 +160,11 @@ def _get_dynamic_shape(self) -> Any:
         dim = torch.export.Dim("token_dim", max=self.max_seq_len - 1)
 
         if not self.use_kv_cache:
-            # Only one input argument: tokens
-            self.dynamic_shapes = ({1: dim},)
+            if not self.enable_dynamic_shape:
+                self.dynamic_shapes = None
+            else:
+                # Only one input argument: tokens
+                self.dynamic_shapes = ({1: dim},)
         elif self.enable_dynamic_shape:
             # Two input arguments: tokens and input_pos but input_pos is static shape
             self.dynamic_shapes = ({1: dim}, {0: 1})
diff --git a/model_export_script.sh b/model_export_script.sh
@@ -0,0 +1,18 @@
+set -e
+
+export MODEL_IN=$HOME/models/stories110M/stories110M.pt
+export TOKENIZER=$HOME/models/stories110M/tokenizer.bin
+export PARAMS=$HOME/models/stories110M/params.json
+export MODEL_OUT_DIR=$HOME/models/stories110M
+export MODEL_OUT_PREFILL=$MODEL_OUT_DIR/prefill_model.pte
+export MODEL_OUT_DECODE=$MODEL_OUT_DIR/decode_model.pte
+
+python -m examples.models.llama.export_llama -c $MODEL_IN -p $PARAMS --output_name=$MODEL_OUT_PREFILL -E "4,32" --prefill_seq_length 512 --disable_dynamic_shape --coreml --coreml-ios 18 --coreml-quantize c4w --coreml-compute-units cpu_only --max_seq_length 1024 --prefill_return_kv --dtype fp16
+
+python -m examples.models.llama.export_llama -c $MODEL_IN -p $PARAMS --output_name=$MODEL_OUT_DECODE -E "4,32" -kv --disable_dynamic_shape --coreml --coreml-ios 18 --coreml-quantize c4w --coreml-compute-units cpu_only --max_seq_length 1024
+
+
+python examples/apple/coreml/scripts/extract_coreml_models.py -m $MODEL_OUT_PREFILL -o "${MODEL_OUT_DIR}/prefill"
+python examples/apple/coreml/scripts/extract_coreml_models.py -m $MODEL_OUT_DECODE -o "${MODEL_OUT_DIR}/decode"
+
+python combine_coreml_models.py -m1 "${MODEL_OUT_DIR}/prefill/extracted_coreml_models/model_1/lowered_module/model.mlpackage" -m2 "${MODEL_OUT_DIR}/decode/extracted_coreml_models/model_1/lowered_module/model.mlpackage" -o "${MODEL_OUT_DIR}/combined.mlpackage"