IanNod
diff --git a/‎docs/model_cookbook.md‎
Lines changed: 9 additions & 9 deletions b/‎docs/model_cookbook.md‎
Lines changed: 9 additions & 9 deletions
diff --git a/‎sharktank/README.md‎
Lines changed: 2 additions & 12 deletions b/‎sharktank/README.md‎
Lines changed: 2 additions & 12 deletions
diff --git a/‎sharktank/sharktank/examples/paged_llm_v1.py‎
Lines changed: 5 additions & 24 deletions b/‎sharktank/sharktank/examples/paged_llm_v1.py‎
Lines changed: 5 additions & 24 deletions
diff --git a/‎sharktank/sharktank/models/llama/tools/generate_data.py‎
Lines changed: 120 additions & 0 deletions b/‎sharktank/sharktank/models/llama/tools/generate_data.py‎
Lines changed: 120 additions & 0 deletions
diff --git a/‎sharktank/sharktank/utils/cli.py‎
Lines changed: 3 additions & 21 deletions b/‎sharktank/sharktank/utils/cli.py‎
Lines changed: 3 additions & 21 deletions
@@ -121,7 +121,7 @@ python ~/llama.cpp/convert_hf_to_gguf.py --outtype f32 --outfile /tmp/mistral-7b
 python -m sharktank.examples.paged_llm_v1 \
   --gguf-file=/tmp/mistral-7b-v0.1-f32.gguf \
   --tokenizer-config-json=/tmp/mistral-7b/tokenizer_config.json \
-  --prompt "Prompt"
+  "Prompt"
 
 # Export as MLIR
 python -m sharktank.examples.export_paged_llm_v1 \
@@ -149,7 +149,7 @@ For example, to run the
 [SlyEcho/open_llama_3b_v2_gguf](https://huggingface.co/SlyEcho/open_llama_3b_v2_gguf):
 
 ```bash
-python -m sharktank.examples.paged_llm_v1 --hf-dataset=open_llama_3b_v2_q8_0_gguf --prompt "Prompt 1"
+python -m sharktank.examples.paged_llm_v1 --hf-dataset=open_llama_3b_v2_q8_0_gguf "Prompt 1"
 
 open-llama-3b-v2-q8_0.gguf: 100%|█████████████████████████████| 3.64G/3.64G [01:35<00:00, 38.3MB/s]
 tokenizer.model: 100%|███████████████████████████████████████████| 512k/512k [00:00<00:00, 128MB/s]
@@ -259,13 +259,13 @@ iree-run-module \
 
 [Instructions](../sharktank/sharktank/evaluate/README.md) to run perplexity test
 
-## Generate sample input tokens for IREE inference/tracy:
+## Generating data for llama models
 
 ```bash
-python -m sharktank.examples.paged_llm_v1 \
-  --hf-dataset=open_llama_3b_v2_f16_gguf \
-  --prompt-seq-len=128 \
-  --bs=4 \
-  --dump-decode-steps=1 \
-  --dump-path='/tmp'
+set TURBINE_DEBUG=log_level=info
+python -m sharktank.models.llama.tools.generate_data \
+  --tokenizer=openlm-research/open_llama_3b_v2 \
+  --config=/tmp/open_llama_3b_v2/open-llama-3b-v2-f16.json \
+  --output-dir=/tmp/open_llama_3b_v2/inputs \
+  --prompt="What is the meaning of life?"
 ```
@@ -28,7 +28,8 @@ Note: Use `--device='cuda:0'` to run this inference on an AMD GPU.
 ```shell
 python -m sharktank.examples.paged_llm_v1 \
   --hf-dataset=open_llama_3b_v2_f16_gguf \
-  --prompt "Prompt 1" "Prompt 2" ...
+  "Prompt 1" \
+  "Prompt 2" ...
 ```
 
 ### Export an IREE compilable batched LLM for serving:
@@ -40,17 +41,6 @@ python -m sharktank.examples.export_paged_llm_v1 \
   --output-config=/tmp/open_llama_3b_v2_f16.json
 ```
 
-### Generate sample input tokens for IREE inference/tracy:
-
-```shell
-python -m sharktank.examples.paged_llm_v1 \
-  --hf-dataset=open_llama_3b_v2_f16_gguf \
-  --prompt-seq-len=128 \
-  --bs=4 \
-  --dump-decode-steps=1 \
-  --dump-path='/tmp'
-```
-
 ### Dump parsed information about a model from a gguf file:
 
 ```shell
 
@@ -18,16 +18,7 @@
 
 
 def main():
-    """
-    Run LLM inference in torch/eager mode. Use --device='cuda:0' to run on AMD GPU
-    Args:
-        --prompt: list[str] - Custom space separated prompts
-        --prompt-seq-len: int - Generate random token ids for given seq len and bs and save prefill & first decode step input args as npy files
-        --dump-path: str - Path to save prefill and decode input args as npy files
-        --dump-decode-steps: int - Number of decode steps to dump decode args (defaults to 1 decode step)
-        --bs: int - batch size, for custom prompts, bs is number of given prompts (defaults to 4)
-        --save_intermediates_path: str - save module forward outputs to safetensors, ex: run_0 will save to run_0_prefill.savetensors"
-    """
+    from ..utils import cli
 
     parser = cli.create_parser()
     cli.add_input_dataset_options(parser)
@@ -38,13 +29,6 @@ def main():
     cli.add_save_tensor_options(parser)
 
     args = cli.parse(parser)
-
-    prompt_seq_len = args.prompt_seq_len
-
-    assert (
-        args.prompt or prompt_seq_len
-    ), "Pass --prompt for custom prompts or --prompt-seq-len and --bs to generate random token ids"
-
     device = torch.device(args.device) if args.device else None
     dataset = cli.get_input_dataset(args)
     tokenizer = cli.get_tokenizer(args)
@@ -74,15 +58,11 @@ def main():
 
     generator = TorchGenerator(model, tokenizer)
 
-    token_ids, seq_lens = generator.preprocess_prompts(
-        prompts=args.prompt, prompt_seq_len=prompt_seq_len, bs=args.bs
-    )
+    token_ids, seq_lens = generator.preprocess_prompts(prompts=args.prompt)
     batch = generator.begin_batch(
         token_ids=token_ids,
         seq_lens=seq_lens,
-        prompt_seq_len=prompt_seq_len,
-        dump_path=args.dump_path,
-        dump_decode_steps=args.dump_decode_steps,
+        dump_bins=args.dump_bins,
     )
     results = batch.prefill()
     batch.print_current_results()
@@ -101,7 +81,8 @@ def main():
                 intermediates_saver.save_file(
                     args.save_intermediates_path + f"_step_{counter}.safetensors"
                 )
-
+            print(f":: Result tokens: {batch.results}")
+            batch.print_current_results()
             counter += 1
 
         if len(batch.parent.free_pages) == 0:
 
@@ -0,0 +1,120 @@
+# Copyright 2024 Advanced Micro Devices, Inc.
+#
+# Licensed under the Apache License v2.0 with LLVM Exceptions.
+# See https://llvm.org/LICENSE.txt for license information.
+# SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+
+"""Generates data files for calling iree-run-module from a prompt and config.
+
+Usage:
+  $ python -m sharktank.models.llama.tools.generate_data \
+    --tokenizer=openlm-research/open_llama_3b_v2 \
+    --config=/tmp/open-llama-3b-v2-f16.json \
+    --output-dir=/tmp/inputs \
+    --prompt="What is the meaning of life?"
+
+  $ ls /tmp/inputs
+
+    arg0.bin
+    arg1.bin
+    arg2.bin
+    arg3.bin
+
+  $ iree-run-module \
+    --module=/tmp/open-llama-3b-v2-f16_cpu.vmfb \
+    --parameters=model=/tmp/open-llama-3b-v2-f16.gguf \
+    --function=prefill_bs4 \
+    --device=local-task \
+    --input=4x1xi64=@/tmp/inputs/arg0.bin \
+    --input=4xi64=@/tmp/inputs/arg1.bin \
+    --input=4x1xi64=@/tmp/inputs/arg2.bin \
+    --input=1x2662400xf16=@/tmp/inputs/arg3.bin
+
+# TODO(scotttodd): similar script to convert outputs to text via tokenizer
+# TODO(scotttodd): teach service_v1_cli to also dump its inputs/outputs?
+# TODO(scotttodd): generate expected outputs using reference model?
+"""
+
+from pathlib import Path
+import logging
+import sys
+import json
+import numpy as np
+
+from transformers import LlamaTokenizer  # type: ignore
+
+from ....utils.logging import get_logger
+from .data_utils import write_ndarray_to_bin
+
+logger = get_logger("sharktank.models.llama.tools.generate_data")
+
+
+def main(argv):
+    from ....utils import cli
+
+    parser = cli.create_parser()
+    parser.add_argument(
+        "--tokenizer", help="name of hugginface tokenizer to use", required=True
+    )
+    parser.add_argument(
+        "--config",
+        type=Path,
+        help="json config file with hyperparameters",
+        required=True,
+    )
+    parser.add_argument(
+        "--output-dir",
+        type=Path,
+        help="Generate .bin files into this directory",
+        required=True,
+    )
+    parser.add_argument("--prompt", help="Prompt string", required=True)
+    # TODO(scotttodd): output path (directory to dump .bin/.npy files)
+    args = cli.parse(parser, args=argv)
+
+    # Load config hyperparameters.
+    with open(args.config) as f:
+        config = json.load(f)
+    logger.info("Loaded config with hyperparameters:")
+    logger.info(json.dumps(config, indent=4))
+
+    # Load tokenizer.
+    # TODO(scotttodd): Unify tokenizer flags across sharktank and shortfin?
+    #   cli.add_tokenizer_options(parser)
+    #   tokenizer = cli.get_tokenizer(args)
+    tokenizer = LlamaTokenizer.from_pretrained(args.tokenizer, legacy=False)
+
+    # TODO(scotttodd): loop over batch sizes (generate one dataset per batch size)
+    prefill_batch_size = config["prefill_batch_sizes"][0]
+
+    # Declare input arguments.
+    # TODO(scotttodd): compute max_seq_len from tokens, _not_ config here
+    arg0_prefill_tokens = np.zeros(
+        [prefill_batch_size, config["max_seq_len"]], dtype=np.int64
+    )
+    arg1_prefill_seq_lens = np.zeros(prefill_batch_size, dtype=np.int64)
+    # TODO(scotttodd): arg2 - attention block indices
+    # TODO(scotttodd): arg3 - attention block buffer
+
+    # Populate input arguments.
+    # TODO(scotttodd): loop over 1 prompt per batch here (or duplicate)
+    prompt = args.prompt
+    prompt_tokens = tokenizer.encode(prompt, return_tensors="pt")[0].tolist()
+    logger.info(f"prompt -> encoded tokens: {prompt_tokens}")
+    prompt_seq_len = len(prompt_tokens)
+    arg0_prefill_tokens[0, 0:prompt_seq_len] = prompt_tokens
+    arg1_prefill_seq_lens[0] = prompt_seq_len
+    with np.printoptions(threshold=np.inf):
+        logger.debug("arg0_prefill_tokens:")
+        logger.debug(arg0_prefill_tokens)
+        logger.debug("arg1_prefill_seq_lens:")
+        logger.debug(arg1_prefill_seq_lens)
+
+    logger.info(f"Writing argument .bin files to '{args.output_dir}'")
+    args.output_dir.mkdir(parents=True, exist_ok=True)
+    write_ndarray_to_bin(arg0_prefill_tokens, args.output_dir / "arg0.bin")
+    write_ndarray_to_bin(arg1_prefill_seq_lens, args.output_dir / "arg1.bin")
+
+
+if __name__ == "__main__":
+    main(argv=sys.argv[1:])
@@ -205,27 +205,9 @@ def add_save_tensor_options(parser: argparse.ArgumentParser):
         help="save module forward outputs to safetensors, ex: run_0 will save to run_0_prefill.savetensors",
     )
     parser.add_argument(
-        "--dump-path",
-        help="Path to dump prefill/decode input tensors to npy files",
-        type=str,
-        default=None,
-    )
-    parser.add_argument(
-        "--dump-decode-steps",
-        help="Number of decode steps to dump decode input tensors",
-        type=int,
-        default=1,
-    )
-    parser.add_argument(
-        "--prompt-seq-len",
-        help="Seq len to generate input prompts for prefill",
-        type=int,
-    )
-    parser.add_argument(
-        "--bs",
-        help="Batch size",
-        type=int,
-        default="4",
+        "--dump-bins",
+        help="dump input tensors to bin files",
+        action="store_true",
     )