anujj
diff --git a/‎cmake/global_variables.cmake‎
Lines changed: 5 additions & 0 deletions b/‎cmake/global_variables.cmake‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎examples/python/engine/continuous-batching.py‎
Lines changed: 186 additions & 0 deletions b/‎examples/python/engine/continuous-batching.py‎
Lines changed: 186 additions & 0 deletions
diff --git a/‎examples/python/engine/model-qa.py‎
Lines changed: 92 additions & 0 deletions b/‎examples/python/engine/model-qa.py‎
Lines changed: 92 additions & 0 deletions
diff --git a/‎src/config.h‎
Lines changed: 7 additions & 1 deletion b/‎src/config.h‎
Lines changed: 7 additions & 1 deletion
@@ -31,6 +31,7 @@ set(REPO_ROOT ${PROJECT_SOURCE_DIR})
 set(SRC_ROOT ${REPO_ROOT}/src)
 set(GENERATORS_ROOT ${SRC_ROOT})
 set(MODELS_ROOT ${SRC_ROOT}/models)
+set(ENGINE_ROOT ${SRC_ROOT}/engine)
 
 # Define the dependency libraries
 
@@ -79,6 +80,10 @@ file(GLOB generator_srcs CONFIGURE_DEPENDS
   "${GENERATORS_ROOT}/openvino/*.cpp"
   "${MODELS_ROOT}/*.h"
   "${MODELS_ROOT}/*.cpp"
+  "${ENGINE_ROOT}/*.h"
+  "${ENGINE_ROOT}/*.cpp"
+  "${ENGINE_ROOT}/decoders/*.h"
+  "${ENGINE_ROOT}/decoders/*.cpp"
 )
 
 set(ortgenai_embed_libs "") # shared libs that will be embedded inside the onnxruntime-genai package
 
@@ -0,0 +1,186 @@
+# Copyright (c) Microsoft Corporation. All rights reserved.
+# Licensed under the MIT License.
+
+import argparse
+import json
+import random
+import threading
+import time
+
+import onnxruntime_genai as og
+import tqdm
+from datasets import load_dataset
+
+
+def get_random_prompts(num_questions: int, split="validation") -> list[str]:
+    dataset = load_dataset("squad_v2", split=split)
+    questions = [item["question"] for item in dataset]
+    return random.sample(questions, min(num_questions, len(questions)))
+
+
+class ClientRequest:
+    def __init__(
+        self, prompt: str, model: og.Model, tokenizer: og.Tokenizer, opaque_data: any
+    ):
+        self.prompt = prompt
+        self.params = og.GeneratorParams(model)
+        self.params.set_search_options(
+            do_sample=False,
+            max_length=256,
+        )
+
+        messages = [
+            {"role": "system", "content": ""},
+            {"role": "user", "content": f"{prompt}"},
+        ]
+        messages = json.dumps(messages)
+
+        self.request = og.Request(self.params)
+        self.request.add_tokens(
+            tokenizer.encode(
+                tokenizer.apply_chat_template(
+                    messages=messages, add_generation_prompt=True
+                )
+            )
+        )
+        self.request.set_opaque_data(opaque_data)
+        self.streaming_tokenizer = tokenizer.create_stream()
+        self.token_stream = ""
+
+
+class RequestPool:
+    def __init__(
+        self,
+        model: og.Model,
+        tokenizer: og.Tokenizer,
+        engine: og.Engine,
+        num_requests: int,
+        load_factor: float = 0.2,
+        debug: bool = False,
+    ):
+        self.model = model
+        self.tokenizer = tokenizer
+        self.engine = engine
+        self.num_requests = num_requests
+        self.requests: list[ClientRequest] = []
+        self.prompts = get_random_prompts(num_requests)
+        self.load_factor = load_factor
+        self.lock = threading.Lock()
+        self.bar = tqdm.tqdm(total=len(self.prompts))
+        self.debug = debug
+
+        # Add load_factor * num_requests requests to the engine
+        for prompt in self.prompts[: int(num_requests * load_factor)]:
+            request = ClientRequest(prompt, model, tokenizer, self)
+            self.requests.append(request)
+            self.engine.add_request(request.request)
+
+    def fill(self):
+        for i, prompt in enumerate(
+            self.prompts[int(len(self.prompts) * self.load_factor) :]
+        ):
+            request = ClientRequest(prompt, self.model, self.tokenizer, self)
+            with self.lock:
+                self.requests.append(request)
+                self.engine.add_request(request.request)
+            time.sleep(1)  # Simulate some delay in request generation
+
+    def drain(self, request: og.Request):
+        with self.lock:
+            client_request = next(
+                (r for r in self.requests if r.request == request), None
+            )
+            while request.has_unseen_tokens():
+                token = request.get_unseen_token()
+                client_request.token_stream += (
+                    client_request.streaming_tokenizer.decode(token)
+                )
+
+            if request.is_done():
+                assert (
+                    client_request is not None
+                ), "Client request not found in the pool"
+
+                if self.debug:
+                    print(f"🫵  : {client_request.prompt}")
+                    print(f"🤖 : {client_request.token_stream}")
+                self.engine.remove_request(request)
+                self.requests.remove(client_request)
+                self.bar.update(1)
+
+
+class Engine:
+    def __init__(self, model_path: str, execution_provider: str, debug: bool):
+        self.config = og.Config(model_path)
+        self.config.clear_providers()
+        if execution_provider != "cpu":
+            self.config.append_provider(execution_provider)
+        self.model = og.Model(self.config)
+        self.tokenizer = og.Tokenizer(self.model)
+        self.engine = og.Engine(self.model)
+        self.debug = debug
+        self.tokens_decoded = 0
+
+    def run(self):
+        while request := self.engine.step():
+            request_pool = request.get_opaque_data()
+            request_pool.drain(request)
+            self.tokens_decoded += 1
+
+
+def run(args: argparse.Namespace):
+    engine = Engine(args.model_path, args.execution_provider, args.debug)
+    request_pool = RequestPool(
+        engine.model,
+        engine.tokenizer,
+        engine.engine,
+        args.num_requests,
+        debug=args.debug,
+    )
+
+    producer_thread = threading.Thread(target=request_pool.fill)
+    producer_thread.start()
+
+    start = time.time()
+    engine.run()
+    end = time.time()
+
+    request_pool.bar.close()
+    print(f"⌛Tokens per second: {engine.tokens_decoded / (end - start):.2f}")
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(
+        description="End-to-end AI Question/Answer example for gen-ai",
+    )
+    parser.add_argument(
+        "-m",
+        "--model_path",
+        type=str,
+        required=True,
+        help="Onnx model folder path (must contain genai_config.json and model.onnx)",
+    )
+    parser.add_argument(
+        "-e",
+        "--execution_provider",
+        type=str,
+        required=True,
+        choices=["cpu", "cuda", "dml", "webgpu"],
+        help="Execution provider to run ONNX model with",
+    )
+    parser.add_argument(
+        "-d",
+        "--debug",
+        action="store_true",
+        help="Enable debug logging",
+    )
+    parser.add_argument(
+        "-n",
+        "--num_requests",
+        type=int,
+        default=1,
+        help="Number of requests to process in the pool",
+    )
+    args = parser.parse_args()
+
+    run(args)
@@ -0,0 +1,92 @@
+# Copyright (c) Microsoft Corporation. All rights reserved.
+# Licensed under the MIT License.
+
+import argparse
+import json
+
+import onnxruntime_genai as og
+
+
+def run(args: argparse.Namespace):
+    config = og.Config(args.model_path)
+    config.clear_providers()
+    if args.execution_provider != "cpu":
+        config.append_provider(args.execution_provider)
+
+    model = og.Model(config)
+    tokenizer = og.Tokenizer(model)
+    engine = og.Engine(model)
+
+    while prompt := input("🫵  : "):
+        if prompt == "/exit":
+            break
+
+        messages = [
+            {"role": "system", "content": ""},
+            {"role": "user", "content": f"{prompt}"},
+        ]
+        messages = json.dumps(messages)
+
+        params = og.GeneratorParams(model)
+        params.set_search_options(
+            do_sample=False,
+            max_length=1024,
+        )
+
+        request = og.Request(params)
+        request.add_tokens(
+            tokenizer.encode(
+                tokenizer.apply_chat_template(
+                    messages=messages, add_generation_prompt=True
+                )
+            ),
+        )
+        streaming_tokenizer = tokenizer.create_stream()
+
+        engine.add_request(request)
+
+        print(f"🤖 :", end="", flush=True)
+
+        while ready_request := engine.step():
+            while ready_request.has_unseen_tokens():
+                print(
+                    streaming_tokenizer.decode(ready_request.get_unseen_token()),
+                    end="",
+                    flush=True,
+                )
+
+        print()
+        engine.remove_request(request)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser(
+        description="End-to-end AI Question/Answer example for gen-ai",
+    )
+    parser.add_argument(
+        "-m",
+        "--model_path",
+        type=str,
+        required=True,
+        help="Onnx model folder path (must contain genai_config.json and model.onnx)",
+    )
+    parser.add_argument(
+        "-e",
+        "--execution_provider",
+        type=str,
+        required=True,
+        choices=["cpu", "cuda", "dml", "webgpu"],
+        help="Execution provider to run ONNX model with",
+    )
+    parser.add_argument("--debug", action="store_true", help="Enable debug logging")
+
+    args = parser.parse_args()
+    if args.debug:
+        og.set_log_options(
+            enabled=True,
+            model_input_values=True,
+            model_output_values=True,
+            model_output_shapes=True,
+        )
+
+    run(args)
@@ -23,6 +23,10 @@ struct Config {
     static constexpr std::string_view PresentValueName = "present.%d.value";
     static constexpr std::string_view RnnStatesName = "rnn_states";
     static constexpr std::string_view RnnStatesPrevName = "rnn_states_prev";
+    static constexpr std::string_view CumulativeSequenceLengthsName = "cumulative_sequence_lengths";
+    static constexpr std::string_view SequenceLengthsName = "sequence_lengths";
+    static constexpr std::string_view PastSequenceLengthsName = "past_sequence_lengths";
+    static constexpr std::string_view BlockTableName = "block_table";
 
     // Speech encoder names
     static constexpr std::string_view AudioAttentionMaskName = "audio_attention_mask";
@@ -201,7 +205,6 @@ struct Config {
         std::string past_value_names{Defaults::PastValueName};
         std::string past_names;  // When key/value pairs are combined
         std::string cross_past_key_names, cross_past_value_names;
-
         std::string past_key_values_length{Defaults::PastKeyValuesLengthName};
         std::string past_sequence_length{Defaults::PastSequenceLengthName};
         std::string current_sequence_length{Defaults::CurrentSequenceLengthName};
@@ -210,6 +213,9 @@ struct Config {
         std::string encoder_hidden_states{Defaults::EncoderHiddenStatesName};
         std::string rnn_prev_states{Defaults::RnnStatesPrevName};
         std::string encoder_attention_mask{Defaults::EncoderAttentionMaskName};
+        std::string cumulative_sequence_lengths{Defaults::CumulativeSequenceLengthsName};
+        std::string past_sequence_lengths{Defaults::PastSequenceLengthsName};
+        std::string block_table{Defaults::BlockTableName};
       } inputs;
 
       struct Outputs {