anujj
diff --git a/‎examples/python/model-qa.py‎
Lines changed: 4 additions & 1 deletion b/‎examples/python/model-qa.py‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎src/config.cpp‎
Lines changed: 68 additions & 8 deletions b/‎src/config.cpp‎
Lines changed: 68 additions & 8 deletions
diff --git a/‎src/config.h‎
Lines changed: 27 additions & 2 deletions b/‎src/config.h‎
Lines changed: 27 additions & 2 deletions
diff --git a/‎src/models/decoder_only.cpp‎
Lines changed: 1 addition & 1 deletion b/‎src/models/decoder_only.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/models/decoder_only_pipeline.cpp‎
Lines changed: 1 addition & 1 deletion b/‎src/models/decoder_only_pipeline.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/models/gpt.cpp‎
Lines changed: 1 addition & 1 deletion b/‎src/models/gpt.cpp‎
Lines changed: 1 addition & 1 deletion
@@ -150,7 +150,10 @@ def main(args):
         else:
             messages = f"""[{{"role": "system", "content": "{system_prompt}"}}, {{"role": "user", "content": "{text}"}}]"""
         # Apply Chat Template
-        prompt = tokenizer.apply_chat_template(messages=messages, add_generation_prompt=True)
+        if model.type == "marian-ssru":
+            prompt = text
+        else:
+            prompt = tokenizer.apply_chat_template(messages=messages, add_generation_prompt=True)
         input_tokens = tokenizer.encode(prompt)
         generator.append_tokens(input_tokens)
 
 
@@ -163,18 +163,34 @@ struct SessionOptions_Element : JSON::Element {
   NamedStrings_Element config_entries_{v_.config_entries};
 };
 
-struct EncoderDecoderInit_Element : JSON::Element {
-  explicit EncoderDecoderInit_Element(Config::Model::EncoderDecoderInit& v) : v_{v} {}
+struct Encoder_Inputs_Element : JSON::Element {
+  explicit Encoder_Inputs_Element(Config::Model::Encoder::Inputs& v) : v_{v} {}
 
   void OnValue(std::string_view name, JSON::Value value) override {
-    if (name == "filename") {
-      v_.filename = JSON::Get<std::string_view>(value);
+    if (name == "input_ids") {
+      v_.input_ids = JSON::Get<std::string_view>(value);
+    } else if (name == "attention_mask") {
+      v_.attention_mask = JSON::Get<std::string_view>(value);
+    } else
+      throw JSON::unknown_value_error{};
+  }
+
+ private:
+  Config::Model::Encoder::Inputs& v_;
+};
+
+struct Encoder_Outputs_Element : JSON::Element {
+  explicit Encoder_Outputs_Element(Config::Model::Encoder::Outputs& v) : v_{v} {}
+
+  void OnValue(std::string_view name, JSON::Value value) override {
+    if (name == "encoder_outputs") {
+      v_.encoder_outputs = JSON::Get<std::string_view>(value);
     } else
       throw JSON::unknown_value_error{};
   }
 
  private:
-  Config::Model::EncoderDecoderInit& v_;
+  Config::Model::Encoder::Outputs& v_;
 };
 
 struct Inputs_Element : JSON::Element {
@@ -205,6 +221,14 @@ struct Inputs_Element : JSON::Element {
       v_.past_sequence_length = JSON::Get<std::string_view>(value);
     } else if (name == "total_sequence_length") {
       v_.total_sequence_length = JSON::Get<std::string_view>(value);
+    } else if (name == "encoder_hidden_states") {
+      v_.encoder_hidden_states = JSON::Get<std::string_view>(value);
+    } else if (name == "encoder_attention_mask") {
+      v_.encoder_attention_mask = JSON::Get<std::string_view>(value);
+    } else if (name == "rnn_states_prev") {
+      v_.rnn_prev_states = JSON::Get<std::string_view>(value);
+    } else if (name == "past_key_values_length") {
+      v_.past_key_values_length = JSON::Get<std::string_view>(value);
     } else
       throw JSON::unknown_value_error{};
   }
@@ -229,6 +253,8 @@ struct Outputs_Element : JSON::Element {
       v_.cross_present_key_names = JSON::Get<std::string_view>(value);
     } else if (name == "cross_present_value_names") {
       v_.cross_present_value_names = JSON::Get<std::string_view>(value);
+    } else if (name == "rnn_states") {
+      v_.rnn_states = JSON::Get<std::string_view>(value);
     } else
       throw JSON::unknown_value_error{};
   }
@@ -349,6 +375,40 @@ struct SlidingWindow_Element : JSON::Element {
   std::optional<Config::Model::Decoder::SlidingWindow>& v_;
 };
 
+struct Encoder_Element : JSON::Element {
+  explicit Encoder_Element(Config::Model::Encoder& v) : v_{v} {}
+
+  void OnValue(std::string_view name, JSON::Value value) override {
+    if (name == "filename") {
+      v_.filename = JSON::Get<std::string_view>(value);
+    } else if (name == "hidden_size") {
+      v_.hidden_size = static_cast<int>(JSON::Get<double>(value));
+    } else if (name == "num_key_value_heads") {
+      v_.num_key_value_heads = static_cast<int>(JSON::Get<double>(value));
+    } else if (name == "num_hidden_layers") {
+      v_.num_hidden_layers = static_cast<int>(JSON::Get<double>(value));
+    } else if (name == "head_size") {
+      v_.head_size = static_cast<int>(JSON::Get<double>(value));
+    } else
+      throw JSON::unknown_value_error{};
+  }
+
+  Element& OnObject(std::string_view name) override {
+    if (name == "inputs") {
+      return inputs_;
+    }
+    if (name == "outputs") {
+      return outputs_;
+    }
+    throw JSON::unknown_value_error{};
+  }
+
+ private:
+  Config::Model::Encoder& v_;
+  Encoder_Inputs_Element inputs_{v_.inputs};
+  Encoder_Outputs_Element outputs_{v_.outputs};
+};
+
 struct Decoder_Element : JSON::Element {
   explicit Decoder_Element(Config::Model::Decoder& v) : v_{v} {}
 
@@ -613,8 +673,8 @@ struct Model_Element : JSON::Element {
   }
 
   Element& OnObject(std::string_view name) override {
-    if (name == "encoder_decoder_init") {
-      return encoder_decoder_init_;
+    if (name == "encoder") {
+      return encoder_;
     }
     if (name == "decoder") {
       return decoder_;
@@ -633,7 +693,7 @@ struct Model_Element : JSON::Element {
 
  private:
   Config::Model& v_;
-  EncoderDecoderInit_Element encoder_decoder_init_{v_.encoder_decoder_init};
+  Encoder_Element encoder_{v_.encoder};
   Decoder_Element decoder_{v_.decoder};
   Int_Array_Element eos_token_id_{v_.eos_token_id};
   Vision_Element vision_{v_.vision};
 
@@ -21,6 +21,10 @@ struct Config {
     static constexpr std::string_view LogitsName = "logits";
     static constexpr std::string_view PresentKeyName = "present.%d.key";
     static constexpr std::string_view PresentValueName = "present.%d.value";
+    static constexpr std::string_view RnnStatesName = "rnn_states";
+    static constexpr std::string_view RnnStatesPrevName = "rnn_states_prev";
+    static constexpr std::string_view PastKeyValuesLengthName = "past_key_values_length";
+    static constexpr std::string_view EncoderHiddenStatesName = "encoder_hidden_states";
 
     static constexpr std::string_view InputsEmbedsName = "inputs_embeds";
     static constexpr std::string_view CurrentSequenceLengthName = "current_sequence_length";
@@ -43,6 +47,10 @@ struct Config {
     static constexpr std::string_view AudioProjectionModeName = "audio_projection_mode";
     static constexpr std::string_view AudioFeaturesName = "audio_features";
     static constexpr std::string_view NumAudioTokens = "num_audio_tokens";
+
+    // Encoder names
+    static constexpr std::string_view EncoderOutputsName = "encoder_outputs";
+    static constexpr std::string_view EncoderAttentionMaskName = "encoder_attention_mask";
   };
 
   fs::path config_path;  // Path of the config directory
@@ -90,13 +98,25 @@ struct Config {
     int context_length{};
 
     // For models like whisper
-    struct EncoderDecoderInit {
+    struct Encoder {
       std::string filename;
 
+      int hidden_size{};
+      int num_key_value_heads{};
+      int num_hidden_layers{};
+      int head_size{};
+
       struct Inputs {
         std::string input_features{Defaults::InputFeaturesName};
+        std::string input_ids{Defaults::InputIdsName};
+        std::string attention_mask{Defaults::AttentionMaskName};
       } inputs;
-    } encoder_decoder_init;
+
+      struct Outputs {
+        std::string encoder_outputs{Defaults::EncoderOutputsName};
+      } outputs;
+
+    } encoder;
 
     struct Embedding {
       std::string filename;
@@ -174,7 +194,11 @@ struct Config {
         std::string cross_past_key_names, cross_past_value_names;
         std::string current_sequence_length{Defaults::CurrentSequenceLengthName};
         std::string past_sequence_length{Defaults::PastSequenceLengthName};
+        std::string past_key_values_length{Defaults::PastKeyValuesLengthName};
         std::string total_sequence_length{Defaults::TotalSequenceLengthName};
+        std::string encoder_hidden_states{Defaults::EncoderHiddenStatesName};
+        std::string rnn_prev_states{Defaults::RnnStatesPrevName};
+        std::string encoder_attention_mask{Defaults::EncoderAttentionMaskName};
       } inputs;
 
       struct Outputs {
@@ -183,6 +207,7 @@ struct Config {
         std::string present_value_names{Defaults::PresentValueName};
         std::string present_names;  // When key/value pairs are combined
         std::string cross_present_key_names, cross_present_value_names;
+        std::string rnn_states{Defaults::RnnStatesName};
       } outputs;
 
       struct PipelineModel {
 
@@ -16,7 +16,7 @@ DecoderOnly_State::DecoderOnly_State(const DecoderOnly_Model& model, DeviceSpan<
     : State{params, model},
       model_{model},
       kv_cache_(CreateKeyValueCache(*this)),
-      position_inputs_{model, *this, sequence_lengths_unk} {
+      position_inputs_{model, *this, sequence_lengths_unk, model_.config_->model.decoder.inputs.attention_mask} {
   input_ids_.Add();
   position_inputs_.Add();
   logits_.Add();
 
@@ -109,7 +109,7 @@ DecoderOnlyPipelineState::DecoderOnlyPipelineState(const DecoderOnlyPipelineMode
       key_value_cache_{CreateKeyValueCache(*this)},
       do_key_value_cache_partial_token_generation_update_{
           key_value_cache_ && key_value_cache_->IsPartialTokenGenerationUpdateSupported()},
-      position_inputs_{CreatePositionInputs(*this, sequence_lengths)} {
+      position_inputs_{CreatePositionInputs(*this, sequence_lengths, model_.config_->model.decoder.inputs.attention_mask)} {
   input_ids_->Add();
   position_inputs_->Add();
   logits_.Add();
 
@@ -16,7 +16,7 @@ std::unique_ptr<State> Gpt_Model::CreateState(DeviceSpan<int32_t> sequence_lengt
 Gpt_State::Gpt_State(const Gpt_Model& model, DeviceSpan<int32_t> sequence_lengths_unk, const GeneratorParams& params)
     : State{params, model},
       model_{model},
-      position_inputs_{model, *this, sequence_lengths_unk} {
+      position_inputs_{model, *this, sequence_lengths_unk, model_.config_->model.decoder.inputs.attention_mask} {
   input_ids_.Add();
   position_inputs_.Add();
   logits_.Add();