Support 3 inputs models in rerank calculator (#3551)

michalkulakowski · web-flow · commit a3786a9e7f03 · 2025-08-07T19:30:27.000+02:00
diff --git a/demos/embeddings/README.md b/demos/embeddings/README.md
@@ -76,6 +76,7 @@ All models supported by [optimum-intel](https://github.com/huggingface/optimum-i
     BAAI/bge-large-en-v1.5
     BAAI/bge-large-zh-v1.5
     thenlper/gte-small
+    Qwen/Qwen3-Embedding-0.6B
 ```
 
 ## Server Deployment
diff --git a/demos/rerank/README.md b/demos/rerank/README.md
@@ -201,6 +201,7 @@ Average document length: 92.248 tokens
 BAAI/bge-reranker-large
 BAAI/bge-reranker-v2-m3
 BAAI/bge-reranker-base
+cross-encoder/msmarco-MiniLM-L6-en-de-v1
 ```
 
 ## Integration with Langchain
diff --git a/src/embeddings/embeddings_calculator_ov.cc b/src/embeddings/embeddings_calculator_ov.cc
@@ -179,7 +179,7 @@ class EmbeddingsCalculatorOV : public CalculatorBase {
                 try {
                     for (size_t i = 0; i < received_batch_size; i++) {
                         int64_t* input_ids_start = reinterpret_cast<int64_t*>(tokens.input_ids.data()) + i * token_count_of_longest_document;
-                        std::fill(input_ids_start, input_ids_start + token_count_of_longest_document, embeddings_session->getPadToken());
+                        std::fill(input_ids_start, input_ids_start + token_count_of_longest_document, embeddings_session->getPadToken().value_or(0));
                         std::copy(tokenized_documents->at(i).data(), tokenized_documents->at(i).data() + tokenized_documents->at(i).size(), input_ids_start);
 
                         int64_t* attention_mask_start = reinterpret_cast<int64_t*>(tokens.attention_mask.data()) + i * token_count_of_longest_document;
diff --git a/src/rerank/rerank_calculator_ov.cc b/src/rerank/rerank_calculator_ov.cc
@@ -59,6 +59,9 @@ using OutputDataType = std::string;
 class RerankCalculatorOV : public CalculatorBase {
     static const std::string INPUT_TAG_NAME;
     static const std::string OUTPUT_TAG_NAME;
+    static const std::string RERANK_MODEL_INPUT_IDS_NAME;
+    static const std::string RERANK_MODEL_ATTENTION_MASK_NAME;
+    static const std::string RERANK_MODEL_TOKEN_TYPE_IDS_NAME;
     static constexpr size_t NUMBER_OF_SPECIAL_TOKENS = 4;
 
     mediapipe::Timestamp timestamp{0};
@@ -106,10 +109,10 @@ class RerankCalculatorOV : public CalculatorBase {
         this->max_allowed_chunks = options.max_allowed_chunks();
         SPDLOG_LOGGER_DEBUG(rerank_calculator_logger, "Max allowed chunks: {}", this->max_allowed_chunks);
 
-        bos_token = rerank_session->getBosToken();
-        eos_token = rerank_session->getEosToken();
-        sep_token = rerank_session->getSepToken();
-        pad_token = rerank_session->getPadToken();
+        bos_token = rerank_session->getBosToken().value_or(0);
+        eos_token = rerank_session->getEosToken().value_or(0);
+        sep_token = rerank_session->getSepToken().value_or(0);
+        pad_token = rerank_session->getPadToken().value_or(0);
 
         // max_position_embeddings
         if (options.has_max_position_embeddings()) {
@@ -229,12 +232,15 @@ class RerankCalculatorOV : public CalculatorBase {
         return std::make_pair(input_ids, attention_mask);
     }
 
-    std::vector<float> ComputeScoresUsingRerankModel(ov::Tensor input_ids, ov::Tensor attention_mask, const std::vector<size_t>& chunkMapping, size_t actual_batch_size) const {
+    std::vector<float> ComputeScoresUsingRerankModel(ov::Tensor input_ids, ov::Tensor attention_mask, std::optional<ov::Tensor> typeIds, const std::vector<size_t>& chunkMapping, size_t actual_batch_size) const {
         ModelMetricReporter tmp(nullptr, nullptr, "example_pipeline_name", 1);
         auto executingStreamIdGuard = std::make_shared<ExecutingStreamIdGuard>(rerank_session->getInferRequestsQueue(), tmp);
         ov::InferRequest& inferRequest = executingStreamIdGuard->getInferRequest();
-        inferRequest.set_tensor("input_ids", input_ids);
-        inferRequest.set_tensor("attention_mask", attention_mask);
+        inferRequest.set_tensor(RERANK_MODEL_INPUT_IDS_NAME, input_ids);
+        inferRequest.set_tensor(RERANK_MODEL_ATTENTION_MASK_NAME, attention_mask);
+        if (typeIds.has_value()) {
+            inferRequest.set_tensor(RERANK_MODEL_TOKEN_TYPE_IDS_NAME, typeIds.value());
+        }
         inferRequest.start_async();
         inferRequest.wait();
         auto logits = inferRequest.get_tensor("logits");
@@ -278,12 +284,17 @@ class RerankCalculatorOV : public CalculatorBase {
             // Prepare inputs for rerank model
             std::vector<size_t> chunk_mapping;
             auto [input_ids, attention_mask] = PrepareInputsForRerankModel(handler, chunk_mapping);
-
+            std::optional<ov::Tensor> typeIds;
+            if (rerank_session->getNumberOfModelInputs() == 3) {
+                typeIds = ov::Tensor{ov::element::i64, input_ids.get_shape()};
+                std::fill_n(typeIds->data<int64_t>(), input_ids.get_size(), 0);
+            }
             // Compute scores using rerank model
             size_t batch_size = handler.getDocumentsList().size();
             auto scores = ComputeScoresUsingRerankModel(
                 input_ids,
                 attention_mask,
+                typeIds,
                 chunk_mapping,
                 batch_size);
 
@@ -309,6 +320,9 @@ class RerankCalculatorOV : public CalculatorBase {
 };
 const std::string RerankCalculatorOV::INPUT_TAG_NAME{"REQUEST_PAYLOAD"};
 const std::string RerankCalculatorOV::OUTPUT_TAG_NAME{"RESPONSE_PAYLOAD"};
+const std::string RerankCalculatorOV::RERANK_MODEL_INPUT_IDS_NAME{"input_ids"};
+const std::string RerankCalculatorOV::RERANK_MODEL_ATTENTION_MASK_NAME{"attention_mask"};
+const std::string RerankCalculatorOV::RERANK_MODEL_TOKEN_TYPE_IDS_NAME{"token_type_ids"};
 
 REGISTER_CALCULATOR(RerankCalculatorOV);
 
diff --git a/src/sidepacket_servable.cpp b/src/sidepacket_servable.cpp
@@ -33,9 +33,20 @@
 
 namespace ovms {
 
-#define SET_TOKEN(token, token_id_name)                                                 \
-    if (modelConfig.HasMember(token_id_name) && modelConfig[token_id_name].IsInt64()) { \
-        token = modelConfig[token_id_name].GetInt64();                                  \
+#define SET_TOKEN_ID(token, token_id_name)                                                                                            \
+    if (modelConfig.HasMember(token_id_name) && modelConfig[token_id_name].IsInt64() && modelConfig[token_id_name].GetInt64() != 0) { \
+        token = modelConfig[token_id_name].GetInt64();                                                                                \
+    }
+
+#define SET_TOKEN(token)                                                                                                       \
+    if (!token.has_value()) {                                                                                                  \
+        if (tokenizerConfig.HasMember(#token) && tokenizerConfig[#token].IsString()) {                                         \
+            auto tokenizedInputs = tokenizer->encode(tokenizerConfig[#token].GetString());                                     \
+            if (tokenizedInputs.input_ids.get_size() == 1 && tokenizedInputs.input_ids.get_element_type() == ov::element::i64) \
+                token = reinterpret_cast<int64_t*>(tokenizedInputs.input_ids.data())[0];                                       \
+            else                                                                                                               \
+                SPDLOG_DEBUG("Parsing {} token from tokenizer_config.json failed", #token);                                    \
+        }                                                                                                                      \
     }
 
 SidepacketServable::SidepacketServable(const std::string& modelDir, const std::string& targetDevice, const std::string& pluginConfig, const std::string& graphPath) {
@@ -62,9 +73,9 @@ SidepacketServable::SidepacketServable(const std::string& modelDir, const std::s
                         break;
                     }
                 }
-                SET_TOKEN(pad_token, "pad_token_id");
-                SET_TOKEN(eos_token, "eos_token_id");
-                SET_TOKEN(bos_token, "bos_token_id");
+                SET_TOKEN_ID(pad_token, "pad_token_id");
+                SET_TOKEN_ID(eos_token, "eos_token_id");
+                SET_TOKEN_ID(bos_token, "bos_token_id");
                 if (modelConfig.HasMember("sep_token_id") && modelConfig["sep_token_id"].IsInt64()) {
                     sep_token = modelConfig["sep_token_id"].GetInt64();
                 } else {
@@ -79,7 +90,35 @@ SidepacketServable::SidepacketServable(const std::string& modelDir, const std::s
     if (!status.ok()) {
         SPDLOG_ERROR("Error during embeddings node plugin_config option parsing to JSON: {}", pluginConfig);
     }
-    tokenizer = std::make_shared<ov::genai::Tokenizer>(parsedModelsPath);
+    ov::AnyMap tokenizerProperties = {{"add_special_tokens", false}};
+    tokenizer = std::make_shared<ov::genai::Tokenizer>(parsedModelsPath, tokenizerProperties);
+    std::filesystem::path tokenizerConfigPath = (std::filesystem::path(graphPath) / fsModelsPath / "tokenizer_config.json");
+    if (std::filesystem::exists(tokenizerConfigPath)) {
+        std::ifstream ifs(tokenizerConfigPath.string());
+        if (ifs.is_open()) {
+            rapidjson::Document tokenizerConfig;
+            rapidjson::IStreamWrapper isw(ifs);
+            rapidjson::ParseResult parseResult = tokenizerConfig.ParseStream(isw);
+            if (parseResult.Code()) {
+                SPDLOG_ERROR("Parsing tokenizer_config.json failed: {}", rapidjson::GetParseError_En(parseResult.Code()));
+            } else {
+                SET_TOKEN(pad_token);
+                SET_TOKEN(eos_token);
+                SET_TOKEN(bos_token);
+                if (!sep_token.has_value()) {
+                    if (tokenizerConfig.HasMember("sep_token") && tokenizerConfig["sep_token"].IsString()) {
+                        auto tokenizedInputs = tokenizer->encode(tokenizerConfig["sep_token"].GetString());
+                        if (tokenizedInputs.input_ids.get_size() == 1 && tokenizedInputs.input_ids.get_element_type() == ov::element::i64)
+                            sep_token = reinterpret_cast<int64_t*>(tokenizedInputs.input_ids.data())[0];
+                        else
+                            SPDLOG_DEBUG("Parsing sep token from tokenizer_config.json failed");
+                    } else if (eos_token.has_value()) {
+                        sep_token = eos_token;
+                    }
+                }
+            }
+        }
+    }
 
     ov::Core core;
     std::shared_ptr<ov::Model> m_model = core.read_model(parsedModelsPath / std::filesystem::path("openvino_model.xml"), {}, properties);
diff --git a/src/sidepacket_servable.hpp b/src/sidepacket_servable.hpp
@@ -42,10 +42,10 @@ struct SidepacketServable {
     std::shared_ptr<ov::Model> model;
     ov::CompiledModel compiledModel;
     std::unique_ptr<OVInferRequestsQueue> inferRequestsQueue;
-    int64_t pad_token = 0;
-    int64_t eos_token = 0;
-    int64_t bos_token = 0;
-    int64_t sep_token = 0;
+    std::optional<int64_t> pad_token;
+    std::optional<int64_t> eos_token;
+    std::optional<int64_t> bos_token;
+    std::optional<int64_t> sep_token;
     std::optional<uint32_t> maxModelLength;
     std::filesystem::path parsedModelsPath;
 
@@ -57,16 +57,16 @@ struct SidepacketServable {
     ov::genai::Tokenizer& getTokenizer() {
         return *tokenizer;
     }
-    const int64_t getPadToken() {
+    const std::optional<int64_t> getPadToken() {
         return pad_token;
     }
-    const int64_t getEosToken() {
+    const std::optional<int64_t> getEosToken() {
         return eos_token;
     }
-    const int64_t getBosToken() {
+    const std::optional<int64_t> getBosToken() {
         return bos_token;
     }
-    const int64_t getSepToken() {
+    const std::optional<int64_t> getSepToken() {
         return sep_token;
     }
     const std::optional<uint32_t> getMaxModelLength() {