Accuracy improvements in phi4 response parser (openvinotoolkit#3448)

mzegla · web-flow · commit e090ff1333d7 · 2025-06-27T15:11:33.000+02:00
diff --git a/src/llm/response_parsers/phi4_response_parser.cpp b/src/llm/response_parsers/phi4_response_parser.cpp
@@ -39,27 +39,17 @@ ParsedResponse Phi4ResponseParser::parse(const std::vector<int64_t>& generatedTo
     // Phi4 with vLLM template produces tool calls in the format:
     // functools[{"name": [function name], "arguments": [function arguments as JSON]}, ...]
     std::string decoded = tokenizer.decode(generatedTokens);
-    std::regex toolRegex(R"(functools\[(.*?)\])");
-    std::sregex_iterator begin(decoded.begin(), decoded.end(), toolRegex);
-    std::sregex_iterator end;
-    size_t matchCount = std::distance(begin, end);
-
-    if (matchCount == 0) {
-        parsedResponse.content = decoded;
-    } else if (matchCount == 1) {
-        std::smatch match = *begin;
-        // Put everything, but functools[...] part into the response content
-        parsedResponse.content = decoded.substr(0, match.position()) +
-                                 decoded.substr(match.position() + match.length());
-
-        std::string toolsStr = match[1].str();
-        std::string toolsJson = "{\"functools\": [" + toolsStr + "]}";  // Wrap in JSON array
-
+    std::string toolsStartString = "functools";
+    size_t toolsStartPos = decoded.find(toolsStartString);
+    if (toolsStartPos != std::string::npos) {
+        // Extract the content before the tools part
+        parsedResponse.content = decoded.substr(0, toolsStartPos);
+        // Extract the tools part, assuming it's all the remaining content after "functools"
+        std::string toolsString = decoded.substr(toolsStartPos + toolsStartString.length());
         rapidjson::Document toolsDoc;
-        toolsDoc.Parse(toolsJson.c_str());
-        if (!toolsDoc.HasParseError() && toolsDoc.IsObject() && toolsDoc.HasMember("functools") && toolsDoc["functools"].IsArray()) {
-            const rapidjson::Value& toolsArray = toolsDoc["functools"];
-            for (auto& toolVal : toolsArray.GetArray()) {
+        toolsDoc.Parse(toolsString.c_str());
+        if (!toolsDoc.HasParseError() && toolsDoc.IsArray()) {
+            for (auto& toolVal : toolsDoc.GetArray()) {
                 if (!toolVal.IsObject()) {
                     SPDLOG_LOGGER_DEBUG(llm_calculator_logger, "Tool call is not a valid JSON object");
                     continue;
@@ -81,10 +71,11 @@ ParsedResponse Phi4ResponseParser::parse(const std::vector<int64_t>& generatedTo
                 parsedResponse.toolCalls.push_back(toolCall);
             }
         } else {
-            SPDLOG_LOGGER_DEBUG(llm_calculator_logger, "Failed to parse toolsJson or extract tools array");
+            SPDLOG_LOGGER_DEBUG(llm_calculator_logger, "Failed to parse functools content or extract tools array");
+            parsedResponse.content = decoded;  // If parsing fails, return the whole decoded content
         }
     } else {
-        throw std::runtime_error("Multiple 'functools[...]' matches found in the response.");
+        parsedResponse.content = decoded;
     }
     return parsedResponse;
 }
diff --git a/src/test/llm/response_parsers/phi4_response_parser_test.cpp b/src/test/llm/response_parsers/phi4_response_parser_test.cpp
@@ -116,12 +116,29 @@ TEST_F(Phi4ResponseParserTest, ParseToolCallOutputWithContentAndSingleToolCall)
     EXPECT_EQ(parsedResponse.toolCalls[0].arguments, "{\"arg1\":\"value1\",\"arg2\":42}");
     EXPECT_EQ(parsedResponse.toolCalls[0].id.empty(), false);  // ID should be generated
 }
-TEST_F(Phi4ResponseParserTest, ParseToolCallOutputWithMultipleFunctoolsThrows) {
+TEST_F(Phi4ResponseParserTest, ParseToolCallOutputWithMultipleFunctoolsReturnsContentOnly) {
     std::string input = "functools[{\"name\": \"tool1\", \"arguments\": {\"a\": 1}}]\n\nThis is some content\n\nfunctools[{\"name\": \"tool2\", \"arguments\": {\"b\": 2}}]";
     auto generatedTensor = tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
     std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
-    EXPECT_THROW({
-        responseParser->parse(generatedTokens);
-    },
-        std::runtime_error);
+    ParsedResponse parsedResponse = responseParser->parse(generatedTokens);
+    // Content after 'functools' cannot be parsed as array of JSON objects, so it is treated as content
+    EXPECT_EQ(parsedResponse.content, "functools[{\"name\": \"tool1\", \"arguments\": {\"a\": 1}}]\n\nThis is some content\n\nfunctools[{\"name\": \"tool2\", \"arguments\": {\"b\": 2}}]");
+    EXPECT_EQ(parsedResponse.reasoning, "");
+    EXPECT_EQ(parsedResponse.reasoningTokenCount, 0);
+    ASSERT_EQ(parsedResponse.toolCalls.size(), 0);  // No valid tool calls parsed
+}
+
+TEST_F(Phi4ResponseParserTest, ParseToolCallOutputWithArrayArguments) {
+    std::string input = "functools[{\"name\": \"extractLastTransactionId\", \"arguments\": { \"filepath\": \"/var/log/db.log\", \"status\": [\"completed\", \"failed\"], \"encoding\": \"utf-8\", \"processFunction\": \"processFunction\"}}]";
+    auto generatedTensor = tokenizer->encode(input, ov::genai::add_special_tokens(false)).input_ids;
+    std::vector<int64_t> generatedTokens(generatedTensor.data<int64_t>(), generatedTensor.data<int64_t>() + generatedTensor.get_size());
+    ParsedResponse parsedResponse = responseParser->parse(generatedTokens);
+    EXPECT_EQ(parsedResponse.content, "");
+    EXPECT_EQ(parsedResponse.reasoning, "");
+    EXPECT_EQ(parsedResponse.reasoningTokenCount, 0);
+    ASSERT_EQ(parsedResponse.toolCalls.size(), 1);
+    EXPECT_EQ(parsedResponse.toolCalls[0].name, "extractLastTransactionId");
+    // Parser removes whitespaces, so we expect arguments value to be without spaces
+    EXPECT_EQ(parsedResponse.toolCalls[0].arguments, "{\"filepath\":\"/var/log/db.log\",\"status\":[\"completed\",\"failed\"],\"encoding\":\"utf-8\",\"processFunction\":\"processFunction\"}");
+    EXPECT_EQ(parsedResponse.toolCalls[0].id.empty(), false);  // ID should be generated
 }
diff --git a/windows_prepare_llm_models.bat b/windows_prepare_llm_models.bat
@@ -33,8 +33,23 @@ set "RERANK_MODEL=BAAI/bge-reranker-base"
 set "TEXT_GENERATION_MODEL=facebook/opt-125m"
 set "VLM_MODEL=OpenGVLab/InternVL2-1B"
 
-if exist "%~1\%TEXT_GENERATION_MODEL%" if exist "%~1\%EMBEDDING_MODEL%" if exist "%~1\%EMBEDDING_MODEL%\ov" if exist "%~1\%RERANK_MODEL%" if exist "%~1\%VLM_MODEL%" (
-  echo Models directory %~1 exists. Skipping downloading models.
+:: Models for tools testing. Only tokenizers are downloaded.
+set "QWEN3_MODEL=Qwen/Qwen3-8B"
+set "LLAMA3_MODEL=meta-llama/Llama-3.1-8B-Instruct"
+set "HERMES3_MODEL=NousResearch/Hermes-3-Llama-3.1-8B"
+set "PHI4_MODEL=microsoft/Phi-4-mini-instruct"
+
+set MODELS_LIST=%TEXT_GENERATION_MODEL% %EMBEDDING_MODEL% %EMBEDDING_MODEL%\ov %RERANK_MODEL% %VLM_MODEL% %QWEN3_MODEL% %LLAMA3_MODEL% %HERMES3_MODEL% %PHI4_MODEL%
+
+set "ALL_EXIST=1"
+for %%M in ("%MODELS_LIST%") do (
+  if not exist "%~1\%%~M" (
+    set "ALL_EXIST=0"
+  )
+)
+
+if "!ALL_EXIST!"=="1" (
+  echo All required models exist in %~1. Skipping downloading models.
   exit /b 0
 )
 
@@ -97,7 +112,43 @@ if exist "%~1\%VLM_MODEL%" (
   echo Models directory %~1\%VLM_MODEL% exists. Skipping downloading models.
 ) else (
   echo Downloading visual language model to %~1\%VLM_MODEL% directory.
-  python demos\common\export_models\export_model.py text_generation --pipeline_type VISUAL_LANGUAGE_MODEL --source_model "%VLM_MODEL%" --weight-format int4 --kv_cache_precision u8 --model_repository_path %~1
+  python demos\common\export_models\export_model.py text_generation --source_model "%VLM_MODEL%" --weight-format int4 --kv_cache_precision u8 --model_repository_path %~1
+  if !errorlevel! neq 0 exit /b !errorlevel!
+)
+
+if exist "%~1\%QWEN3_MODEL%" (
+  echo Models directory %~1\%QWEN3_MODEL% exists. Skipping downloading models.
+) else (
+  echo Downloading tokenizer and detokenizer for Qwen3 model to %~1\%QWEN3_MODEL% directory.
+  mkdir "%~1\%QWEN3_MODEL%"
+  convert_tokenizer "%QWEN3_MODEL%" --with_detokenizer -o "%~1\%QWEN3_MODEL%"
+  if !errorlevel! neq 0 exit /b !errorlevel!
+)
+
+if exist "%~1\%LLAMA3_MODEL%" (
+  echo Models directory %~1\%LLAMA3_MODEL% exists. Skipping downloading models.
+) else (
+  echo Downloading tokenizer and detokenizer for Llama3.1 model to %~1\%LLAMA3_MODEL% directory.
+  mkdir "%~1\%LLAMA3_MODEL%"
+  convert_tokenizer "%LLAMA3_MODEL%" --with_detokenizer -o "%~1\%LLAMA3_MODEL%"
+  if !errorlevel! neq 0 exit /b !errorlevel!
+)
+
+if exist "%~1\%HERMES3_MODEL%" (
+  echo Models directory %~1\%HERMES3_MODEL% exists. Skipping downloading models.
+) else (
+  echo Downloading tokenizer and detokenizer for Hermes3 model to %~1\%HERMES3_MODEL% directory.
+  mkdir "%~1\%HERMES3_MODEL%"
+  convert_tokenizer "%HERMES3_MODEL%" --with_detokenizer -o "%~1\%HERMES3_MODEL%"
+  if !errorlevel! neq 0 exit /b !errorlevel!
+)
+
+if exist "%~1\%PHI4_MODEL%" (
+  echo Models directory %~1\%PHI4_MODEL% exists. Skipping downloading models.
+) else (
+  echo Downloading tokenizer and detokenizer for Phi-4 model to %~1\%PHI4_MODEL% directory.
+  mkdir "%~1\%PHI4_MODEL%"
+  convert_tokenizer "%PHI4_MODEL%" --with_detokenizer -o "%~1\%PHI4_MODEL%"
   if !errorlevel! neq 0 exit /b !errorlevel!
 )