Implement semantic segmentation tiling

RHeckerIntel · RHeckerIntel · commit 4e5a9dfc98dd · 2025-06-17T13:03:08.000+02:00
diff --git a/src/cpp/include/tasks/semantic_segmentation.h b/src/cpp/include/tasks/semantic_segmentation.h
@@ -11,37 +11,66 @@
 #include "tasks/results.h"
 #include "utils/config.h"
 #include "utils/preprocessing.h"
+#include "utils/tiling.h"
 #include "utils/vision_pipeline.h"
 
 class SemanticSegmentation {
 public:
-    VisionPipeline<SemanticSegmentationResult> pipeline;
+    std::unique_ptr<Pipeline<SemanticSegmentationResult>> pipeline;
     std::shared_ptr<InferenceAdapter> adapter;
-    SemanticSegmentation(std::shared_ptr<InferenceAdapter> adapter) : adapter(adapter) {
-        pipeline = VisionPipeline<SemanticSegmentationResult>(
-            adapter,
-            [&](cv::Mat image) {
-                return preprocess(image);
-            },
-            [&](InferenceResult result) {
-                return postprocess(result);
-            });
-
+    SemanticSegmentation(std::shared_ptr<InferenceAdapter> adapter, const ov::AnyMap& configuration)
+        : adapter(adapter) {
         auto config = adapter->getModelConfig();
+        tiling = utils::get_from_any_maps("tiling", configuration, config, tiling);
+        if (tiling) {
+            pipeline = std::make_unique<TilingPipeline<SemanticSegmentationResult>>(
+                adapter,
+                utils::get_tiling_info_from_config(config),
+                [&](cv::Mat image) {
+                    return preprocess(image);
+                },
+                [&](InferenceResult result) {
+                    return postprocess(result);
+                },
+                [&](SemanticSegmentationResult& result, const cv::Rect& coord) {
+                    return postprocess_tile(result, coord);
+                },
+                [&](const std::vector<SemanticSegmentationResult>& tiles_results,
+                    const cv::Size& image_size,
+                    const std::vector<cv::Rect>& tile_coords,
+                    const utils::TilingInfo& tiling_info) {
+                    return merge_tiling_results(tiles_results, image_size, tile_coords, tiling_info);
+                });
+        } else {
+            pipeline = std::make_unique<VisionPipeline<SemanticSegmentationResult>>(
+                adapter,
+                [&](cv::Mat image) {
+                    return preprocess(image);
+                },
+                [&](InferenceResult result) {
+                    return postprocess(result);
+                });
+        }
+
         labels = utils::get_from_any_maps("labels", config, {}, labels);
         soft_threshold = utils::get_from_any_maps("soft_threshold", config, {}, soft_threshold);
         blur_strength = utils::get_from_any_maps("blur_strength", config, {}, blur_strength);
     }
 
     static void serialize(std::shared_ptr<ov::Model>& ov_model);
-    static SemanticSegmentation load(const std::string& model_path);
+    static SemanticSegmentation load(const std::string& model_path, const ov::AnyMap& configuration = {});
 
     std::map<std::string, ov::Tensor> preprocess(cv::Mat);
     SemanticSegmentationResult postprocess(InferenceResult& infResult);
     std::vector<Contour> getContours(const SemanticSegmentationResult& result);
 
     SemanticSegmentationResult infer(cv::Mat image);
     std::vector<SemanticSegmentationResult> inferBatch(std::vector<cv::Mat> image);
+    SemanticSegmentationResult postprocess_tile(SemanticSegmentationResult, const cv::Rect&);
+    SemanticSegmentationResult merge_tiling_results(const std::vector<SemanticSegmentationResult>& tiles_results,
+                                                    const cv::Size& image_size,
+                                                    const std::vector<cv::Rect>& tile_coords,
+                                                    const utils::TilingInfo& tiling_info);
 
 private:
     cv::Mat create_hard_prediction_from_soft_prediction(cv::Mat, float threshold, int blur_strength);
@@ -50,6 +79,7 @@ class SemanticSegmentation {
     int blur_strength = -1;
     float soft_threshold = -std::numeric_limits<float>::infinity();
     bool return_soft_prediction = true;
+    bool tiling = false;
 
     std::vector<std::string> labels;
 
diff --git a/src/cpp/include/utils/vision_pipeline.h b/src/cpp/include/utils/vision_pipeline.h
@@ -79,10 +79,10 @@ class TilingPipeline : public Pipeline<ResultType> {
     std::function<InferenceInput(cv::Mat)> preprocess;
     std::function<ResultType(InferenceResult)> postprocess;
     std::function<ResultType(ResultType&, const cv::Rect&)> postprocess_tile;
-    std::function<DetectionResult(const std::vector<DetectionResult>&,
-                                  const cv::Size&,
-                                  const std::vector<cv::Rect>&,
-                                  const utils::TilingInfo&)>
+    std::function<ResultType(const std::vector<ResultType>&,
+                             const cv::Size&,
+                             const std::vector<cv::Rect>&,
+                             const utils::TilingInfo&)>
         merge_tiling_results;
 
 public:
@@ -92,10 +92,10 @@ class TilingPipeline : public Pipeline<ResultType> {
                    std::function<InferenceInput(cv::Mat)> preprocess,
                    std::function<ResultType(InferenceResult)> postprocess,
                    std::function<ResultType(ResultType&, const cv::Rect&)> postprocess_tile,
-                   std::function<DetectionResult(const std::vector<DetectionResult>&,
-                                                 const cv::Size&,
-                                                 const std::vector<cv::Rect>&,
-                                                 const utils::TilingInfo&)> merge_tiling_results)
+                   std::function<ResultType(const std::vector<ResultType>&,
+                                            const cv::Size&,
+                                            const std::vector<cv::Rect>&,
+                                            const utils::TilingInfo&)> merge_tiling_results)
         : adapter(adapter),
           tiling_info(tiling_info),
           preprocess(preprocess),
@@ -111,7 +111,7 @@ class TilingPipeline : public Pipeline<ResultType> {
             auto tile_img = cv::Mat(image, coord);
             auto input = preprocess(tile_img.clone());
             InferenceResult result;
-            result.inputImageSize = image.size();
+            result.inputImageSize = coord.size();
             result.data = adapter->infer(input);
             auto tile_result = postprocess(result);
             tile_results.push_back(postprocess_tile(tile_result, coord));
@@ -146,7 +146,7 @@ class TilingPipeline : public Pipeline<ResultType> {
                 auto input = preprocess(tile_img.clone());
                 auto additional_data = std::make_shared<ov::AnyMap>();
                 additional_data->insert({"index", i});
-                additional_data->insert({"inputImageSize", images[i].size()});
+                additional_data->insert({"inputImageSize", coord.size()});
                 additional_data->insert({"tileCoord", coord});
                 adapter->inferAsync(input, additional_data);
             }
diff --git a/src/cpp/src/tasks/semantic_segmentation.cpp b/src/cpp/src/tasks/semantic_segmentation.cpp
@@ -2,13 +2,15 @@
  * Copyright (C) 2020-2025 Intel Corporation
  * SPDX-License-Identifier: Apache-2.0
  */
-
 #include "tasks/semantic_segmentation.h"
 
+#include <opencv2/core.hpp>
+
 #include "adapters/openvino_adapter.h"
 #include "utils/config.h"
 #include "utils/tensor.h"
 
+namespace {
 constexpr char feature_vector_name[]{"feature_vector"};
 cv::Mat get_activation_map(const cv::Mat& features) {
     double min_soft_score, max_soft_score;
@@ -20,7 +22,26 @@ cv::Mat get_activation_map(const cv::Mat& features) {
     return int_act_map;
 }
 
-SemanticSegmentation SemanticSegmentation::load(const std::string& model_path) {
+void normalize_soft_prediction(cv::Mat& soft_prediction, const cv::Mat& normalize_factor) {
+    float* data = soft_prediction.ptr<float>(0);
+    const int num_classes = soft_prediction.channels();
+    const size_t step_rows = soft_prediction.step[0] / sizeof(float);
+    const size_t step_cols = soft_prediction.step[1] / sizeof(float);
+
+    for (int y = 0; y < soft_prediction.rows; ++y) {
+        for (int x = 0; x < soft_prediction.cols; ++x) {
+            int weight = normalize_factor.at<int>(y, x);
+            if (weight > 0) {
+                for (int c = 0; c < num_classes; ++c) {
+                    data[y * step_rows + x * step_cols + c] /= weight;
+                }
+            }
+        }
+    }
+}
+}  // namespace
+
+SemanticSegmentation SemanticSegmentation::load(const std::string& model_path, const ov::AnyMap& configuration) {
     auto core = ov::Core();
     std::shared_ptr<ov::Model> model = core.read_model(model_path);
 
@@ -38,7 +59,7 @@ SemanticSegmentation SemanticSegmentation::load(const std::string& model_path) {
     }
     auto adapter = std::make_shared<OpenVINOInferenceAdapter>();
     adapter->loadModel(model, core, "AUTO");
-    return SemanticSegmentation(adapter);
+    return SemanticSegmentation(adapter, configuration);
 }
 
 void SemanticSegmentation::serialize(std::shared_ptr<ov::Model>& ov_model) {
@@ -207,11 +228,11 @@ std::vector<Contour> SemanticSegmentation::getContours(const SemanticSegmentatio
 }
 
 SemanticSegmentationResult SemanticSegmentation::infer(cv::Mat image) {
-    return pipeline.infer(image);
+    return pipeline->infer(image);
 }
 
 std::vector<SemanticSegmentationResult> SemanticSegmentation::inferBatch(std::vector<cv::Mat> images) {
-    return pipeline.inferBatch(images);
+    return pipeline->inferBatch(images);
 }
 
 cv::Mat SemanticSegmentation::create_hard_prediction_from_soft_prediction(cv::Mat soft_prediction,
@@ -249,3 +270,35 @@ cv::Mat SemanticSegmentation::create_hard_prediction_from_soft_prediction(cv::Ma
     }
     return hard_prediction;
 }
+
+SemanticSegmentationResult SemanticSegmentation::postprocess_tile(SemanticSegmentationResult tile, const cv::Rect&) {
+    return tile;
+}
+
+SemanticSegmentationResult SemanticSegmentation::merge_tiling_results(
+    const std::vector<SemanticSegmentationResult>& tiles_results,
+    const cv::Size& image_size,
+    const std::vector<cv::Rect>& tile_coords,
+    const utils::TilingInfo& tiling_info) {
+    auto first = tiles_results.front();
+    cv::Mat voting_mask(cv::Size(image_size.width, image_size.height), CV_32SC1, cv::Scalar(0));
+    cv::Mat merged_soft_prediction(cv::Size(image_size.width, image_size.height),
+                                   CV_32FC(first.soft_prediction.channels()),
+                                   cv::Scalar(0));
+
+    for (size_t i = 0; i < tiles_results.size(); ++i) {
+        voting_mask(tile_coords[i]) += 1;
+        merged_soft_prediction(tile_coords[i]) += tiles_results[i].soft_prediction;
+    }
+
+    normalize_soft_prediction(merged_soft_prediction, voting_mask);
+
+    SemanticSegmentationResult result;
+    result.resultImage =
+        create_hard_prediction_from_soft_prediction(merged_soft_prediction, soft_threshold, blur_strength);
+    ;
+    if (return_soft_prediction) {
+        result.soft_prediction = merged_soft_prediction;
+    }
+    return result;
+}
diff --git a/tests/cpp/test_accuracy.cpp b/tests/cpp/test_accuracy.cpp
@@ -22,7 +22,13 @@ struct TestData {
 
 NLOHMANN_DEFINE_TYPE_NON_INTRUSIVE(TestData, image, reference);
 
-namespace cv {}
+cv::Mat load_image(const std::string& path, bool use_tiling, cv::Size size) {
+    cv::Mat image = cv::imread(path);
+    if (use_tiling) {
+        cv::resize(image, image, size);
+    }
+    return image;
+}
 
 struct ModelData {
     std::string name;
@@ -83,26 +89,23 @@ TEST_P(ModelParameterizedTest, AccuracyTest) {
     auto data = GetParam();
     auto model_path = DATA_DIR + '/' + data.name;
 
+    auto use_tiling = !data.input_res.empty();
     if (data.type == "DetectionModel") {
-        auto use_tiling = !data.input_res.empty();
         auto model = DetectionModel::load(model_path, {{"tiling", use_tiling}});
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
-            if (use_tiling) {
-                cv::resize(image, image, data.input_res);
-            }
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.infer(image);
             EXPECT_EQ(std::string{result}, test_data.reference[0]);
         }
 
     } else if (data.type == "SegmentationModel") {
-        auto model = SemanticSegmentation::load(model_path);
+        auto model = SemanticSegmentation::load(model_path, {{"tiling", use_tiling}});
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.infer(image);
 
             EXPECT_EQ(format_test_output_to_string(model, result), test_data.reference[0]);
@@ -112,7 +115,7 @@ TEST_P(ModelParameterizedTest, AccuracyTest) {
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.infer(image);
 
             EXPECT_EQ(format_test_output_to_string(model, result), test_data.reference[0]);
@@ -121,7 +124,7 @@ TEST_P(ModelParameterizedTest, AccuracyTest) {
         auto model = Classification::load(model_path);
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.infer(image);
             EXPECT_EQ(std::string{result}, test_data.reference[0]);
         }
@@ -135,24 +138,21 @@ TEST_P(ModelParameterizedTest, SerializedAccuracyTest) {
 
     const std::string& basename = data.name.substr(data.name.find_last_of("/\\") + 1);
     auto model_path = DATA_DIR + "/serialized/" + basename;
+    auto use_tiling = !data.input_res.empty();
     if (data.type == "DetectionModel") {
-        auto use_tiling = !data.input_res.empty();
         auto model = DetectionModel::load(model_path, {{"tiling", use_tiling}});
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
-            if (use_tiling) {
-                cv::resize(image, image, data.input_res);
-            }
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.infer(image);
             EXPECT_EQ(std::string{result}, test_data.reference[0]);
         }
     } else if (data.type == "SegmentationModel") {
-        auto model = SemanticSegmentation::load(model_path);
+        auto model = SemanticSegmentation::load(model_path, {{"tiling", use_tiling}});
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.infer(image);
 
             EXPECT_EQ(format_test_output_to_string(model, result), test_data.reference[0]);
@@ -162,7 +162,7 @@ TEST_P(ModelParameterizedTest, SerializedAccuracyTest) {
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.infer(image);
 
             EXPECT_EQ(format_test_output_to_string(model, result), test_data.reference[0]);
@@ -172,7 +172,7 @@ TEST_P(ModelParameterizedTest, SerializedAccuracyTest) {
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.infer(image);
 
             EXPECT_EQ(std::string{result}, test_data.reference[0]);
@@ -188,26 +188,23 @@ TEST_P(ModelParameterizedTest, AccuracyTestBatch) {
     const std::string& basename = data.name.substr(data.name.find_last_of("/\\") + 1);
     auto model_path = DATA_DIR + "/serialized/" + basename;
 
+    auto use_tiling = !data.input_res.empty();
     if (data.type == "DetectionModel") {
-        auto use_tiling = !data.input_res.empty();
         auto model = DetectionModel::load(model_path, {{"tiling", use_tiling}});
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
-            if (use_tiling) {
-                cv::resize(image, image, data.input_res);
-            }
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.inferBatch({image});
             ASSERT_EQ(result.size(), 1);
             EXPECT_EQ(std::string{result[0]}, test_data.reference[0]);
         }
     } else if (data.type == "SegmentationModel") {
-        auto model = SemanticSegmentation::load(model_path);
+        auto model = SemanticSegmentation::load(model_path, {{"tiling", use_tiling}});
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.inferBatch({image});
 
             EXPECT_EQ(format_test_output_to_string(model, result[0]), test_data.reference[0]);
@@ -217,7 +214,7 @@ TEST_P(ModelParameterizedTest, AccuracyTestBatch) {
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.inferBatch({image});
 
             ASSERT_EQ(result.size(), 1);
@@ -228,7 +225,7 @@ TEST_P(ModelParameterizedTest, AccuracyTestBatch) {
 
         for (auto& test_data : data.test_data) {
             std::string image_path = DATA_DIR + '/' + test_data.image;
-            cv::Mat image = cv::imread(image_path);
+            auto image = load_image(image_path, use_tiling, data.input_res);
             auto result = model.inferBatch({image});
 
             ASSERT_EQ(result.size(), 1);
diff --git a/tests/python/accuracy/public_scope.json b/tests/python/accuracy/public_scope.json