add minicpmv4 test case

openvino-dev-samples · openvino-dev-samples · commit 4b245f14a29f · 2025-08-12T01:23:09.000-07:00
diff --git a/tests/openvino/test_exporters_cli.py b/tests/openvino/test_exporters_cli.py
@@ -622,6 +622,17 @@ class OVCLIExportTestCase(unittest.TestCase):
                         "resampler_model": {"int8": 6},
                     },
                 ),
+                (
+                    "image-text-to-text",
+                    "minicpmv4",
+                    "int4 --group-size 4 --ratio 0.8 --trust-remote-code",
+                    {
+                        "lm_model": {"int8": 10, "int4": 20},
+                        "text_embeddings_model": {"int8": 1},
+                        "vision_embeddings_model": {"int8": 26},
+                        "resampler_model": {"int8": 6},
+                    },
+                ),
                 (
                     "image-text-to-text",
                     "minicpmv",
diff --git a/tests/openvino/test_modeling.py b/tests/openvino/test_modeling.py
@@ -2439,7 +2439,7 @@ class OVModelForVisualCausalLMIntegrationTest(unittest.TestCase):
         SUPPORT_VIDEO.append("llava_next_video")
 
     if is_transformers_version(">=", "4.45.0"):
-        SUPPORTED_ARCHITECTURES += ["minicpmv", "internvl2", "phi3_v", "qwen2_vl"]
+        SUPPORTED_ARCHITECTURES += ["minicpmv", "internvl2", "phi3_v", "qwen2_vl", "minicpmv4"]
         SUPPORT_VIDEO.append("qwen2_vl")
 
     if is_transformers_version(">=", "4.46.0"):
@@ -2454,7 +2454,7 @@ class OVModelForVisualCausalLMIntegrationTest(unittest.TestCase):
     if is_transformers_version(">=", "4.51"):
         SUPPORTED_ARCHITECTURES += ["llama4"]
     TASK = "image-text-to-text"
-    REMOTE_CODE_MODELS = ["internvl2", "minicpmv", "nanollava", "phi3_v", "maira2", "phi4mm"]
+    REMOTE_CODE_MODELS = ["internvl2", "minicpmv", "nanollava", "phi3_v", "maira2", "phi4mm", "minicpmv4"]
 
     IMAGE = Image.open(
         requests.get(
@@ -2558,8 +2558,8 @@ def test_compare_to_transformers(self, model_arch):
         ov_model.clear_requests()
         self._check_device_and_request(ov_model, test_device, False)
 
-        # pytorch minicpmv and internvl2 are not designed to be used via forward
-        if model_arch not in ["minicpmv", "internvl2"]:
+        # pytorch minicpmv/minicpmv4 and internvl2 are not designed to be used via forward
+        if model_arch not in ["minicpmv", "minicpmv4", "internvl2"]:
             set_seed(SEED)
             ov_outputs = ov_model(**inputs)
             set_seed(SEED)
@@ -2608,8 +2608,8 @@ def test_compare_to_transformers(self, model_arch):
                 **transformers_inputs, generation_config=gen_config, **additional_inputs
             )
 
-        # original minicpmv, internvl always skip input tokens in generation results, while transformers based approach provide them
-        if model_arch in ["minicpmv", "internvl2"]:
+        # original minicpmv/minicpmv4, internvl always skip input tokens in generation results, while transformers based approach provide them
+        if model_arch in ["minicpmv", "minicpmv4", "internvl2"]:
             ov_outputs = ov_outputs[:, inputs["input_ids"].shape[1] :]
         self.assertTrue(
             torch.equal(ov_outputs, transformers_outputs),
@@ -2634,8 +2634,8 @@ def test_compare_to_transformers(self, model_arch):
             inputs = ov_model.preprocess_inputs(**preprocessors, text=question, video=input_video)
             transformers_inputs = copy.deepcopy(inputs)
             ov_outputs = ov_model.generate(**inputs, generation_config=gen_config)
-            # original minicpmv, internvl always skip input tokens in generation results, while transformers based approach provide them
-            if model_arch in ["minicpmv", "internvl2"]:
+            # original minicpmv/minicpmv4, internvl always skip input tokens in generation results, while transformers based approach provide them
+            if model_arch in ["minicpmv", "minicpmv4", "internvl2"]:
                 ov_outputs = ov_outputs[:, inputs["input_ids"].shape[1] :]
             with torch.no_grad():
                 transformers_outputs = transformers_model.generate(
@@ -2652,8 +2652,8 @@ def test_compare_to_transformers(self, model_arch):
             inputs = ov_model.preprocess_inputs(**preprocessors, text=question, audio=[input_audio])
             transformers_inputs = copy.deepcopy(inputs)
             ov_outputs = ov_model.generate(**inputs, generation_config=gen_config)
-            # original minicpmv, internvl always skip input tokens in generation results, while transformers based approach provide them
-            if model_arch in ["minicpmv", "internvl2"]:
+            # original minicpmv/minicpmv4, internvl always skip input tokens in generation results, while transformers based approach provide them
+            if model_arch in ["minicpmv", "minicpmv4", "internvl2"]:
                 ov_outputs = ov_outputs[:, inputs["input_ids"].shape[1] :]
             with torch.no_grad():
                 transformers_outputs = transformers_model.generate(
diff --git a/tests/openvino/test_quantization.py b/tests/openvino/test_quantization.py
@@ -982,6 +982,27 @@ class OVWeightCompressionTest(unittest.TestCase):
                         "resampler_model": {"int8": 6},
                     },
                 ),
+                (
+                    OVModelForVisualCausalLM,
+                    "minicpmv4",
+                    True,
+                    dict(
+                        bits=4,
+                        group_size=16,
+                        dataset="contextual",
+                        ratio=0.8,
+                        sensitivity_metric="mean_activation_magnitude",
+                        num_samples=1,
+                        processor=MODEL_NAMES["minicpmv4"],
+                        trust_remote_code=True,
+                    ),
+                    {
+                        "lm_model": {"int8": 8, "int4": 22},
+                        "text_embeddings_model": {"int8": 1},
+                        "vision_embeddings_model": {"int8": 26},
+                        "resampler_model": {"int8": 6},
+                    },
+                ),
                 (
                     OVModelForVisualCausalLM,
                     "internvl2",
@@ -1116,6 +1137,7 @@ class OVWeightCompressionTest(unittest.TestCase):
 
     if is_transformers_version(">=", "4.45.0"):
         SUPPORTED_ARCHITECTURES_WITH_AUTO_COMPRESSION.append((OVModelForVisualCausalLM, "minicpmv", True))
+        SUPPORTED_ARCHITECTURES_WITH_AUTO_COMPRESSION.append((OVModelForVisualCausalLM, "minicpmv4", True))
         SUPPORTED_ARCHITECTURES_WITH_AUTO_COMPRESSION.append((OVModelForVisualCausalLM, "qwen2_vl", False))
 
     SUPPORTED_ARCHITECTURES_WITH_HYBRID_QUANTIZATION = [
diff --git a/tests/openvino/utils_tests.py b/tests/openvino/utils_tests.py
@@ -114,6 +114,7 @@
     "minicpm": "katuni4ka/tiny-random-minicpm",
     "minicpm3": "katuni4ka/tiny-random-minicpm3",
     "minicpmv": "katuni4ka/tiny-random-minicpmv-2_6",
+    "minicpmv4": "snake7gun/minicpm-v-4-tiny",
     "mistral": "echarlaix/tiny-random-mistral",
     "mistral-nemo": "katuni4ka/tiny-random-mistral-nemo",
     "mixtral": "TitanML/tiny-mixtral",
@@ -282,6 +283,12 @@
         "vision_embeddings_model": 26,
         "resampler_model": 6,
     },
+    "minicpmv4": {
+        "lm_model": 30,
+        "text_embeddings_model": 1,
+        "vision_embeddings_model": 26,
+        "resampler_model": 6,
+    },
     "llava_next_video": {
         "lm_model": 30,
         "text_embeddings_model": 1,