Fix vlm calibration dataset collection (#1321)

nikita-savelyevv · web-flow · commit 69311c0f11c9 · 2025-05-23T16:28:48.000+02:00
diff --git a/optimum/intel/openvino/quantization.py b/optimum/intel/openvino/quantization.py
@@ -705,13 +705,7 @@ def _prepare_visual_causal_lm_calibration_data(
                     raise tokenizer_error
                 raise value_error
 
-            input_ids = inputs.get("input_ids")
-            position_ids = torch.arange(input_ids.size(1)).unsqueeze(0).to(input_ids.device)
-
-            inputs_embeds, attention_mask, position_ids = self.model.get_multimodal_embeddings(
-                **inputs,
-                position_ids=position_ids,
-            )
+            inputs_embeds, attention_mask, position_ids = self.model.get_multimodal_embeddings(**inputs)
 
             language_model_inputs = self.model.language_model.prepare_inputs(
                 input_ids=None,
diff --git a/tests/openvino/test_exporters_cli.py b/tests/openvino/test_exporters_cli.py
@@ -638,6 +638,18 @@ class OVCLIExportTestCase(unittest.TestCase):
                         "audio_speech_projection_model": {"int8": 2},
                     },
                 ),
+                (
+                    "image-text-to-text",
+                    "qwen2_5_vl",
+                    'int4 --group-size 16 --ratio 0.8 --sensitivity-metric "mean_activation_magnitude" '
+                    "--dataset contextual --num-samples 1 --trust-remote-code",
+                    {
+                        "lm_model": {"int8": 14, "int4": 16},
+                        "text_embeddings_model": {"int8": 1},
+                        "vision_embeddings_model": {"int8": 1},
+                        "vision_embeddings_merger_model": {"int8": 12},
+                    },
+                ),
             ]
         )
 
diff --git a/tests/openvino/test_quantization.py b/tests/openvino/test_quantization.py
@@ -998,6 +998,25 @@ class OVWeightCompressionTest(unittest.TestCase):
                         "audio_speech_projection_model": {"int8": 2},
                     },
                 ),
+                (
+                    OVModelForVisualCausalLM,
+                    "qwen2_5_vl",
+                    False,
+                    dict(
+                        bits=4,
+                        group_size=16,
+                        dataset="contextual",
+                        ratio=0.8,
+                        sensitivity_metric="mean_activation_magnitude",
+                        num_samples=1,
+                    ),
+                    {
+                        "lm_model": {"int8": 14, "int4": 16},
+                        "text_embeddings_model": {"int8": 1},
+                        "vision_embeddings_model": {"int8": 1},
+                        "vision_embeddings_merger_model": {"int8": 12},
+                    },
+                ),
             ]
         )