[OV] Resize large images during VLM calibration data collection (#1322)

nikita-savelyevv · web-flow · commit c0a6eec282be · 2025-05-26T15:12:44.000+02:00
* Resize large images during VLM calibration data collection

* Add argument for max_image_size
diff --git a/optimum/intel/openvino/quantization.py b/optimum/intel/openvino/quantization.py
@@ -674,7 +674,10 @@ def _prepare_causal_lm_calibration_data(
         return OVCalibrationDataset(calibration_dataset)
 
     def _prepare_visual_causal_lm_calibration_data(
-        self, config: OVQuantizationConfigBase, dataset: "Dataset"
+        self,
+        config: OVQuantizationConfigBase,
+        dataset: "Dataset",
+        max_image_size: Optional[int] = 600,
     ) -> OVCalibrationDataset:
         """
         Prepares calibration data for VLM pipelines.
@@ -695,6 +698,12 @@ def _prepare_visual_causal_lm_calibration_data(
             instruction = item[dataset_metadata["inputs"]["instruction"]]
             image_url = item[dataset_metadata["inputs"]["image_url"]]
             image = Image.open(requests.get(image_url, stream=True).raw).convert("RGB")
+            if max_image_size is not None:
+                # To avoid large images, resize them keeping the aspect ratio
+                scale_factor = max(image.size[0] / max_image_size, image.size[1] / max_image_size)
+                if scale_factor > 1:
+                    new_size = (int(image.size[0] / scale_factor), int(image.size[1] / scale_factor))
+                    image = image.resize(new_size)
 
             try:
                 inputs = self.model.preprocess_inputs(