Add PTQ support for OVModelForZeroShotImageClassification (#1283)

nikita-savelyevv · web-flow · commit b7819a909b4e · 2025-05-12T15:38:39.000+02:00
* Fix custom dataset processing for text encoding tasks

* Update tests

* PTQ support for zero-shot image classification task

* Update to take into account custom datasets

* Add docs

* Rely on base from_pretrained method
diff --git a/docs/source/openvino/optimization.mdx b/docs/source/openvino/optimization.mdx
@@ -383,6 +383,64 @@ Click on a ✅ to copy the command/code for the corresponding optimization case.
                 </button>
             </td>
         </tr>
+        <tr>
+            <td style="text-align: center; vertical-align: middle;">zero-shot-image-classification<br>(OVModelForZeroShotImageClassification)</td>
+            <td style="text-align: center; vertical-align: middle;">
+                <button
+                    onclick="navigator.clipboard.writeText('optimum-cli export openvino -m openai/clip-vit-base-patch16 --weight-format int8 ./save_dir')">
+                    ✅
+                </button>
+            </td>
+            <td style="text-align: center; vertical-align: middle;">
+                <button
+                    onclick="navigator.clipboard.writeText('OVModelForZeroShotImageClassification.from_pretrained(\'openai/clip-vit-base-patch16\', quantization_config=OVWeightQuantizationConfig(bits=8)).save_pretrained(\'save_dir\')')">
+                    ✅
+                </button>
+            </td>
+            <td style="text-align: center; vertical-align: middle;">
+                <button
+                    onclick="navigator.clipboard.writeText('optimum-cli export openvino -m openai/clip-vit-base-patch16 --weight-format int4 --dataset conceptual_captions ./save_dir')">
+                    ✅
+                </button>
+            </td>
+            <td style="text-align: center; vertical-align: middle;">
+                <button
+                    onclick="navigator.clipboard.writeText('OVModelForZeroShotImageClassification.from_pretrained(\'openai/clip-vit-base-patch16\', quantization_config=OVWeightQuantizationConfig(bits=4, dataset=\'conceptual_captions\')).save_pretrained(\'save_dir\')')">
+                    ✅
+                </button>
+            </td>
+            <td style="text-align: center; vertical-align: middle;">–</td>
+            <td style="text-align: center; vertical-align: middle;">
+                <button
+                    onclick="navigator.clipboard.writeText('OVModelForZeroShotImageClassification.from_pretrained(\'openai/clip-vit-base-patch16\', quantization_config=OVWeightQuantizationConfig(bits=4, quant_method=\'hybrid\', dataset=\'conceptual_captions\')).save_pretrained(\'save_dir\')')">
+                    ✅
+                </button>
+            </td>
+            <td style="text-align: center; vertical-align: middle;">
+                <button
+                    onclick="navigator.clipboard.writeText('optimum-cli export openvino -m openai/clip-vit-base-patch16 --quant-mode int8 --dataset conceptual_captions ./save_dir')">
+                    ✅
+                </button>
+            </td>
+            <td style="text-align: center; vertical-align: middle;">
+                <button
+                    onclick="navigator.clipboard.writeText('OVModelForZeroShotImageClassification.from_pretrained(\'openai/clip-vit-base-patch16\', quantization_config=OVQuantizationConfig(bits=8, dataset=\'conceptual_captions\')).save_pretrained(\'save_dir\')')">
+                    ✅
+                </button>
+            </td>
+            <td style="text-align: center; vertical-align: middle;">
+                <button
+                    onclick="navigator.clipboard.writeText('optimum-cli export openvino -m openai/clip-vit-base-patch16 --quant-mode nf4_f8e4m3 --dataset conceptual_captions ./save_dir')">
+                    ✅
+                </button>
+            </td>
+            <td style="text-align: center; vertical-align: middle;">
+                <button
+                    onclick="navigator.clipboard.writeText('OVModelForZeroShotImageClassification.from_pretrained(\'openai/clip-vit-base-patch16\', quantization_config=OVMixedQuantizationConfig(OVWeightQuantizationConfig(bits=4, dtype=\'nf4\'), OVQuantizationConfig(dtype=\'f8e4m3\', dataset=\'conceptual_captions\'))).save_pretrained(\'save_dir\')')">
+                    ✅
+                </button>
+            </td>
+        </tr>
     </tbody>
 </table>
 
diff --git a/optimum/commands/export/openvino.py b/optimum/commands/export/openvino.py
@@ -454,7 +454,7 @@ def run(self):
         elif (
             quantize_with_dataset
             and (
-                task == "fill-mask"
+                task in ["fill-mask", "zero-shot-image-classification"]
                 or task.startswith("text-generation")
                 or task.startswith("automatic-speech-recognition")
                 or task.startswith("feature-extraction")
@@ -485,6 +485,10 @@ def run(self):
                 from ...intel import OVModelForMaskedLM
 
                 model_cls = OVModelForMaskedLM
+            elif task == "zero-shot-image-classification":
+                from ...intel import OVModelForZeroShotImageClassification
+
+                model_cls = OVModelForZeroShotImageClassification
             else:
                 raise NotImplementedError(
                     f"Unable to find a matching model class for the task={task} and library_name={library_name}."
diff --git a/optimum/intel/openvino/modeling.py b/optimum/intel/openvino/modeling.py
@@ -11,7 +11,6 @@
 #  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 #  See the License for the specific language governing permissions and
 #  limitations under the License.
-
 import logging
 import os
 from pathlib import Path
diff --git a/optimum/intel/openvino/modeling_base.py b/optimum/intel/openvino/modeling_base.py
@@ -424,6 +424,7 @@ def _from_pretrained(
             quantizer = OVQuantizer(model)
             quantization_config_copy = copy.deepcopy(quantization_config)
             quantization_config_copy.tokenizer = quantization_config.tokenizer or model_id
+            quantization_config_copy.processor = quantization_config.processor or model_id
             quantizer.quantize(ov_config=OVConfig(quantization_config=quantization_config_copy))
 
         return model
diff --git a/optimum/intel/openvino/quantization.py b/optimum/intel/openvino/quantization.py
@@ -18,6 +18,7 @@
 import os
 from collections import UserDict, deque
 from contextlib import contextmanager
+from io import BytesIO
 from pathlib import Path
 from typing import Any, Callable, Dict, Iterable, List, Optional, Tuple, Union
 
@@ -73,6 +74,7 @@
     PREDEFINED_LANGUAGE_DATASETS,
     PREDEFINED_SD_DATASETS,
     PREDEFINED_SPEECH_TO_TEXT_DATASETS,
+    PREDEFINED_TEXT_IMAGE_ENCODER_DATASETS,
     PREDEFINED_VISUAL_LM_DATASETS,
 )
 
@@ -268,6 +270,7 @@ def build_from_quantization_config(self, config: OVQuantizationConfigBase) -> OV
             OVModelForFeatureExtraction,
             OVModelForMaskedLM,
             OVModelForVisualCausalLM,
+            OVModelForZeroShotImageClassification,
             OVSentenceTransformer,
         )
         from optimum.intel.openvino.modeling_seq2seq import _OVModelForWhisper
@@ -280,7 +283,9 @@ def build_from_quantization_config(self, config: OVQuantizationConfigBase) -> OV
 
         if isinstance(self.model, OVModelForCausalLM):
             return self._prepare_causal_lm_calibration_data(config)
-        elif isinstance(self.model, (OVModelForVisualCausalLM, _OVModelForWhisper)):
+        elif isinstance(
+            self.model, (OVModelForVisualCausalLM, _OVModelForWhisper, OVModelForZeroShotImageClassification)
+        ):
             if config.processor is None:
                 raise ValueError(
                     "`processor` must be specified in order to run data-aware quantization. Please provide it as a"
@@ -307,6 +312,16 @@ def build_from_quantization_config(self, config: OVQuantizationConfigBase) -> OV
                     trust_remote_code=config.trust_remote_code,
                     streaming=dataset_metadata["streaming"],
                 )
+            elif isinstance(self.model, OVModelForZeroShotImageClassification):
+                dataset_metadata = PREDEFINED_TEXT_IMAGE_ENCODER_DATASETS[config.dataset]
+                return self.build_from_dataset_name(
+                    config,
+                    dataset_metadata["id"],
+                    num_samples=None,
+                    dataset_split=dataset_metadata["split"],
+                    trust_remote_code=config.trust_remote_code,
+                    streaming=dataset_metadata["streaming"],
+                )
             else:
                 raise Exception
         elif is_diffusers_available() and isinstance(self.model, OVDiffusionPipeline):
@@ -330,13 +345,14 @@ def build_from_quantization_config(self, config: OVQuantizationConfigBase) -> OV
             return self.build_from_dataset(config, dataset)
         elif isinstance(self.model, (OVModelForFeatureExtraction, OVSentenceTransformer, OVModelForMaskedLM)):
             if isinstance(config.dataset, str):
+                dataset_metadata = PREDEFINED_LANGUAGE_DATASETS[config.dataset]
                 dataset = self.load_dataset(
-                    PREDEFINED_LANGUAGE_DATASETS[config.dataset]["path"],
+                    dataset_metadata["id"],
                     num_samples=None,
-                    dataset_config_name=PREDEFINED_LANGUAGE_DATASETS[config.dataset]["name"],
-                    dataset_split=PREDEFINED_LANGUAGE_DATASETS[config.dataset]["split"],
+                    dataset_config_name=dataset_metadata["name"],
+                    dataset_split=dataset_metadata["split"],
                     trust_remote_code=config.trust_remote_code,
-                    streaming=PREDEFINED_LANGUAGE_DATASETS[config.dataset]["streaming"],
+                    streaming=dataset_metadata["streaming"],
                 )
             elif isinstance(config.dataset, list) and all(isinstance(it, str) for it in config.dataset):
                 dataset = datasets.Dataset.from_list([{"text": it} for it in config.dataset])
@@ -345,6 +361,8 @@ def build_from_quantization_config(self, config: OVQuantizationConfigBase) -> OV
                     "Please provide dataset as one of the accepted dataset labels or as a list of strings."
                 )
             return self.build_from_dataset(config, dataset)
+        else:
+            raise RuntimeError("Unsupported model type for calibration dataset collection.")
 
     def build_from_dataset_name(
         self,
@@ -449,6 +467,7 @@ def build_from_dataset(
             OVModelForFeatureExtraction,
             OVModelForMaskedLM,
             OVModelForVisualCausalLM,
+            OVModelForZeroShotImageClassification,
             OVSentenceTransformer,
         )
         from optimum.intel.openvino.modeling_decoder import OVBaseDecoderModel
@@ -470,6 +489,7 @@ def build_from_dataset(
                 _OVModelForWhisper,
                 OVModelForFeatureExtraction,
                 OVModelForMaskedLM,
+                OVModelForZeroShotImageClassification,
                 OVSentenceTransformer,
             ),
         ) or (is_diffusers_available() and isinstance(self.model, OVDiffusionPipeline)):
@@ -487,6 +507,8 @@ def build_from_dataset(
                 return self._prepare_diffusion_calibration_data(quantization_config, dataset)
             elif isinstance(self.model, (OVModelForFeatureExtraction, OVSentenceTransformer, OVModelForMaskedLM)):
                 return self._prepare_text_encoder_model_calibration_data(quantization_config, dataset)
+            elif isinstance(self.model, OVModelForZeroShotImageClassification):
+                return self._prepare_text_image_encoder_model_calibration_data(quantization_config, dataset)
             else:
                 raise RuntimeError("Unsupported model type for calibration dataset collection.")
         else:
@@ -878,6 +900,74 @@ def get_tokenizer():
 
         return OVCalibrationDataset({"model": nncf.Dataset(calibration_data)})
 
+    def _prepare_text_image_encoder_model_calibration_data(
+        self,
+        quantization_config: OVQuantizationConfigBase,
+        dataset: "Dataset",
+        seq_len: int = 128,
+    ) -> OVCalibrationDataset:
+        self.model.compile()
+
+        def get_processor():
+            processor = AutoProcessor.from_pretrained(
+                quantization_config.processor, trust_remote_code=quantization_config.trust_remote_code
+            )
+            return processor
+
+        max_position_embeddings = getattr(self.model.config, "max_position_embeddings", None)
+        if max_position_embeddings is not None and max_position_embeddings > 0:
+            seq_len = min(seq_len, max_position_embeddings)
+
+        num_samples = quantization_config.num_samples or 128
+        calibration_data = []
+        try:
+            inference_result_mock = {
+                "logits_per_image": np.empty((1,), np.float32),
+                "logits_per_text": np.empty((1,), np.float32),
+                "text_embeds": np.empty((1,), np.float32),
+                "image_embeds": np.empty((1,), np.float32),
+            }
+
+            self.model.request = InferRequestWrapper(
+                self.model.request,
+                calibration_data,
+                inference_result_mock=inference_result_mock,
+            )
+
+            processor = None
+            pbar = tqdm(total=num_samples, desc="Collecting calibration data")
+            for item in dataset:
+                if "input_ids" in item:
+                    # Assuming that dataset contains already preprocessed text
+                    inputs = self._wrap_sample_as_array(item, add_batch_dim=True)
+                else:
+                    dataset_metadata = PREDEFINED_TEXT_IMAGE_ENCODER_DATASETS[quantization_config.dataset]
+                    try:
+                        response = requests.get(item[dataset_metadata["image_column_name"]], timeout=5)
+                        response.raise_for_status()
+                        image = Image.open(BytesIO(response.content))
+                    except Exception:
+                        continue
+                    processor = processor or get_processor()
+                    inputs = processor(
+                        text=item[dataset_metadata["text_column_name"]],
+                        images=image.convert("RGB"),
+                        return_tensors="pt",
+                        padding=True,
+                    )
+                    if inputs["input_ids"].shape[1] > seq_len:
+                        inputs["input_ids"] = inputs["input_ids"][:, :seq_len]
+
+                self.model(**inputs)
+
+                pbar.update(min(num_samples, len(calibration_data)) - pbar.n)
+                if len(calibration_data) >= num_samples:
+                    break
+        finally:
+            self.model.request = self.model.request.request
+
+        return OVCalibrationDataset({"model": nncf.Dataset(calibration_data)})
+
     @staticmethod
     def _wrap_sample_as_array(
         sample: Dict[str, Any], add_batch_dim: bool = False
diff --git a/optimum/intel/openvino/utils.py b/optimum/intel/openvino/utils.py
@@ -152,8 +152,8 @@
 PREDEFINED_CAUSAL_LANGUAGE_DATASETS = {"wikitext2", "c4", "c4-new", "auto"}
 
 PREDEFINED_LANGUAGE_DATASETS = {
-    "wikitext2": {"path": "wikitext", "name": "wikitext-2-raw-v1", "split": "train", "streaming": False},
-    "c4": {"path": "allenai/c4", "name": "en", "split": "train", "streaming": True},
+    "wikitext2": {"id": "wikitext", "name": "wikitext-2-raw-v1", "split": "train", "streaming": False},
+    "c4": {"id": "allenai/c4", "name": "en", "split": "train", "streaming": True},
 }
 
 PREDEFINED_SD_DATASETS = {
@@ -166,6 +166,16 @@
     "laion/filtered-wit": {"split": "train", "prompt_column_name": "caption", "streaming": True},
 }
 
+PREDEFINED_TEXT_IMAGE_ENCODER_DATASETS = {
+    "conceptual_captions": {
+        "id": "conceptual_captions",
+        "split": "train",
+        "text_column_name": "caption",
+        "image_column_name": "image_url",
+        "streaming": True,
+    },
+}
+
 PREDEFINED_VISUAL_LM_DATASETS = {
     "contextual": {
         "id": "ucla-contextual/contextual_test",
diff --git a/tests/openvino/test_exporters_cli.py b/tests/openvino/test_exporters_cli.py
@@ -383,6 +383,18 @@ class OVCLIExportTestCase(unittest.TestCase):
                 {"int8": 16},
             ],
         ),
+        (
+            "zero-shot-image-classification",
+            "clip",
+            "int8",
+            "--dataset conceptual_captions --num-samples 1",
+            [
+                65,
+            ],
+            [
+                {"int8": 65},
+            ],
+        ),
     ]
 
     TEST_4BIT_CONFIGURATIONS = [
diff --git a/tests/openvino/test_quantization.py b/tests/openvino/test_quantization.py