[OV] Fix automatic-speech-recognition-with-past quantization from CLI (#1180)

nikita-savelyevv · web-flow · commit 727b6cef4593 · 2025-02-28T10:12:50.000+01:00
* Fix automatic-speech-recognition-with-past quantization from CLI

* Switch test to fp8

* Add explicit error on the wrong type of config
diff --git a/optimum/commands/export/openvino.py b/optimum/commands/export/openvino.py
@@ -429,7 +429,7 @@ def run(self):
                 maybe_convert_tokenizers(library_name, self.args.output, model, task=task)
         elif (
             quantize_with_dataset
-            and (task.startswith("text-generation") or task == "automatic-speech-recognition")
+            and (task.startswith("text-generation") or "automatic-speech-recognition" in task)
             or (task == "image-text-to-text" and quantization_config is not None)
         ):
             if task.startswith("text-generation"):
diff --git a/optimum/intel/openvino/quantization.py b/optimum/intel/openvino/quantization.py
@@ -1003,6 +1003,11 @@ def _weight_only_quantization(
     if isinstance(config, dict):
         config = OVWeightQuantizationConfig.from_dict(quantization_config)
 
+    if not isinstance(config, OVWeightQuantizationConfig):
+        raise ValueError(
+            f"Expected quantization config to be an instance of `OVWeightQuantizationConfig`, but got {type(config)}."
+        )
+
     dataset = None
     if calibration_dataset is not None:
         if is_datasets_available() and isinstance(calibration_dataset, Dataset):
@@ -1036,6 +1041,11 @@ def _full_quantization(
     verify_not_optimized: bool = True,
     **kwargs,
 ):
+    if not isinstance(quantization_config, OVQuantizationConfig):
+        raise ValueError(
+            f"Expected quantization config to be an instance of `OVQuantizationConfig`, but got {type(quantization_config)}."
+        )
+
     if verify_not_optimized:
         _verify_not_optimized(model)
     q_kwargs = copy.deepcopy(kwargs)
diff --git a/optimum/intel/openvino/utils.py b/optimum/intel/openvino/utils.py
@@ -134,6 +134,7 @@
     "open_clip_vision": "OVModelOpenCLIPVisual",
     "open_clip": "OVModelOpenCLIPForZeroShotImageClassification",
     "automatic-speech-recognition": "OVModelForSpeechSeq2Seq",
+    "automatic-speech-recognition-with-past": "OVModelForSpeechSeq2Seq",
 }
 
 
diff --git a/tests/openvino/test_exporters_cli.py b/tests/openvino/test_exporters_cli.py
@@ -193,6 +193,16 @@ class OVCLIExportTestCase(unittest.TestCase):
             if is_transformers_version("<=", "4.36.0")
             else [{"int8": 14}, {"int8": 22}, {"int8": 18}],
         ),
+        (
+            "automatic-speech-recognition-with-past",
+            "whisper",
+            "f8e4m3",
+            "--dataset librispeech --num-samples 1 --smooth-quant-alpha 0.9 --trust-remote-code",
+            [14, 22, 21] if is_transformers_version("<=", "4.36.0") else [14, 22, 25],
+            [{"f8e4m3": 14}, {"f8e4m3": 21}, {"f8e4m3": 17}]
+            if is_transformers_version("<=", "4.36.0")
+            else [{"f8e4m3": 14}, {"f8e4m3": 22}, {"f8e4m3": 18}],
+        ),
         (
             "text-generation",
             "llama",
@@ -670,13 +680,14 @@ def test_exporters_cli_full_quantization(
     ):
         with TemporaryDirectory() as tmpdir:
             subprocess.run(
-                f"optimum-cli export openvino --model {MODEL_NAMES[model_type]} --quant-mode {quant_mode} {option} {tmpdir}",
+                f"optimum-cli export openvino --task {task} --model {MODEL_NAMES[model_type]} "
+                f"--quant-mode {quant_mode} {option} {tmpdir}",
                 shell=True,
                 check=True,
             )
             model = eval(_HEAD_TO_AUTOMODELS[task]).from_pretrained(tmpdir)
 
-            if task == "automatic-speech-recognition":
+            if "automatic-speech-recognition" in task:
                 submodels = [model.encoder, model.decoder]
                 if model.decoder_with_past is not None:
                     submodels.append(model.decoder_with_past)

Original file line number	Diff line number	Diff line change
`@@ -134,6 +134,7 @@`
`134`	`134`	`"open_clip_vision": "OVModelOpenCLIPVisual",`
`135`	`135`	`"open_clip": "OVModelOpenCLIPForZeroShotImageClassification",`
`136`	`136`	`"automatic-speech-recognition": "OVModelForSpeechSeq2Seq",`
	`137`	`+ "automatic-speech-recognition-with-past": "OVModelForSpeechSeq2Seq",`
`137`	`138`	`}`
`138`	`139`
`139`	`140`