fix checking available files if from_onnx=True (#1208)

eaidova · web-flow · commit a20051dbbb7e · 2025-03-27T13:57:07.000+01:00
* fix checking available files if from_onnx=True

* add test

* fix diffusers loading

* restore old export guessing behavior

* Update optimum/intel/openvino/modeling_base.py
diff --git a/optimum/intel/openvino/modeling_base.py b/optimum/intel/openvino/modeling_base.py
@@ -459,7 +459,7 @@ def from_pretrained(
 
             ov_files = _find_files_matching_pattern(
                 model_dir,
-                pattern=r"(.*)?openvino(.*)?\_model(.*)?.xml$",
+                pattern=r"(.*)?openvino(.*)?\_model(.*)?.xml$" if not kwargs.get("from_onnx", False) else "*.onnx",
                 subfolder=subfolder,
                 use_auth_token=token,
                 revision=revision,
diff --git a/tests/openvino/test_modeling.py b/tests/openvino/test_modeling.py
@@ -579,6 +579,38 @@ def test_find_files_matching_pattern_with_quantized_ov_model(self):
             ov_files = _find_files_matching_pattern(local_dir, pattern=pattern, subfolder=subfolder)
             self.assertTrue(len(ov_files) == 1)
 
+    def test_load_from_hub_onnx_model_and_save(self):
+        model_id = "katuni4ka/tiny-random-LlamaForCausalLM-onnx"
+        tokenizer = AutoTokenizer.from_pretrained(model_id)
+        tokens = tokenizer("This is a sample input", return_tensors="pt")
+        loaded_model = OVModelForCausalLM.from_pretrained(model_id, from_onnx=True)
+        self.assertIsInstance(loaded_model.config, PretrainedConfig)
+        # Test that PERFORMANCE_HINT is set to LATENCY by default
+        self.assertEqual(loaded_model.ov_config.get("PERFORMANCE_HINT"), "LATENCY")
+        self.assertEqual(loaded_model.request.get_compiled_model().get_property("PERFORMANCE_HINT"), "LATENCY")
+        loaded_model_outputs = loaded_model(**tokens)
+
+        with TemporaryDirectory() as tmpdirname:
+            loaded_model.save_pretrained(tmpdirname)
+            folder_contents = os.listdir(tmpdirname)
+            self.assertTrue(OV_XML_FILE_NAME in folder_contents)
+            self.assertTrue(OV_XML_FILE_NAME.replace(".xml", ".bin") in folder_contents)
+            model = OVModelForCausalLM.from_pretrained(tmpdirname)
+            self.assertEqual(model.use_cache, loaded_model.use_cache)
+
+            compile_only_model = OVModelForCausalLM.from_pretrained(tmpdirname, compile_only=True)
+            self.assertIsInstance(compile_only_model.model, ov.runtime.CompiledModel)
+            self.assertIsInstance(compile_only_model.request, ov.runtime.InferRequest)
+            outputs = compile_only_model(**tokens)
+            self.assertTrue(torch.equal(loaded_model_outputs.logits, outputs.logits))
+            del compile_only_model
+
+        outputs = model(**tokens)
+        self.assertTrue(torch.equal(loaded_model_outputs.logits, outputs.logits))
+        del loaded_model
+        del model
+        gc.collect()
+
 
 class PipelineTest(unittest.TestCase):
     def test_load_model_from_hub(self):