huggingface · openvino-dev-samples · Aug 21, 2025 · Sep 10, 2025 · Sep 10, 2025 · Sep 23, 2025
diff --git a/docs/source/openvino/models.mdx b/docs/source/openvino/models.mdx
@@ -48,6 +48,7 @@ Here is the list of the supported architectures :
 - Deepseek
 - Deepseek_v2
 - Deepseek_v3
+- DINOv3
 - DistilBert
 - Ernie4.5
 - Electra

diff --git a/optimum/exporters/openvino/model_configs.py b/optimum/exporters/openvino/model_configs.py
@@ -50,6 +50,7 @@
     VaeEncoderOnnxConfig,
     VisionEncoderDecoderOnnxConfig,
     VisionOnnxConfig,
+    ViTOnnxConfig,
     WhisperOnnxConfig,
 )
 from optimum.exporters.onnx.model_patcher import ModelPatcher
@@ -4282,6 +4283,12 @@ class GPT2OpenVINOConfig(GPT2OnnxConfig):
     _MODEL_PATCHER = OVDecoderModelPatcher
 
 
+@register_in_tasks_manager("dinov3_vit", *["feature-extraction"], library_name="transformers")
+@register_in_tasks_manager("dinov3_convnext", *["feature-extraction"], library_name="transformers")
+class DinoV3OpenVINOConfig(CLIPVisionModelOnnxConfig):
+    MIN_TRANSFORMERS_VERSION = "4.56.0"
+
+
 @register_in_tasks_manager(
     "vision-encoder-decoder",
     *[

diff --git a/tests/openvino/test_exporters_cli.py b/tests/openvino/test_exporters_cli.py
@@ -141,6 +141,13 @@ class OVCLIExportTestCase(unittest.TestCase):
                 ("text-generation-with-past", "bitnet"),
             ]
         )
+
+    if is_transformers_version(">=", "4.56"):
+        SUPPORTED_ARCHITECTURES.extend(
+            [
+                ("feature-extraction", "dinov3_vit"),
+            ]
+        )
 
     if is_transformers_version(">=", "4.53.0"):
         SUPPORTED_ARCHITECTURES.extend(
@@ -179,6 +186,7 @@ class OVCLIExportTestCase(unittest.TestCase):
         "zamba2": 2,
         "exaone4": 2,
         "bitnet": 2,
+        "dinov3_vit": 0,
         "granite-moe-hybrid": 2,
     }
 

diff --git a/tests/openvino/test_modeling.py b/tests/openvino/test_modeling.py
@@ -1519,6 +1519,7 @@ def test_compare_to_transformers(self, model_arch):
 class OVModelForCustomTasksIntegrationTest(unittest.TestCase):
     SUPPORTED_ARCHITECTURES_WITH_ATTENTION = ["vit-with-attentions"]
     SUPPORTED_ARCHITECTURES_WITH_HIDDEN_STATES = ["vit-with-hidden-states"]
+    SUPPORTED_ARCHITECTURES_WITH_POOLED_OUTPUT = ["dinov3_vit"]
 
     def _get_sample_image(self):
         url = TEST_IMAGE_URL
@@ -1601,6 +1602,40 @@ def test_compare_output_hidden_states(self, model_arch):
         del ov_model
         gc.collect()
 
+    @parameterized.expand(SUPPORTED_ARCHITECTURES_WITH_POOLED_OUTPUT)
+    def test_compare_output_pooled_output(self, model_arch):
+        model_id = MODEL_NAMES[model_arch]
+
+        image = self._get_sample_image()
+        preprocessor = AutoFeatureExtractor.from_pretrained(model_id)
+        inputs = preprocessor(images=image, return_tensors="pt")
+
+        transformers_model = AutoModelForImageClassification.from_pretrained(model_id)
+        transformers_model.eval()
+        with torch.no_grad():
+            transformers_outputs = transformers_model(**inputs)
+
+        ov_model = OVModelForCustomTasks.from_pretrained(model_id, ov_config=F32_CONFIG, device=OPENVINO_DEVICE)
+        self.assertIsInstance(ov_model.config, PretrainedConfig)
+        for input_type in ["pt", "np"]:
+            inputs = preprocessor(images=image, return_tensors=input_type)
+            ov_outputs = ov_model(**inputs)
+            self.assertIn("last_hidden_state", ov_outputs)
+            self.assertIsInstance(ov_outputs.last_hidden_state, TENSOR_ALIAS_TO_TYPE[input_type])
+            self.assertTrue(torch.allclose(torch.Tensor(ov_outputs.last_hidden_state), transformers_outputs.last_hidden_state, atol=1e-4))
+            self.assertIn("pooler_output", ov_outputs)
+            self.assertTrue(
+                torch.allclose(
+                    torch.Tensor(ov_outputs.pooler_output),
+                    transformers_outputs.pooler_output,
+                    atol=1e-4,
+                ),
+                "Pooler output mismatch",
+            )
+        del transformers_model
+        del ov_model
+        gc.collect()
+
 
 class OVModelForOpenCLIPZeroShortImageClassificationTest(unittest.TestCase):
     OV_MODEL_ID = MODEL_NAMES["open-clip"]

diff --git a/tests/openvino/test_quantization.py b/tests/openvino/test_quantization.py
@@ -68,6 +68,7 @@
     OVSentenceTransformer,
     OVModelForZeroShotImageClassification,
     OVSamModel,
+    OVModelForCustomTasks,
 )
 from optimum.intel.openvino.configuration import (
     OVQuantizationMethod,
@@ -1008,6 +1009,7 @@ class OVWeightCompressionTest(unittest.TestCase):
         (OVStableDiffusionPipeline, "stable-diffusion", False),
         (OVStableDiffusionXLPipeline, "stable-diffusion-xl", False),
         (OVModelOpenCLIPForZeroShotImageClassification, "open-clip", False),
+        (OVModelForCustomTasks, "dinov3_vit", False),
         (OVModelForVisualCausalLM, "llava", False),
         (OVModelForVisualCausalLM, "llava_next_video", False),
         (OVModelForVisualCausalLM, "minicpmv", True),

diff --git a/tests/openvino/utils_tests.py b/tests/openvino/utils_tests.py
@@ -71,6 +71,7 @@
     "deit": "optimum-intel-internal-testing/tiny-random-DeiTModel",
     "convnext": "optimum-intel-internal-testing/tiny-random-convnext",
     "convnextv2": "optimum-intel-internal-testing/tiny-random-ConvNextV2Model",
+    "dinov3_vit": "optimum-intel-internal-testing/tiny-random-dinov-3",
     "distilbert": "optimum-intel-internal-testing/tiny-random-distilbert",
     "distilbert-ov": "optimum-intel-internal-testing/ov-tiny-random-distilbert",
     "donut": "optimum-intel-internal-testing/tiny-doc-qa-vision-encoder-decoder",