fix: transformers models lazy-loaded (#2826)

ryyhan · dolfim-ibm · web-flow · commit 3ef45258b7de · 2026-01-05T17:06:47.000+01:00
* fix(#2785): correct type hint for table_structure_options in PdfPipelineOptions Signed-off-by: ryyhan <dayel.rehan@gmail.com> * fix: make VLM dependencies optional and lazy load them Signed-off-by: ryyhan <dayel.rehan@gmail.com> * revert: remove accidental TableStructureOptions change from this branch Signed-off-by: ryyhan <dayel.rehan@gmail.com> * remove import exceptions Signed-off-by: Michele Dolfi <dol@zurich.ibm.com> --------- Signed-off-by: ryyhan <dayel.rehan@gmail.com> Signed-off-by: Michele Dolfi <dol@zurich.ibm.com> Co-authored-by: Michele Dolfi <dol@zurich.ibm.com>
diff --git a/docling/models/code_formula_model.py b/docling/models/code_formula_model.py
@@ -14,7 +14,6 @@
 from docling_core.types.doc.labels import CodeLanguageLabel
 from PIL import Image
 from pydantic import BaseModel
-from transformers import AutoModelForImageTextToText, AutoProcessor
 
 from docling.datamodel.accelerator_options import AcceleratorDevice, AcceleratorOptions
 from docling.datamodel.base_models import ItemAndImageEnrichmentElement
@@ -105,6 +104,8 @@ def __init__(
             else:
                 artifacts_path = artifacts_path / self._model_repo_folder
 
+            from transformers import AutoModelForImageTextToText, AutoProcessor
+
             self._processor = AutoProcessor.from_pretrained(
                 artifacts_path,
             )
diff --git a/docling/models/picture_description_vlm_model.py b/docling/models/picture_description_vlm_model.py
@@ -5,7 +5,6 @@
 from typing import Optional, Type, Union
 
 from PIL import Image
-from transformers import AutoModelForImageTextToText
 
 from docling.datamodel.accelerator_options import AcceleratorOptions
 from docling.datamodel.pipeline_options import (
@@ -56,7 +55,11 @@ def __init__(
 
             try:
                 import torch
-                from transformers import AutoModelForVision2Seq, AutoProcessor
+                from transformers import (
+                    AutoModelForImageTextToText,
+                    AutoModelForVision2Seq,
+                    AutoProcessor,
+                )
             except ImportError:
                 raise ImportError(
                     "transformers >=4.46 is not installed. Please install Docling with the required extras `pip install docling[vlm]`."