docling-project
diff --git a/‎docling/cli/main.py‎
Lines changed: 29 additions & 0 deletions b/‎docling/cli/main.py‎
Lines changed: 29 additions & 0 deletions
diff --git a/‎docling/datamodel/pipeline_options.py‎
Lines changed: 12 additions & 9 deletions b/‎docling/datamodel/pipeline_options.py‎
Lines changed: 12 additions & 9 deletions
diff --git a/‎docling/models/base_model.py‎
Lines changed: 27 additions & 2 deletions b/‎docling/models/base_model.py‎
Lines changed: 27 additions & 2 deletions
diff --git a/‎docling/pipeline/asr_pipeline.py‎
Lines changed: 1 addition & 13 deletions b/‎docling/pipeline/asr_pipeline.py‎
Lines changed: 1 addition & 13 deletions
diff --git a/‎docling/pipeline/base_extraction_pipeline.py‎
Lines changed: 17 additions & 3 deletions b/‎docling/pipeline/base_extraction_pipeline.py‎
Lines changed: 17 additions & 3 deletions
diff --git a/‎docling/pipeline/base_pipeline.py‎
Lines changed: 75 additions & 9 deletions b/‎docling/pipeline/base_pipeline.py‎
Lines changed: 75 additions & 9 deletions
diff --git a/‎docling/pipeline/extraction_vlm_pipeline.py‎
Lines changed: 6 additions & 16 deletions b/‎docling/pipeline/extraction_vlm_pipeline.py‎
Lines changed: 6 additions & 16 deletions
@@ -48,6 +48,7 @@
 from docling.datamodel.document import ConversionResult
 from docling.datamodel.pipeline_options import (
     AsrPipelineOptions,
+    ConvertPipelineOptions,
     EasyOcrOptions,
     OcrOptions,
     PaginatedPipelineOptions,
@@ -71,8 +72,13 @@
 from docling.document_converter import (
     AudioFormatOption,
     DocumentConverter,
+    ExcelFormatOption,
     FormatOption,
+    HTMLFormatOption,
+    MarkdownFormatOption,
     PdfFormatOption,
+    PowerpointFormatOption,
+    WordFormatOption,
 )
 from docling.models.factories import get_ocr_factory
 from docling.pipeline.asr_pipeline import AsrPipeline
@@ -626,10 +632,33 @@ def convert(  # noqa: C901
                 backend=MetsGbsDocumentBackend,
             )
 
+            # SimplePipeline options
+            simple_format_option = ConvertPipelineOptions(
+                do_picture_description=enrich_picture_description,
+                do_picture_classification=enrich_picture_classes,
+            )
+            if artifacts_path is not None:
+                simple_format_option.artifacts_path = artifacts_path
+
             format_options = {
                 InputFormat.PDF: pdf_format_option,
                 InputFormat.IMAGE: pdf_format_option,
                 InputFormat.METS_GBS: mets_gbs_format_option,
+                InputFormat.DOCX: WordFormatOption(
+                    pipeline_options=simple_format_option
+                ),
+                InputFormat.PPTX: PowerpointFormatOption(
+                    pipeline_options=simple_format_option
+                ),
+                InputFormat.XLSX: ExcelFormatOption(
+                    pipeline_options=simple_format_option
+                ),
+                InputFormat.HTML: HTMLFormatOption(
+                    pipeline_options=simple_format_option
+                ),
+                InputFormat.MD: MarkdownFormatOption(
+                    pipeline_options=simple_format_option
+                ),
             }
 
         elif pipeline == ProcessingPipeline.VLM:
 
@@ -259,11 +259,21 @@ class PipelineOptions(BaseOptions):
     accelerator_options: AcceleratorOptions = AcceleratorOptions()
     enable_remote_services: bool = False
     allow_external_plugins: bool = False
+    artifacts_path: Optional[Union[Path, str]] = None
 
 
-class PaginatedPipelineOptions(PipelineOptions):
-    artifacts_path: Optional[Union[Path, str]] = None
+class ConvertPipelineOptions(PipelineOptions):
+    """Base convert pipeline options."""
+
+    do_picture_classification: bool = False  # True: classify pictures in documents
+
+    do_picture_description: bool = False  # True: run describe pictures in documents
+    picture_description_options: PictureDescriptionBaseOptions = (
+        smolvlm_picture_description
+    )
 
+
+class PaginatedPipelineOptions(ConvertPipelineOptions):
     images_scale: float = 1.0
     generate_page_images: bool = False
     generate_picture_images: bool = False
@@ -295,13 +305,11 @@ class LayoutOptions(BaseModel):
 
 class AsrPipelineOptions(PipelineOptions):
     asr_options: Union[InlineAsrOptions] = asr_model_specs.WHISPER_TINY
-    artifacts_path: Optional[Union[Path, str]] = None
 
 
 class VlmExtractionPipelineOptions(PipelineOptions):
     """Options for extraction pipeline."""
 
-    artifacts_path: Optional[Union[Path, str]] = None
     vlm_options: Union[InlineVlmOptions] = NU_EXTRACT_2B_TRANSFORMERS
 
 
@@ -312,18 +320,13 @@ class PdfPipelineOptions(PaginatedPipelineOptions):
     do_ocr: bool = True  # True: perform OCR, replace programmatic PDF text
     do_code_enrichment: bool = False  # True: perform code OCR
     do_formula_enrichment: bool = False  # True: perform formula OCR, return Latex code
-    do_picture_classification: bool = False  # True: classify pictures in documents
-    do_picture_description: bool = False  # True: run describe pictures in documents
     force_backend_text: bool = (
         False  # (To be used with vlms, or other generative models)
     )
     # If True, text from backend will be used instead of generated text
 
     table_structure_options: TableStructureOptions = TableStructureOptions()
     ocr_options: OcrOptions = EasyOcrOptions()
-    picture_description_options: PictureDescriptionBaseOptions = (
-        smolvlm_picture_description
-    )
     layout_options: LayoutOptions = LayoutOptions()
 
     images_scale: float = 1.0
 
@@ -4,7 +4,13 @@
 from typing import Any, Generic, Optional, Protocol, Type, Union
 
 import numpy as np
-from docling_core.types.doc import BoundingBox, DocItem, DoclingDocument, NodeItem
+from docling_core.types.doc import (
+    BoundingBox,
+    DocItem,
+    DoclingDocument,
+    NodeItem,
+    PictureItem,
+)
 from PIL.Image import Image
 from typing_extensions import TypeVar
 
@@ -164,8 +170,17 @@ def prepare_element(
             return None
 
         assert isinstance(element, DocItem)
-        element_prov = element.prov[0]
 
+        # Allow the case of documents without page images but embedded images (e.g. Word and HTML docs)
+        if len(element.prov) == 0 and isinstance(element, PictureItem):
+            embedded_im = element.get_image(conv_res.document)
+            if embedded_im is not None:
+                return ItemAndImageEnrichmentElement(item=element, image=embedded_im)
+            else:
+                return None
+
+        # Crop the image form the page
+        element_prov = element.prov[0]
         bbox = element_prov.bbox
         width = bbox.r - bbox.l
         height = bbox.t - bbox.b
@@ -183,4 +198,14 @@ def prepare_element(
         cropped_image = conv_res.pages[page_ix].get_image(
             scale=self.images_scale, cropbox=expanded_bbox
         )
+
+        # Allow for images being embedded without the page backend or page images
+        if cropped_image is None and isinstance(element, PictureItem):
+            embedded_im = element.get_image(conv_res.document)
+            if embedded_im is not None:
+                return ItemAndImageEnrichmentElement(item=element, image=embedded_im)
+            else:
+                return None
+
+        # Return the proper cropped image
         return ItemAndImageEnrichmentElement(item=element, image=cropped_image)
@@ -208,25 +208,13 @@ def __init__(self, pipeline_options: AsrPipelineOptions):
 
         self.pipeline_options: AsrPipelineOptions = pipeline_options
 
-        artifacts_path: Optional[Path] = None
-        if pipeline_options.artifacts_path is not None:
-            artifacts_path = Path(pipeline_options.artifacts_path).expanduser()
-        elif settings.artifacts_path is not None:
-            artifacts_path = Path(settings.artifacts_path).expanduser()
-
-        if artifacts_path is not None and not artifacts_path.is_dir():
-            raise RuntimeError(
-                f"The value of {artifacts_path=} is not valid. "
-                "When defined, it must point to a folder containing all models required by the pipeline."
-            )
-
         if isinstance(self.pipeline_options.asr_options, InlineAsrNativeWhisperOptions):
             asr_options: InlineAsrNativeWhisperOptions = (
                 self.pipeline_options.asr_options
             )
             self._model = _NativeWhisperModel(
                 enabled=True,  # must be always enabled for this pipeline to make sense.
-                artifacts_path=artifacts_path,
+                artifacts_path=self.artifacts_path,
                 accelerator_options=pipeline_options.accelerator_options,
                 asr_options=asr_options,
             )
 
@@ -1,19 +1,33 @@
 import logging
 from abc import ABC, abstractmethod
+from pathlib import Path
 from typing import Optional
 
 from docling.datamodel.base_models import ConversionStatus, ErrorItem
 from docling.datamodel.document import InputDocument
 from docling.datamodel.extraction import ExtractionResult, ExtractionTemplateType
-from docling.datamodel.pipeline_options import BaseOptions
+from docling.datamodel.pipeline_options import BaseOptions, PipelineOptions
+from docling.datamodel.settings import settings
 
 _log = logging.getLogger(__name__)
 
 
 class BaseExtractionPipeline(ABC):
-    def __init__(self, pipeline_options: BaseOptions):
+    def __init__(self, pipeline_options: PipelineOptions):
         self.pipeline_options = pipeline_options
 
+        self.artifacts_path: Optional[Path] = None
+        if pipeline_options.artifacts_path is not None:
+            self.artifacts_path = Path(pipeline_options.artifacts_path).expanduser()
+        elif settings.artifacts_path is not None:
+            self.artifacts_path = Path(settings.artifacts_path).expanduser()
+
+        if self.artifacts_path is not None and not self.artifacts_path.is_dir():
+            raise RuntimeError(
+                f"The value of {self.artifacts_path=} is not valid. "
+                "When defined, it must point to a folder containing all models required by the pipeline."
+            )
+
     def execute(
         self,
         in_doc: InputDocument,
@@ -54,5 +68,5 @@ def _determine_status(self, ext_res: ExtractionResult) -> ConversionStatus:
 
     @classmethod
     @abstractmethod
-    def get_default_options(cls) -> BaseOptions:
+    def get_default_options(cls) -> PipelineOptions:
         pass
@@ -4,7 +4,8 @@
 import traceback
 from abc import ABC, abstractmethod
 from collections.abc import Iterable
-from typing import Any, Callable, List
+from pathlib import Path
+from typing import Any, Callable, List, Optional
 
 from docling_core.types.doc import NodeItem
 
@@ -20,9 +21,19 @@
     Page,
 )
 from docling.datamodel.document import ConversionResult, InputDocument
-from docling.datamodel.pipeline_options import PdfPipelineOptions, PipelineOptions
+from docling.datamodel.pipeline_options import (
+    ConvertPipelineOptions,
+    PdfPipelineOptions,
+    PipelineOptions,
+)
 from docling.datamodel.settings import settings
 from docling.models.base_model import GenericEnrichmentModel
+from docling.models.document_picture_classifier import (
+    DocumentPictureClassifier,
+    DocumentPictureClassifierOptions,
+)
+from docling.models.factories import get_picture_description_factory
+from docling.models.picture_description_base_model import PictureDescriptionBaseModel
 from docling.utils.profiling import ProfilingScope, TimeRecorder
 from docling.utils.utils import chunkify
 
@@ -36,6 +47,18 @@ def __init__(self, pipeline_options: PipelineOptions):
         self.build_pipe: List[Callable] = []
         self.enrichment_pipe: List[GenericEnrichmentModel[Any]] = []
 
+        self.artifacts_path: Optional[Path] = None
+        if pipeline_options.artifacts_path is not None:
+            self.artifacts_path = Path(pipeline_options.artifacts_path).expanduser()
+        elif settings.artifacts_path is not None:
+            self.artifacts_path = Path(settings.artifacts_path).expanduser()
+
+        if self.artifacts_path is not None and not self.artifacts_path.is_dir():
+            raise RuntimeError(
+                f"The value of {self.artifacts_path=} is not valid. "
+                "When defined, it must point to a folder containing all models required by the pipeline."
+            )
+
     def execute(self, in_doc: InputDocument, raises_on_error: bool) -> ConversionResult:
         conv_res = ConversionResult(input=in_doc)
 
@@ -108,15 +131,58 @@ def get_default_options(cls) -> PipelineOptions:
     def is_backend_supported(cls, backend: AbstractDocumentBackend):
         pass
 
-    # def _apply_on_elements(self, element_batch: Iterable[NodeItem]) -> Iterable[Any]:
-    #    for model in self.build_pipe:
-    #        element_batch = model(element_batch)
-    #
-    #    yield from element_batch
 
+class ConvertPipeline(BasePipeline):
+    def __init__(self, pipeline_options: ConvertPipelineOptions):
+        super().__init__(pipeline_options)
+        self.pipeline_options: ConvertPipelineOptions
 
-class PaginatedPipeline(BasePipeline):  # TODO this is a bad name.
-    def __init__(self, pipeline_options: PipelineOptions):
+        # ------ Common enrichment models working on all backends
+
+        # Picture description model
+        if (
+            picture_description_model := self._get_picture_description_model(
+                artifacts_path=self.artifacts_path
+            )
+        ) is None:
+            raise RuntimeError(
+                f"The specified picture description kind is not supported: {pipeline_options.picture_description_options.kind}."
+            )
+
+        self.enrichment_pipe = [
+            # Document Picture Classifier
+            DocumentPictureClassifier(
+                enabled=pipeline_options.do_picture_classification,
+                artifacts_path=self.artifacts_path,
+                options=DocumentPictureClassifierOptions(),
+                accelerator_options=pipeline_options.accelerator_options,
+            ),
+            # Document Picture description
+            picture_description_model,
+        ]
+
+    def _get_picture_description_model(
+        self, artifacts_path: Optional[Path] = None
+    ) -> Optional[PictureDescriptionBaseModel]:
+        factory = get_picture_description_factory(
+            allow_external_plugins=self.pipeline_options.allow_external_plugins
+        )
+        return factory.create_instance(
+            options=self.pipeline_options.picture_description_options,
+            enabled=self.pipeline_options.do_picture_description,
+            enable_remote_services=self.pipeline_options.enable_remote_services,
+            artifacts_path=artifacts_path,
+            accelerator_options=self.pipeline_options.accelerator_options,
+        )
+
+    @classmethod
+    @abstractmethod
+    def get_default_options(cls) -> ConvertPipelineOptions:
+        pass
+
+
+class PaginatedPipeline(ConvertPipeline):  # TODO this is a bad name.
+    def __init__(self, pipeline_options: ConvertPipelineOptions):
         super().__init__(pipeline_options)
         self.keep_backend = False
 
 
@@ -1,7 +1,6 @@
 import inspect
 import json
 import logging
-from pathlib import Path
 from typing import Optional
 
 from PIL.Image import Image
@@ -16,7 +15,10 @@
     ExtractionResult,
     ExtractionTemplateType,
 )
-from docling.datamodel.pipeline_options import BaseOptions, VlmExtractionPipelineOptions
+from docling.datamodel.pipeline_options import (
+    PipelineOptions,
+    VlmExtractionPipelineOptions,
+)
 from docling.datamodel.settings import settings
 from docling.models.vlm_models_inline.nuextract_transformers_model import (
     NuExtractTransformersModel,
@@ -35,22 +37,10 @@ def __init__(self, pipeline_options: VlmExtractionPipelineOptions):
         self.accelerator_options = pipeline_options.accelerator_options
         self.pipeline_options: VlmExtractionPipelineOptions
 
-        artifacts_path: Optional[Path] = None
-        if pipeline_options.artifacts_path is not None:
-            artifacts_path = Path(pipeline_options.artifacts_path).expanduser()
-        elif settings.artifacts_path is not None:
-            artifacts_path = Path(settings.artifacts_path).expanduser()
-
-        if artifacts_path is not None and not artifacts_path.is_dir():
-            raise RuntimeError(
-                f"The value of {artifacts_path=} is not valid. "
-                "When defined, it must point to a folder containing all models required by the pipeline."
-            )
-
         # Create VLM model instance
         self.vlm_model = NuExtractTransformersModel(
             enabled=True,
-            artifacts_path=artifacts_path,  # Will download automatically
+            artifacts_path=self.artifacts_path,  # Will download automatically
             accelerator_options=self.accelerator_options,
             vlm_options=pipeline_options.vlm_options,
         )
@@ -203,5 +193,5 @@ class ExtractionTemplateFactory(ModelFactory[template]):  # type: ignore
             raise ValueError(f"Unsupported template type: {type(template)}")
 
     @classmethod
-    def get_default_options(cls) -> BaseOptions:
+    def get_default_options(cls) -> PipelineOptions:
         return VlmExtractionPipelineOptions()