fix: enrichment of documents without pages metadata (pptx and xlsx) (#2401)

dolfim-ibm · web-flow · commit 0610d01afae6 · 2025-10-07T18:28:51.000+02:00
fix logic for pptx and xlsx

Signed-off-by: Michele Dolfi &lt;dol@zurich.ibm.com&gt;
diff --git a/docling/models/base_model.py b/docling/models/base_model.py
@@ -173,11 +173,11 @@ def prepare_element(
         assert isinstance(element, DocItem)
 
         # Allow the case of documents without page images but embedded images (e.g. Word and HTML docs)
-        if len(element.prov) == 0 and isinstance(element, PictureItem):
+        if isinstance(element, PictureItem):
             embedded_im = element.get_image(conv_res.document)
             if embedded_im is not None:
                 return ItemAndImageEnrichmentElement(item=element, image=embedded_im)
-            else:
+            elif len(element.prov) == 0:
                 return None
 
         # Crop the image form the page