fix: standardization of page_no to 1-based indexing (#2654)

ryyhan · ryyhan · commit 59191a24def3 · 2026-01-16T21:23:02.000+05:30
Signed-off-by: ryyhan &lt;dayel.rehan@gmail.com&gt;
diff --git a/docling/models/base_model.py b/docling/models/base_model.py
@@ -213,7 +213,7 @@ def prepare_element(
             coord_origin=bbox.coord_origin,
         )
 
-        page_ix = element_prov.page_no - conv_res.pages[0].page_no - 1
+        page_ix = element_prov.page_no - 1
         cropped_image = conv_res.pages[page_ix].get_image(
             scale=self.images_scale, cropbox=expanded_bbox
         )
diff --git a/docling/models/stages/reading_order/readingorder_model.py b/docling/models/stages/reading_order/readingorder_model.py
@@ -81,7 +81,7 @@ def _add_child_elements(
         for child in element.cluster.children:
             c_label = child.label
             c_bbox = child.bbox.to_bottom_left_origin(
-                doc.pages[element.page_no + 1].size.height
+                doc.pages[element.page_no].size.height
             )
             c_text = " ".join(
                 [
@@ -92,7 +92,7 @@ def _add_child_elements(
             )
 
             c_prov = ProvenanceItem(
-                page_no=element.page_no + 1, charspan=(0, len(c_text)), bbox=c_bbox
+                page_no=element.page_no, charspan=(0, len(c_text)), bbox=c_bbox
             )
             if c_label == DocItemLabel.LIST_ITEM:
                 # TODO: Infer if this is a numbered or a bullet list item
@@ -142,7 +142,7 @@ def _readingorder_elements_to_docling_doc(
         out_doc: DoclingDocument = DoclingDocument(name=doc_name, origin=origin)
 
         for page in conv_res.pages:
-            page_no = page.page_no + 1
+            page_no = page.page_no
             size = page.size
 
             assert size is not None, "Page size is not initialized."
@@ -174,7 +174,7 @@ def _readingorder_elements_to_docling_doc(
                 if element.label == DocItemLabel.CODE:
                     cap_text = element.text
                     prov = ProvenanceItem(
-                        page_no=element.page_no + 1,
+                        page_no=element.page_no,
                         charspan=(0, len(cap_text)),
                         bbox=element.cluster.bbox.to_bottom_left_origin(page_height),
                     )
@@ -230,7 +230,7 @@ def _readingorder_elements_to_docling_doc(
                     )
 
                 prov = ProvenanceItem(
-                    page_no=element.page_no + 1,
+                    page_no=element.page_no,
                     charspan=(0, 0),
                     bbox=element.cluster.bbox.to_bottom_left_origin(page_height),
                 )
@@ -286,7 +286,7 @@ def _readingorder_elements_to_docling_doc(
             elif isinstance(element, FigureElement):
                 cap_text = ""
                 prov = ProvenanceItem(
-                    page_no=element.page_no + 1,
+                    page_no=element.page_no,
                     charspan=(0, len(cap_text)),
                     bbox=element.cluster.bbox.to_bottom_left_origin(page_height),
                 )
@@ -330,7 +330,7 @@ def _add_caption_or_footnote(self, elem, out_doc, parent, page_height):
         assert isinstance(elem, TextElement)
         text = elem.text
         prov = ProvenanceItem(
-            page_no=elem.page_no + 1,
+            page_no=elem.page_no,
             charspan=(0, len(text)),
             bbox=elem.cluster.bbox.to_bottom_left_origin(page_height),
         )
@@ -343,7 +343,7 @@ def _handle_text_element(self, element, out_doc, current_list, page_height):
         cap_text = element.text
 
         prov = ProvenanceItem(
-            page_no=element.page_no + 1,
+            page_no=element.page_no,
             charspan=(0, len(cap_text)),
             bbox=element.cluster.bbox.to_bottom_left_origin(page_height),
         )
@@ -391,7 +391,7 @@ def _merge_elements(self, element, merged_elem, new_item, page_height):
             "Labels of merged elements must match."
         )
         prov = ProvenanceItem(
-            page_no=merged_elem.page_no + 1,
+            page_no=merged_elem.page_no,
             charspan=(
                 len(new_item.text) + 1,
                 len(new_item.text) + 1 + len(merged_elem.text),
diff --git a/docling/pipeline/base_pipeline.py b/docling/pipeline/base_pipeline.py
@@ -216,7 +216,7 @@ def _build_document(self, conv_res: ConversionResult) -> ConversionResult:
             for i in range(conv_res.input.page_count):
                 start_page, end_page = conv_res.input.limits.page_range
                 if (start_page - 1) <= i <= (end_page - 1):
-                    conv_res.pages.append(Page(page_no=i))
+                    conv_res.pages.append(Page(page_no=i + 1))
 
             try:
                 total_pages_processed = 0
diff --git a/docling/pipeline/legacy_standard_pdf_pipeline.py b/docling/pipeline/legacy_standard_pdf_pipeline.py
@@ -145,7 +145,7 @@ def get_ocr_model(self, artifacts_path: Optional[Path] = None) -> BaseOcrModel:
 
     def initialize_page(self, conv_res: ConversionResult, page: Page) -> Page:
         with TimeRecorder(conv_res, "page_init"):
-            page._backend = conv_res.input._backend.load_page(page.page_no)  # type: ignore
+            page._backend = conv_res.input._backend.load_page(page.page_no - 1)  # type: ignore
             if page._backend is not None and page._backend.is_valid():
                 page.size = page._backend.get_size()
 
@@ -176,7 +176,7 @@ def _assemble_document(self, conv_res: ConversionResult) -> ConversionResult:
             if self.pipeline_options.generate_page_images:
                 for page in conv_res.pages:
                     assert page.image is not None
-                    page_no = page.page_no + 1
+                    page_no = page.page_no
                     conv_res.document.pages[page_no].image = ImageRef.from_pil(
                         page.image, dpi=int(72 * self.pipeline_options.images_scale)
                     )
diff --git a/docling/pipeline/standard_pdf_pipeline.py b/docling/pipeline/standard_pdf_pipeline.py
@@ -372,7 +372,7 @@ def _process_batch(self, batch: Sequence[ThreadedItem]) -> list[ThreadedItem]:
                         assert isinstance(backend, PdfDocumentBackend), (
                             "Threaded pipeline only supports PdfDocumentBackend."
                         )
-                        page_backend = backend.load_page(page.page_no)
+                        page_backend = backend.load_page(page.page_no - 1)
                         page._backend = page_backend
                         if page_backend.is_valid():
                             page.size = page_backend.get_size()
@@ -603,7 +603,7 @@ def _build_document(self, conv_res: ConversionResult) -> ConversionResult:
         pages: list[Page] = []
         for i in range(conv_res.input.page_count):
             if start_page - 1 <= i <= end_page - 1:
-                page = Page(page_no=i)
+                page = Page(page_no=i + 1)
                 conv_res.pages.append(page)
                 pages.append(page)
 
@@ -717,7 +717,7 @@ def _integrate_results(
         ]
         # Add error details from failed pages
         for page_no, error in proc.failed_pages:
-            page_label = f"Page {page_no + 1}" if page_no >= 0 else "Unknown page"
+            page_label = f"Page {page_no}" if page_no > 0 else "Unknown page"
             error_msg = str(error) if error else ""
             error_item = ErrorItem(
                 component_type=DoclingComponentType.PIPELINE,
@@ -762,7 +762,7 @@ def _assemble_document(self, conv_res: ConversionResult) -> ConversionResult:
             if self.pipeline_options.generate_page_images:
                 for page in conv_res.pages:
                     assert page.image is not None
-                    page_no = page.page_no + 1
+                    page_no = page.page_no
                     conv_res.document.pages[page_no].image = ImageRef.from_pil(
                         page.image, dpi=int(72 * self.pipeline_options.images_scale)
                     )

Original file line number	Diff line number	Diff line change
`@@ -213,7 +213,7 @@ def prepare_element(`
`213`	`213`	`coord_origin=bbox.coord_origin,`
`214`	`214`	`)`
`215`	`215`
`216`		`- page_ix = element_prov.page_no - conv_res.pages[0].page_no - 1`
	`216`	`+ page_ix = element_prov.page_no - 1`
`217`	`217`	`cropped_image = conv_res.pages[page_ix].get_image(`
`218`	`218`	`scale=self.images_scale, cropbox=expanded_bbox`
`219`	`219`	`)`