docling-project
diff --git a/‎docling_core/transforms/serializer/doctags.py‎
Lines changed: 53 additions & 6 deletions b/‎docling_core/transforms/serializer/doctags.py‎
Lines changed: 53 additions & 6 deletions
diff --git a/‎docling_core/types/doc/document.py‎
Lines changed: 76 additions & 33 deletions b/‎docling_core/types/doc/document.py‎
Lines changed: 76 additions & 33 deletions
@@ -18,12 +18,14 @@
     BaseTableSerializer,
     BaseTextSerializer,
     SerializationResult,
+    Span,
 )
 from docling_core.transforms.serializer.common import (
     CommonParams,
     DocSerializer,
     create_ser_result,
 )
+from docling_core.types.doc.base import BoundingBox
 from docling_core.types.doc.document import (
     CodeItem,
     DocItem,
@@ -39,6 +41,7 @@
     PictureItem,
     PictureMoleculeData,
     PictureTabularChartData,
+    ProvenanceItem,
     TableItem,
     TextItem,
     UnorderedList,
@@ -415,6 +418,39 @@ def serialize(
 class DocTagsInlineSerializer(BaseInlineSerializer):
     """DocTags-specific inline group serializer."""
 
+    def _get_inline_location_tags(
+        self, doc: DoclingDocument, item: InlineGroup, params: DocTagsParams
+    ) -> SerializationResult:
+
+        prov: Optional[ProvenanceItem] = None
+        boxes: list[BoundingBox] = []
+        doc_items: list[DocItem] = []
+        for it, _ in doc.iterate_items(root=item):
+            if isinstance(it, DocItem):
+                for prov in it.prov:
+                    boxes.append(prov.bbox)
+                    doc_items.append(it)
+        if prov is None:
+            return create_ser_result()
+
+        bbox = BoundingBox.enclosing_bbox(boxes=boxes)
+
+        # using last seen prov as reference for page dims
+        page_w, page_h = doc.pages[prov.page_no].size.as_tuple()
+
+        loc_str = DocumentToken.get_location(
+            bbox=bbox.to_top_left_origin(page_h).as_tuple(),
+            page_w=page_w,
+            page_h=page_h,
+            xsize=params.xsize,
+            ysize=params.ysize,
+        )
+
+        return SerializationResult(
+            text=loc_str,
+            spans=[Span(item=it) for it in doc_items],
+        )
+
     @override
     def serialize(
         self,
@@ -429,12 +465,23 @@ def serialize(
         """Serializes the passed item."""
         my_visited = visited if visited is not None else set()
         params = DocTagsParams(**kwargs)
-        parts = doc_serializer.get_parts(
-            item=item,
-            list_level=list_level,
-            is_inline_scope=True,
-            visited=my_visited,
-            **kwargs,
+        parts: List[SerializationResult] = []
+        if params.add_location:
+            inline_loc_tags_ser_res = self._get_inline_location_tags(
+                doc=doc,
+                item=item,
+                params=params,
+            )
+            parts.append(inline_loc_tags_ser_res)
+            params.add_location = False  # suppress children location serialization
+        parts.extend(
+            doc_serializer.get_parts(
+                item=item,
+                list_level=list_level,
+                is_inline_scope=True,
+                visited=my_visited,
+                **{**kwargs, **params.model_dump()},
+            )
         )
         wrap_tag = DocumentToken.INLINE.value
         delim = _get_delim(params=params)
 
@@ -3649,6 +3649,52 @@ def parse_key_value_item(
 
             return (GraphData(cells=cells, links=links), overall_prov)
 
+        def _add_text(
+            full_chunk: str,
+            bbox: Optional[BoundingBox],
+            pg_width: int,
+            pg_height: int,
+            page_no: int,
+            tag_name: str,
+            doc_label: DocItemLabel,
+            doc: DoclingDocument,
+            parent: Optional[NodeItem],
+        ):
+            # For everything else, treat as text
+            text_content = extract_inner_text(full_chunk)
+            element_prov = (
+                ProvenanceItem(
+                    bbox=bbox.resize_by_scale(pg_width, pg_height),
+                    charspan=(0, len(text_content)),
+                    page_no=page_no,
+                )
+                if bbox
+                else None
+            )
+
+            content_layer = ContentLayer.BODY
+            if tag_name in [DocItemLabel.PAGE_HEADER, DocItemLabel.PAGE_FOOTER]:
+                content_layer = ContentLayer.FURNITURE
+
+            if doc_label == DocItemLabel.SECTION_HEADER:
+                # Extract level from tag_name (e.g. "section_level_header_1" -> 1)
+                level = int(tag_name.split("_")[-1])
+                doc.add_heading(
+                    text=text_content,
+                    level=level,
+                    prov=element_prov,
+                    parent=parent,
+                    content_layer=content_layer,
+                )
+            else:
+                doc.add_text(
+                    label=doc_label,
+                    text=text_content,
+                    prov=element_prov,
+                    parent=parent,
+                    content_layer=content_layer,
+                )
+
         # doc = DoclingDocument(name="Document")
         for pg_idx, doctag_page in enumerate(doctag_document.pages):
             page_doctags = doctag_page.tokens
@@ -3683,7 +3729,7 @@ def parse_key_value_item(
             tag_pattern = (
                 rf"<(?P<tag>{DocItemLabel.TITLE}|{DocItemLabel.DOCUMENT_INDEX}|"
                 rf"{DocItemLabel.CHECKBOX_UNSELECTED}|{DocItemLabel.CHECKBOX_SELECTED}|"
-                rf"{DocItemLabel.TEXT}|{DocItemLabel.PAGE_HEADER}|"
+                rf"{DocItemLabel.TEXT}|{DocItemLabel.PAGE_HEADER}|{GroupLabel.INLINE}|"
                 rf"{DocItemLabel.PAGE_FOOTER}|{DocItemLabel.FORMULA}|"
                 rf"{DocItemLabel.CAPTION}|{DocItemLabel.PICTURE}|"
                 rf"{DocItemLabel.FOOTNOTE}|{DocItemLabel.CODE}|"
@@ -3708,7 +3754,7 @@ def parse_key_value_item(
                     # no closing tag; only the existence of the item is recovered
                     full_chunk = f"<{tag_name}></{tag_name}>"
 
-                doc_label = tag_to_doclabel.get(tag_name, DocItemLabel.PARAGRAPH)
+                doc_label = tag_to_doclabel.get(tag_name, DocItemLabel.TEXT)
 
                 if tag_name == DocumentToken.OTSL.value:
                     table_data = parse_table_content(full_chunk)
@@ -3731,6 +3777,24 @@ def parse_key_value_item(
                     else:
                         doc.add_table(data=table_data, caption=caption)
 
+                elif tag_name == GroupLabel.INLINE:
+                    inline_group = doc.add_inline_group()
+                    content = match.group("content")
+                    common_bbox = extract_bounding_box(content)
+                    for item_match in pattern.finditer(content):
+                        item_tag = item_match.group("tag")
+                        _add_text(
+                            full_chunk=item_match.group(0),
+                            bbox=common_bbox,
+                            pg_width=pg_width,
+                            pg_height=pg_height,
+                            page_no=page_no,
+                            tag_name=item_tag,
+                            doc_label=tag_to_doclabel.get(item_tag, DocItemLabel.TEXT),
+                            doc=doc,
+                            parent=inline_group,
+                        )
+
                 elif tag_name in [DocItemLabel.PICTURE, DocItemLabel.CHART]:
                     caption, caption_bbox = extract_caption(full_chunk)
                     table_data = None
@@ -3880,38 +3944,17 @@ def parse_key_value_item(
                         )
                 else:
                     # For everything else, treat as text
-                    text_content = extract_inner_text(full_chunk)
-                    element_prov = (
-                        ProvenanceItem(
-                            bbox=bbox.resize_by_scale(pg_width, pg_height),
-                            charspan=(0, len(text_content)),
-                            page_no=page_no,
-                        )
-                        if bbox
-                        else None
+                    _add_text(
+                        full_chunk=full_chunk,
+                        bbox=bbox,
+                        pg_width=pg_width,
+                        pg_height=pg_height,
+                        page_no=page_no,
+                        tag_name=tag_name,
+                        doc_label=doc_label,
+                        doc=doc,
+                        parent=None,
                     )
-
-                    content_layer = ContentLayer.BODY
-                    if tag_name in [DocItemLabel.PAGE_HEADER, DocItemLabel.PAGE_FOOTER]:
-                        content_layer = ContentLayer.FURNITURE
-
-                    if doc_label == DocItemLabel.SECTION_HEADER:
-                        # Extract level from tag_name (e.g. "section_level_header_1" -> 1)
-                        level = int(tag_name.split("_")[-1])
-                        doc.add_heading(
-                            text=text_content,
-                            level=level,
-                            prov=element_prov,
-                            content_layer=content_layer,
-                        )
-                    else:
-                        doc.add_text(
-                            label=doc_label,
-                            text=text_content,
-                            prov=element_prov,
-                            content_layer=content_layer,
-                        )
-
         return doc
 
     @deprecated("Use save_as_doctags instead.")