chore: update pyproject.toml and ingestion parsers

maxpill · maxpill · commit 2596a484746c · 2025-07-11T16:45:06.000+02:00
- Reformatted authors and dependencies in pyproject.toml for consistency.
- Added PptxDocumentParser to the list of exported components in the ingestion parsers.
- Updated the router to use PptxDocumentParser for PPTX document types.
diff --git a/packages/ragbits-document-search/pyproject.toml b/packages/ragbits-document-search/pyproject.toml
@@ -5,17 +5,15 @@ description = "Document Search module for Ragbits"
 readme = "README.md"
 requires-python = ">=3.10"
 license = "MIT"
-authors = [
-    { name = "deepsense.ai", email = "ragbits@deepsense.ai"}
-]
+authors = [{ name = "deepsense.ai", email = "ragbits@deepsense.ai" }]
 keywords = [
     "Retrieval Augmented Generation",
     "RAG",
     "Large Language Models",
     "LLMs",
     "Generative AI",
     "GenAI",
-    "Document Search"
+    "Document Search",
 ]
 classifiers = [
     "Development Status :: 4 - Beta",
@@ -31,7 +29,14 @@ classifiers = [
     "Topic :: Scientific/Engineering :: Artificial Intelligence",
     "Topic :: Software Development :: Libraries :: Python Modules",
 ]
-dependencies = ["docling>=2.15.1,<3.0.0", "opencv-python>=4.11.0.86,<5.0.0.0", "rerankers>=0.6.1,<1.0.0", "filetype>=1.2.0,<2.0.0", "ragbits-core==1.1.0"]
+dependencies = [
+    "docling>=2.15.1,<3.0.0",
+    "opencv-python>=4.11.0.86,<5.0.0.0",
+    "rerankers>=0.6.1,<1.0.0",
+    "filetype>=1.2.0,<2.0.0",
+    "ragbits-core==1.1.0",
+    "python-pptx>=1.0.0,<2.0.0",
+]
 
 [project.urls]
 "Homepage" = "https://github.com/deepsense-ai/ragbits"
@@ -44,9 +49,7 @@ unstructured = [
     "unstructured>=0.16.9,<1.0.0",
     "unstructured-client>=0.26.0,<1.0.0",
 ]
-ray = [
-    "ray[data]>=2.43.0,<3.0.0",
-]
+ray = ["ray[data]>=2.43.0,<3.0.0"]
 
 [tool.uv]
 dev-dependencies = [
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/__init__.py
@@ -1,4 +1,11 @@
 from ragbits.document_search.ingestion.parsers.base import DocumentParser, ImageDocumentParser, TextDocumentParser
+from ragbits.document_search.ingestion.parsers.pptx import PptxDocumentParser
 from ragbits.document_search.ingestion.parsers.router import DocumentParserRouter
 
-__all__ = ["DocumentParser", "DocumentParserRouter", "ImageDocumentParser", "TextDocumentParser"]
+__all__ = [
+    "DocumentParser",
+    "DocumentParserRouter",
+    "ImageDocumentParser",
+    "PptxDocumentParser",
+    "TextDocumentParser",
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/__init__.py
@@ -0,0 +1,5 @@
+from .parser import PptxDocumentParser
+
+__all__ = [
+    "PptxDocumentParser",
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/__init__.py
@@ -0,0 +1,21 @@
+from .extractors import (
+    DEFAULT_EXTRACTORS,
+    BasePptxExtractor,
+    HyperlinkExtractor,
+    ImageExtractor,
+    MetadataExtractor,
+    ShapeExtractor,
+    SpeakerNotesExtractor,
+    TextExtractor,
+)
+
+__all__ = [
+    "DEFAULT_EXTRACTORS",
+    "BasePptxExtractor",
+    "PptxHyperlinkExtractor",
+    "PptxImageExtractor",
+    "PptxMetadataExtractor",
+    "PptxShapeExtractor",
+    "PptxSpeakerNotesExtractor",
+    "PptxTextExtractor",
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/extractors/extractors.py
@@ -0,0 +1,245 @@
+from __future__ import annotations
+
+from abc import ABC, abstractmethod
+from typing import Callable, Any
+
+from pptx.presentation import Presentation
+from pptx.slide import Slide
+from pptx.shapes.base import BaseShape
+
+from ragbits.document_search.documents.document import DocumentMeta
+from ragbits.document_search.documents.element import ElementLocation, TextElement
+
+
+class BasePptxExtractor(ABC):
+    """Base class for all PPTX content extractors."""
+
+    def _get_slides(self, presentation: Presentation, slide: Slide | None = None) -> list[tuple[int, Slide]]:
+        """Get slides with their indices."""
+        slides = [slide] if slide else list(presentation.slides)
+        return list(enumerate(slides, start=1))
+
+    def _create_text_element(
+        self,
+        element_type: str,
+        document_meta: DocumentMeta,
+        content: str,
+        slide_idx: int,
+        shape: BaseShape | None = None,
+        coordinates: dict[str, Any] | None = None
+    ) -> TextElement:
+        """Create a TextElement with standardized location."""
+        if coordinates is None and shape is not None:
+            coordinates = {
+                "left": shape.left,
+                "top": shape.top,
+                "width": shape.width,
+                "height": shape.height
+            }
+        
+        location = ElementLocation(
+            page_number=slide_idx,
+            coordinates=coordinates or {}
+        )
+        
+        return TextElement(
+            element_type=element_type,
+            document_meta=document_meta,
+            location=location,
+            content=content
+        )
+
+    def _extract_from_shapes(
+        self,
+        presentation: Presentation,
+        document_meta: DocumentMeta,
+        slide: Slide | None,
+        shape_filter: Callable[[BaseShape], bool],
+        content_extractor: Callable[[BaseShape], str],
+        element_type: str = "text"
+    ) -> list[TextElement]:
+        """Generic method to extract content from shapes based on filter and extractor."""
+        elements: list[TextElement] = []
+        
+        for slide_idx, sld in self._get_slides(presentation, slide):
+            for shape in sld.shapes:
+                if shape_filter(shape):
+                    try:
+                        content = content_extractor(shape)
+                        if content.strip():
+                            element = self._create_text_element(
+                                element_type=element_type,
+                                document_meta=document_meta,
+                                content=content,
+                                slide_idx=slide_idx,
+                                shape=shape
+                            )
+                            elements.append(element)
+                    except (AttributeError, TypeError):
+                        continue
+        
+        return elements
+
+    @abstractmethod
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract content from the presentation or specific slide."""
+
+    @abstractmethod
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+
+
+class PptxTextExtractor(BasePptxExtractor):
+    """Extracts text content from text frames."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract text content from the presentation or a specific slide."""
+        return self._extract_from_shapes(
+            presentation=presentation,
+            document_meta=document_meta,
+            slide=slide,
+            shape_filter=lambda shape: shape.has_text_frame,
+            content_extractor=lambda shape: str(shape.text_frame.text).strip()
+        )
+
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_text_extractor"
+
+
+class PptxHyperlinkExtractor(BasePptxExtractor):
+    """Extracts hyperlink addresses from shapes."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract hyperlink content from the presentation or a specific slide."""
+        return self._extract_from_shapes(
+            presentation=presentation,
+            document_meta=document_meta,
+            slide=slide,
+            shape_filter=lambda shape: hasattr(shape, 'click_action') and shape.click_action.hyperlink.address,
+            content_extractor=lambda shape: shape.click_action.hyperlink.address,
+            element_type="hyperlink"
+        )
+
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_hyperlink_extractor"
+
+
+class PptxImageExtractor(BasePptxExtractor):
+    """Extracts image information from shapes."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract image content from the presentation or a specific slide."""
+        return self._extract_from_shapes(
+            presentation=presentation,
+            document_meta=document_meta,
+            slide=slide,
+            shape_filter=lambda shape: shape.image and shape.image is not None,
+            content_extractor=lambda shape: f"Image: {shape.image.filename if hasattr(shape.image, 'filename') else 'embedded_image'}",
+            element_type="image"
+        )
+
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_image_extractor"
+
+
+class PptxShapeExtractor(BasePptxExtractor):
+    """Extracts shape information and metadata."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract shape metadata from the presentation or a specific slide."""
+        return self._extract_from_shapes(
+            presentation=presentation,
+            document_meta=document_meta,
+            slide=slide,
+            shape_filter=lambda shape: hasattr(shape, 'shape_type'),
+            content_extractor=lambda shape: f"Shape: {shape.shape_type}",
+            element_type="shape"
+        )
+
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_shape_extractor"
+
+
+class PptxMetadataExtractor(BasePptxExtractor):
+    """Extracts document metadata."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract metadata from the presentation."""
+        core_properties = presentation.core_properties
+        properties = [
+            ("author", core_properties.author),
+            ("title", core_properties.title),
+            ("subject", core_properties.subject),
+            ("keywords", core_properties.keywords),
+            ("category", core_properties.category),
+            ("created", str(core_properties.created) if core_properties.created else None),
+            ("modified", str(core_properties.modified) if core_properties.modified else None),
+        ]
+        
+        elements = []
+        for prop_name, prop_value in properties:
+            if prop_value is not None and str(prop_value).strip():
+                element = self._create_text_element(
+                    element_type="metadata",
+                    document_meta=document_meta,
+                    content=f"{prop_name}: {prop_value}",
+                    slide_idx=0
+                )
+                elements.append(element)
+
+        return elements
+
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_metadata_extractor"
+
+
+class PptxSpeakerNotesExtractor(BasePptxExtractor):
+    """Extracts speaker notes from slides."""
+
+    def extract(self, presentation: Presentation, document_meta: DocumentMeta, slide: Slide | None = None) -> list[TextElement]:
+        """Extract speaker notes from the presentation or a specific slide."""
+        elements: list[TextElement] = []
+        
+        for slide_idx, sld in self._get_slides(presentation, slide):
+            if sld.has_notes_slide and sld.notes_slide.notes_text_frame is not None:
+                notes_slide = sld.notes_slide
+                notes_text_frame = notes_slide.notes_text_frame
+                text = notes_text_frame.text.strip() if notes_text_frame is not None else None
+                
+                if text and notes_text_frame is not None:
+                    coordinates = {
+                        "left": notes_text_frame.margin_left,
+                        "right": notes_text_frame.margin_right,
+                        "top": notes_text_frame.margin_top,
+                        "bottom": notes_text_frame.margin_bottom
+                    }
+                    
+                    element = self._create_text_element(
+                        element_type="speaker_notes",
+                        document_meta=document_meta,
+                        content=text,
+                        slide_idx=slide_idx,
+                        coordinates=coordinates
+                    )
+                    elements.append(element)
+
+        return elements
+
+    def get_extractor_name(self) -> str:
+        """Get the name of this extractor."""
+        return "pptx_speaker_notes_extractor"
+
+
+DEFAULT_EXTRACTORS = [
+    PptxTextExtractor(),
+    PptxHyperlinkExtractor(),
+    PptxImageExtractor(),
+    PptxShapeExtractor(),
+    PptxSpeakerNotesExtractor(),
+    PptxMetadataExtractor(),
+]
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/parser.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/pptx/parser.py
@@ -0,0 +1,56 @@
+from __future__ import annotations
+
+import logging
+
+from pptx import Presentation
+
+from ragbits.document_search.documents.document import Document, DocumentType
+from ragbits.document_search.documents.element import Element
+from ragbits.document_search.ingestion.parsers.base import DocumentParser
+from ragbits.document_search.ingestion.parsers.pptx.extractors import (
+    DEFAULT_EXTRACTORS,
+    BaseExtractor,
+)
+
+logger = logging.getLogger(__name__)
+
+
+class PptxDocumentParser(DocumentParser):
+    """
+    A comprehensive PPTX parser using python-pptx library with modular extractor architecture.
+    """
+
+    supported_document_types = {DocumentType.PPTX}
+
+    def __init__(
+        self,
+        extractors: list[BaseExtractor] | None = None,
+    ) -> None:
+        """
+        Initialize the PPTX parser with configurable extractors.
+
+        Args:
+            extractors: List of extractors to use. If None, uses DEFAULT_EXTRACTORS.
+        """
+        self.extractors = extractors or DEFAULT_EXTRACTORS
+
+    async def parse(self, document: Document) -> list[Element]:
+        """
+        Parse the PPTX document and return extracted elements.
+
+        Args:
+            document: The document to parse.
+
+        Returns:
+            List of extracted elements.
+        """
+        self.validate_document_type(document.metadata.document_type)
+
+        extracted_elements = []
+        presentation = Presentation(document.local_path.as_posix())
+
+        for extractor in self.extractors:
+            for slide in presentation.slides:
+                extracted_elements.extend(extractor.extract(presentation, slide))
+
+        return extracted_elements
diff --git a/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/router.py b/packages/ragbits-document-search/src/ragbits/document_search/ingestion/parsers/router.py